BigData.7 데이터 과학자가 갖추어야 할 소양

By Pixabay
지금까지 알아 보았듯이 데이터는 넘쳐나는데, 이것을 다룰 수 있는 재능있는 사람은 찾기 힘들다.

맥킨지(McKinsey Global Institute)의 "Big Data Report"에 의하면...

2018년까지 미국에서만 심층 분석 기술(deep analytical skill)을 가진 인력은 14만~19만 정도 부족하고, 빅데이터 분석을 활용하여 효율적인 의사결정을 할 수 있는 관리자와 분석가가 150만명이 부족하다고 한다.

좀 뻥이 심한 것 같기는 하지만 그런 경향이라는 건 부정할 수 없다.

한편 포츈 매거진(Fortune Magazine)은 미국의 실업률이 9.1%로 절망적인 상황이지만, 기술 업계에서는 새로운 종류의 고도로 훈련된 괴짜같지만 멋진 일을 하는 사람들을 혈안이 되어 찾고 있는데, 그들이 바로 데이터 과학자(data scientist)들이라고 했다.

실제로 구인사이트 Indeed.com의 자료를 보면 2012년부터 "빅데이터"를 키워드로 한 구인광고가 급증하고 있음을 볼 수 있다.


데이터 과학자들은 누구인가?

그렇다면 이 괴상한 데이터 과학자들은 누구이며, 무슨 일을 하며, 어디에 있으며, 어떻게 될 수 있을까?

당신의 데이터가 에니그마(enigma, 나치 독일의 암호 장비)처럼 난해하다면, 그것의 비밀을 풀어내기 위해서는 뛰어난 컴퓨터(number cruncher)가 필요할 것이다. 그리고 이런 일을 하는 사람들이 데이터 과학자이다.

By MindManager Blog
아래 데이터 과학자에 대한 태그 클라우드(tag cloud)를 보면, 데이터 과학자들에게 필요한 기술들이 뭔지 대충 알 수 있다. 그들은 학자들이고, 예측 모델을 만들고, 머신러닝, 예측 분석, 데이터 마이닝 같은 것들이 연상된다.

By Data Manager Online
빅데이터는 사회 문화적인 측면에서도 부각되고 있다.

Michael Lewis의 머니볼(Moneyball)은 브래드 피트가 주연하는 영화로도 만들어 졌는데, 데이터에 기반한 야구단 경영으로 성공을 이룬 실화를 담고 있다. 오클랜드 애슬레틱스 구단주 "빌리 빈"은 선수의 인기도와 스타성은 배제하고 오로지 선수들의 퍼포먼스를 통계적으로 분석하고 의미있는 데이터를 뽑아내어 이에 근거한 구단 경영을 한 것으로 유명하다.

이 외에도 빅데이터와 데이터 기반 의사결정에 관한 다양한 측면의 책들이 나오고 있다. 이 책들은 수학적인 내용을 다루지 않고, 사회 문화적인 측면에서 빅데이터를 다루고 있다.


기업에서도 CEO, CIO(chief information officer) 외에 CDO(chief data officer)라는 새로운 임원의 자리가 생겨나고 있다. CDO는 엄밀히 데이터 과학자는 아니다. 대신 데이터에 근거하여 전략적/전술적 의사결정을 내리는 위치이다.

데이터 과학자가 되려면?

과학자(scientist)라고 하면 왠지 흰 가운을 입은 박사들이 연상된다. 예전에는 데이터를 통계적으로 다루고, 머신러닝을 구현하는 것들은 공부를 많이 한 전문가들이 매우 비싼 도구를 써서 했었다. 하지만 시대가 변해서 많은 빅데이터 처리 플랫폼과 통계 분석/머신러닝 도구들이 오픈소스로 개발되었고, 일정 정도의 교육과 이들 오픈소스 도구들을 사용하면 누구나(?) 빅데이터를 다룰 수 있는 데이터 과학자가 될 수 있다.

By Natasha Balac
데이터 과학은 여러 분야에 걸친 매우 종합적인 학문(multidisciplinary)이다. 아래 그림에서 보듯이 패턴인식, 통계학, 신경망, 머신러닝, 인공지능, 데이터 마이닝, 데이터베이스, 시각화(visualization) 등의 무시무시한 것들을 갖추어야 한다.

By Brendan Tierney

그렇다면 데이터 과학자들은 이런 기술과 지식만 습득하면 되는 것일까? 아니다. 데이터 과학자들이 다루고자 하는 것은 현실 속의 데이터이고, 그 데이터의 도메인(domain)에 대해서 잘 이해해야 한다. 그래야 데이터가 어디서 오는 것이고, 어떻게 수집해야 할지 알 수 있다.

그래서 데이터 과학자들은 좋은 커뮤니케이션 기술도 가지고 있어야 한다. 그 도메인의 전문가들이 하는 전문 용어를 파악해야 하고,  그들과 친하게 지내야 한다. 그래야 데이터에 대해 그들과 얘기할 수 있다. 더불어 프리젠테이션 기술도 매우 중요하다. 이것이 위 그림에서 바깥쪽 원에 표시된 것이다.

기술과 의사소통 능력 모두 중요하기 때문에 데이터 과학자를 구하기 어렵다. 한 사람이 이 둘을 갖추기가 매우 어렵기 때문이다. 그래서 데이터 과학은 팀 경기이다.  기술에 강한 사람들과 의사소통에 강한 사람들이 섞여서 팀을 이루어야 제대로 프로젝트가 돌아간다.

성공적인 데이터 과학자들의 특징은 아래와 같다.
  • 지적 호기심(intellectual curiosity)과 직관(intuition)
  • 의사소통(communication)과 적극적인 참여(engagement) : 많은 조직의 사람들을 만나고 의사소통해야 한다. 
  • 프리젠테이션 기술 (presentation skill) : 데이터에 담긴 스토리를 얘기해야 한다. 
  • 창의성 (creativity)
  • 비지니스 통찰력 (business savvy) : 비지니스에 대해 잘 이해하고, 현실로 만드는 능력이 있어야 한다.
Amazon의 데이터 과학자에 대한 구인 광고를 보면 시장에서 어떤 데이터 과학자를 원하는지 감을 잡을 수 있다. 지금까지 얘기했던 데이터 과학자의 필수 소양이 빠짐없이 언급되어 있음을 볼 수 있다. 특히 "한 손으로는 화이트보드에 수식을 써 내려가면서, 다른 손으로는 키보드로 코딩하는 능력이 있으면 가장 이상적이다"라는 문구가 인상적이다.

By Natasha Balac
데이터 과학자에게 중요한 또 하나의 자질은 "데이터를 소중하게" 여기는 것이다. 데이터 과학자가 다루게 될 데이터는 대부분 어떤 회사의 자산이거나 기밀이다. 혹은 프라이버시에 민감한 고객의 데이터일 수도 있다. 그래서 그것이 고의든 실수든 간에 외부로 노출되거나 잃어버리지 않아야 한다.

물론 Hadoop을 위시한 빅데이터 플랫폼들은 보안에 관한 대책을 가지고 있긴 하다. 그러니 그것을 잘 이해하고 활용해야 한다.

By Alper Uzun, biocomicals.com
모든 직장인들은 자신의 기술을 향상시키고 싶어한다. 당신이 이미 데이터 과학자이든, 아니면 지망생이든 데이터 과학자라면 아래와 같은 기술들에 대해 파악하고 있어야 한다. 시장에서는 데이터 과학자라면 이 정도 기술은 다 알고 있을 것이라 기대하고 있다.

데이터 과학자에 요구되는 기술은 크게 수학/통계학, 프로그래밍/데이터베이스, 도메인 지식/감성(soft skill), 의사소통/시각화로 볼 수 있다. (이건 뭐 God를 뽑는 건지...)
  • 수학/통계학 : 머신러닝, 통계 모델링, 실험 디자인, 베이지안 추론(Bayesian Inference), Supervised Learning(Decision Tree, Random Forest, Logistic Regresion), Unsupervised Learning(Clustering, Dimension Reduction), Optimization(Gradient Descent & Variants)
  • 프로그래밍/데이터베이스 : 컴퓨터 과학 기초, Python같은 스크립트 언어, R 같은 통계 프로그램, SQL과 NoSQL 데이터베이스, 관계대수(Relational Algebra), 병렬 데이터베이스&병렬 쿼리 처리, MapReduce, Hadoop & Hive/Pig, Custom Reducers, AWS 같은 XaaS 경험(클라우드)
  • 도메인 지식/감성(soft skill) : 비지니스에 대한 열정, 데이터에 대한 호기심, 친근하게 다가가기, 해커의 마음가짐, 문제 해결사, 전략적/선행적/창의적/혁신적/협력적 마인드
  • 의사소통/시각화 : 고위 관리자와 잘 일하기, 스토리 텔링 기술, 데이터 기반의 통찰을 의사결정과 행동으로 전환하기, 예술적 시각화 디자인, ggplot/lattice같은 R 패키지, Flare/D3.js/Tableau 같은 시각화 도구에 대한 지식
By Krzysztof Zawadzki, Marketing Distillery
데이터 과학자는 흰 가운을 입고 연구실에 쳐박혀 혼자만의 고행을 하는 사람들이 아니다. 그들은 과학자로서의 학문적 지식과 프로그래머로서의 기술을 가지고 있으면서도, 사람들과 섞여 비지니스를 변화시키는 활동가에 예술적인 프리젠테이션과 스토리 텔링까지 해야 하는 그야말로 "슈퍼맨"이다.
By import.io
그래서 사람들이 데이터 과학자를 21세기 들어 가장 섹시한 직업(The Sexiest Job of The 21st Century)이라고 얘기한다.


관련글 |
  - BigData.6 데이터 과학자는 뭐하는 사람일까?
  - BigData.8 데이터 과학자들을 분석해 보면?

댓글 없음:

댓글 쓰기

인기글