By Pixabay |
맥킨지(McKinsey Global Institute)의 "Big Data Report"에 의하면...
2018년까지 미국에서만 심층 분석 기술(deep analytical skill)을 가진 인력은 14만~19만 정도 부족하고, 빅데이터 분석을 활용하여 효율적인 의사결정을 할 수 있는 관리자와 분석가가 150만명이 부족하다고 한다.
좀 뻥이 심한 것 같기는 하지만 그런 경향이라는 건 부정할 수 없다.
한편 포츈 매거진(Fortune Magazine)은 미국의 실업률이 9.1%로 절망적인 상황이지만, 기술 업계에서는 새로운 종류의 고도로 훈련된 괴짜같지만 멋진 일을 하는 사람들을 혈안이 되어 찾고 있는데, 그들이 바로 데이터 과학자(data scientist)들이라고 했다.
실제로 구인사이트 Indeed.com의 자료를 보면 2012년부터 "빅데이터"를 키워드로 한 구인광고가 급증하고 있음을 볼 수 있다.
데이터 과학자들은 누구인가?
그렇다면 이 괴상한 데이터 과학자들은 누구이며, 무슨 일을 하며, 어디에 있으며, 어떻게 될 수 있을까?
당신의 데이터가 에니그마(enigma, 나치 독일의 암호 장비)처럼 난해하다면, 그것의 비밀을 풀어내기 위해서는 뛰어난 컴퓨터(number cruncher)가 필요할 것이다. 그리고 이런 일을 하는 사람들이 데이터 과학자이다.
By MindManager Blog |
By Data Manager Online |
Michael Lewis의 머니볼(Moneyball)은 브래드 피트가 주연하는 영화로도 만들어 졌는데, 데이터에 기반한 야구단 경영으로 성공을 이룬 실화를 담고 있다. 오클랜드 애슬레틱스 구단주 "빌리 빈"은 선수의 인기도와 스타성은 배제하고 오로지 선수들의 퍼포먼스를 통계적으로 분석하고 의미있는 데이터를 뽑아내어 이에 근거한 구단 경영을 한 것으로 유명하다.
이 외에도 빅데이터와 데이터 기반 의사결정에 관한 다양한 측면의 책들이 나오고 있다. 이 책들은 수학적인 내용을 다루지 않고, 사회 문화적인 측면에서 빅데이터를 다루고 있다.
기업에서도 CEO, CIO(chief information officer) 외에 CDO(chief data officer)라는 새로운 임원의 자리가 생겨나고 있다. CDO는 엄밀히 데이터 과학자는 아니다. 대신 데이터에 근거하여 전략적/전술적 의사결정을 내리는 위치이다.
데이터 과학자가 되려면?
과학자(scientist)라고 하면 왠지 흰 가운을 입은 박사들이 연상된다. 예전에는 데이터를 통계적으로 다루고, 머신러닝을 구현하는 것들은 공부를 많이 한 전문가들이 매우 비싼 도구를 써서 했었다. 하지만 시대가 변해서 많은 빅데이터 처리 플랫폼과 통계 분석/머신러닝 도구들이 오픈소스로 개발되었고, 일정 정도의 교육과 이들 오픈소스 도구들을 사용하면 누구나(?) 빅데이터를 다룰 수 있는 데이터 과학자가 될 수 있다.
By Natasha Balac |
By Brendan Tierney |
그렇다면 데이터 과학자들은 이런 기술과 지식만 습득하면 되는 것일까? 아니다. 데이터 과학자들이 다루고자 하는 것은 현실 속의 데이터이고, 그 데이터의 도메인(domain)에 대해서 잘 이해해야 한다. 그래야 데이터가 어디서 오는 것이고, 어떻게 수집해야 할지 알 수 있다.
그래서 데이터 과학자들은 좋은 커뮤니케이션 기술도 가지고 있어야 한다. 그 도메인의 전문가들이 하는 전문 용어를 파악해야 하고, 그들과 친하게 지내야 한다. 그래야 데이터에 대해 그들과 얘기할 수 있다. 더불어 프리젠테이션 기술도 매우 중요하다. 이것이 위 그림에서 바깥쪽 원에 표시된 것이다.
기술과 의사소통 능력 모두 중요하기 때문에 데이터 과학자를 구하기 어렵다. 한 사람이 이 둘을 갖추기가 매우 어렵기 때문이다. 그래서 데이터 과학은 팀 경기이다. 기술에 강한 사람들과 의사소통에 강한 사람들이 섞여서 팀을 이루어야 제대로 프로젝트가 돌아간다.
성공적인 데이터 과학자들의 특징은 아래와 같다.
- 지적 호기심(intellectual curiosity)과 직관(intuition)
- 의사소통(communication)과 적극적인 참여(engagement) : 많은 조직의 사람들을 만나고 의사소통해야 한다.
- 프리젠테이션 기술 (presentation skill) : 데이터에 담긴 스토리를 얘기해야 한다.
- 창의성 (creativity)
- 비지니스 통찰력 (business savvy) : 비지니스에 대해 잘 이해하고, 현실로 만드는 능력이 있어야 한다.
By Natasha Balac |
물론 Hadoop을 위시한 빅데이터 플랫폼들은 보안에 관한 대책을 가지고 있긴 하다. 그러니 그것을 잘 이해하고 활용해야 한다.
By Alper Uzun, biocomicals.com |
데이터 과학자에 요구되는 기술은 크게 수학/통계학, 프로그래밍/데이터베이스, 도메인 지식/감성(soft skill), 의사소통/시각화로 볼 수 있다. (이건 뭐 God를 뽑는 건지...)
- 수학/통계학 : 머신러닝, 통계 모델링, 실험 디자인, 베이지안 추론(Bayesian Inference), Supervised Learning(Decision Tree, Random Forest, Logistic Regresion), Unsupervised Learning(Clustering, Dimension Reduction), Optimization(Gradient Descent & Variants)
- 프로그래밍/데이터베이스 : 컴퓨터 과학 기초, Python같은 스크립트 언어, R 같은 통계 프로그램, SQL과 NoSQL 데이터베이스, 관계대수(Relational Algebra), 병렬 데이터베이스&병렬 쿼리 처리, MapReduce, Hadoop & Hive/Pig, Custom Reducers, AWS 같은 XaaS 경험(클라우드)
- 도메인 지식/감성(soft skill) : 비지니스에 대한 열정, 데이터에 대한 호기심, 친근하게 다가가기, 해커의 마음가짐, 문제 해결사, 전략적/선행적/창의적/혁신적/협력적 마인드
- 의사소통/시각화 : 고위 관리자와 잘 일하기, 스토리 텔링 기술, 데이터 기반의 통찰을 의사결정과 행동으로 전환하기, 예술적 시각화 디자인, ggplot/lattice같은 R 패키지, Flare/D3.js/Tableau 같은 시각화 도구에 대한 지식
By Krzysztof Zawadzki, Marketing Distillery |
By import.io |
관련글 |
- BigData.6 데이터 과학자는 뭐하는 사람일까?
- BigData.8 데이터 과학자들을 분석해 보면?
댓글 없음:
댓글 쓰기