BigData.8 데이터 과학자들을 분석해 보면?

By O'Reilly
여기서는 오아일리 미디어(O'Reilly Media)에서 발간한 "분석가를 분석하다(Analyzing the Analyzers - Harlen D. Harris, Sean Patrick Murphy, Marck Vaisman)"라는 보고서의 내용을 소개할까 한다. 

이 보고서는 데이터 과학자들이 스스로를 어떻게 생각하는지, 그리고 그들의 일에 대해 어떻게 생각하는지를 설문조사하여 정리한 것이다. 그들의 경력이나, 학위, 사용하는 도구, 직위, 연봉, 조직 같은 것들은 고려하지 않았다. 단지 그들이 가지고 있는 기술이 무엇인지를 알고 싶었던 것이다.

소셜 네트워크를 통해 온라인 설문조사를 했으며, 완료된 설문 개수는 250개 였다.

데이터 과학자는 스스로를 어떻게 생각하나?

먼저 이들은 데이터 과학자들에게 스스로를 뭐라고 생각하는지(self-ID) 예/아니오 형식으로 물어 보았다. 예를 들어 "당신은 스스로 개발자(developer)라고 생각합니까?"라는 식이다.  그 결과 그들은 데이터 과학자들을 네가지 부류로 나눌 수 있다고 분석했다. 그것은 데이터 개발자(Data Developer), 데이터 연구자(Data Researcher), 데이터 창작자(Data Creative), 데이터 사업가(Data Businessperson) 이다. 

By O'Reilly, Analyzing the Analyzers
흥미로운 점은 이 결과가 바로 자율 학습(Unsupervised Learning)의 클러스터링(clustering) 분석 방법에 의해 도출되었다는 것이다.

다음으로 "일을 하는데 어떤 기술이 필요합니까?" 혹은 "당신의 전문 분야는 무엇입니까?" 라는 질문을 했다. 이 질문에 대한 대답을 정확하게 평가하기가 좀 까다로웠지만, 어쨌든 분석을 통해 데이터 과학자들은 22개의 기술을 다루고 있으며, 다음과 같이 클러스터링 되었다. 

By O'Reilly, Analyzing the Analyzers
위 표에서 ML = Machine Learning이고, OR = Operations Research (운용과학)의 약자이다.

이들은 데이터가 자신을 무엇이라 생각하는지와 자신이 가진 기술이 무엇인지를 병합하여 새로운 뷰를 만들었다. 이를 통해 각 부류의 데이터 과학자들에게 필요한(혹은 가지고 있는) 기술이 무엇인지를 가늠해 볼 수 있다.

By O'Reilly, Analyzing the Analyzers
위 도표를 통해 데이터 사업가는 역시 비지니스에 대한 이해도가 높아야 하고, 기본적인 통계와 머신러닝/빅데이터 개념도 필요한 걸 알 수 있다. 데이터 창작자는 비교적 고르게 모든 기술을 섭렵해야 하며, 데이터 개발자는 당연히 프로그래밍과 머신러닝/빅데이터 기술이 중요하다. 데이터 연구자는 통계학이 절대적으로 중요하다.

다른 측면에서 보면 데이터 과학자가 되려면 적어도 통계학, 머신러닝, 빅데이터, 비지니스 의사소통 중 하나는 전문적인 역량이 있어야 함을 알 수 있다.

데이터 과학자는 T형 전문가

David Guest에 의해 창안된 T형 전문가(T-shaped skills)라는 개념은 어떤 사람이 한 분야에 대한 깊은 전문 지식을 가지고 있으면서도, 관련된 다른 방면에 대해서도 어느 정도 지식이 있어, 타 분야의 사람들과도 협업이 원할한 사람을 의미한다.

By Kenny Rubin
설문을 할 때 데이터 과학자가 가진 기술에 대해 그 깊이를 숫자로 평가하도록 했는데, 이를 각 기술 분야로 나누어 각 데이터 과학자들을 살펴보면 다음 도표와 같다.

By O'Reilly, Analyzing the Analyzers
데이터 사업가는 비지니스 분야에서 데이터 연구자는 통계학 분야에서 깊은 전문 지식을 가지고 있으며, 동시에 다른 분야에 대해서도 어느 정도의 기본 지식은 갖추고 있다. 데이터 개발자의 경우는 프로그래밍과 머신러닝/빅데이터에 대한 깊은 전문 지식을 갖추고 있어, T형이라기 보다는 파이(π) 형이라고 볼 수 있다. 반면 데이터 창작자는 모든 분야에 걸쳐 왠만한 지식을 갖추고 있어 팔방미인(jack of all trades)이라고 볼 수 있다. (뭐냐 얘네들은? ㅡ,.ㅡ)

이 분석에서 얻을 수 있는 중요한 교훈은, 데이터 과학자들은 각 부류들이 모여 팀을 이루어야 제대로 된 역량을 발휘할 수 있다는 것이다.

데이터 과학자들의 배워야 할 것들

자, 이제 정리하는 의미에서 데이터 과학자들이 배워야 하는 세가지를 대해 정리해 보자.

1. 큰 규모의 데이터를 다루는 기술 (Data Manipulation at Scale)
  • 병렬/분산 데이터베이스/데이터 저장소, 병렬 쿼리 프로세싱, 데이터베이스 내의 분석(in-database analytics), Hadoop, 알고리즘, 언어들 
  • 키/값 저장소와 NoSQL, Entity Resolution, Record Linkage
2. 분석, 예측 분석, 그래프 분석, 텍스트 마이닝

3. 의사소통을 위한 산출물 
  • 시각화, 데이터 산출, 시각적 데이터 분석 
  • 출처(provenance), 프라이버시, 윤리(ethics), 관리(governance)


관련글 |

댓글 없음:

댓글 쓰기

인기글