BigData.6 데이터 과학자는 뭐하는 사람일까?

실제 빅데이터의 가치는 무엇일까?

고객으로부터 만들어지는 혹은 정보 시스템에서 만들어지는 대량의 데이터를 계산하여, 정확한 예측 모델을 만들고 이를 통해 데이터 기반의 의사결정을 하고자 하는 것이다.

요즘의 컴퓨터 시스템은 더 이상 결정론적인(deterministic) 기계가 아니다. 요즘 정보 시스템들은 손에 잡히는 곳에 있지 않고 멀리 클라우드(cloud)에 혹은 가상 세계에 존재한다.

데이터 과학자(data scientist)는 빅데이터로부터 원료를 공급받는다. 데이터 과학자들은 이 새로운 빅데이터로부터 도전을 받고, 자극을 받고, 영감을 얻게 된다.

데이터 과학자는 필요한 모든 기술들을 가져다 조합하고, 크고 빠르게 변화하고 명확하지 않은 데이터의 혼돈(chaos)으로부터 의미(meaning)를 찾아낸다.

By Natasha Balac

환경의 변화

데이터 과학자라는 새로운 직업이 생기게 된데는 어떤 환경적 변화가 있었을까?

1. 관계형 데이터베이스 --> 엄청난 수의 클릭 스트림(click stream)

빅데이터 시대의 데이터는 4V로 보통 불린다. Volume, Variety, Velocity, Veracity(Veracity는 진실을 뜻하는데, 여기서는 거친 원석으로부터 정제된 보석을 뽑아내듯, 노이즈와 오류가 섞인 데이터에서 정제하여 의미있는 데이터를 뽑는 걸 의미함)

By Michael Walker, Data Science Central
사람에 의한 데이터 뿐 아니라, 예전에는 무심코 버렸던 기계에서 생성되는 데이터에 주목하게 되고, IoT의 보급으로 더 많은 센서데이터들이 폭증하는 추세다. 이런 데이터들은 형태도 다양하고, 직관적으로 의미를 알아내기 어려운 경우도 많다.

2. 정형화된(structured) 데이터 --> 거칠고, 복잡하고, 비정형화된 데이터 (raw, complex, unstructured)

정형화된 데이터를 주로 다루던 RDBMS나 데이터 웨어하우징(data warehousing)은 여전히 필요한 분야에서 쓰일 것이다. 하지만 새로 생겨나고 주목하는 데이터들은 이들이 다루기에는 너무 중구난방이다. 새로운 기술, 새로운 플랫폼을 필요로 한다. 예를 들어 Hadoop, HDFS, 데이터를 뽑아내어 적재하는 ETL(extract, transformation, loading) 기술, 고급 분석 기술 들이 포함된다.

3. SQL --> NoSQL (not only SQL)

정형화된 데이터를 다루던 RDBMS에서 사용하던 SQL은 빅데이터에서는 필수가 아니다. 빅데이터에서는 분산된 서버, 동시 처리, 비정형 데이터 등의 다른 환경으로 인해 다른 데이터 조회 방식이 요구된다. 물론 편의를 위해 SQL을 흉내내는 솔루션들도 있지만, 그 기반에는 빅데이터에 맞는 새로운 방식의 데이터 조회 방법이 있다.

4. 데이터를 보는 관점이 확장되었음

예전에는 고객 정보와 구매 정보만을 다루었지만, 이제는 고객의 행동(behavior), 소셜 인터랙션 데이터(like/dislike, follow, rating...), 그리고 이런 것들이 통합되어 만들어진 데이터들을 다루어야 한다.

혼돈에서 의미 찾기

데이터의 혼돈 속에서 의미를 찾으려면 여러가지 기술이 필요하다.

통합(integration), 변환(transformation), 적재(load) 기술들은 데이터를 수집해서 빅데이터 저장소에 실어준다.

다음으로 분석(analytics) 기술들이 있다. 단순 분석(simple analytics), 통계 분석(statistical analytics), 고급 분석(advanced analytics), 예측 분석(predictive analytics) 등이 있다.

이런 새로운 흐름은 비지니스 인텔리전스(BI, business intelligence)에서 예측, 통계분석, 확률분석이 포함된 비지니스 어낼리틱스(BA, business analytics)로 진화했고, 대쉬보드도 예측이 포함된 것으로 진화하여 앞으로 일어날 일을 대비할 수 있게 해 준다.

5. 지도 학습(supervised learning) --> 자율 학습 (unsupervised learning)

예전의 머신러닝(machine learning)은 사람의 지도를 필요로 했다. 일단 샘플을 구해서 여기에 정보를 태깅해서 기계를 학습시킨다. 예를 들어 사진을 인식하는 것이라면, 사진에 있는 피사체에 대한 정보를 태깅(개, 의자, 사람, 자전거 등)해서 입력시킨다는 의미이다. 이렇게 해서 예측 모델이 만들어지면 다른 문제를 풀 수 있다.

반면 자율 학습의 경우 사전에 사람이 학습을 시키지 않더라도 충분한 데이터를 입력하기만 하면 스스로 학습하는 방법을 뜻한다.

여기서 주의할 점은 상관도(correlation)가 높다고 해서 그것이 꼭 인과관계(causality)는 아니라는 것이다.  기계 학습을 통해서 어떤 변수와 어떤 변수가 밀접한 관계가 있다는 것을 밝혀낼 수는 있지만, 그것이 서로의 인과관계를 의미하는 건 아니라는 것이다.

6. 딥 러닝(deep learning)의 부각 

2000년대 들어 뛰어난 연구자들의 활약으로 인공신경망 모델의 단점이 극복되었고, 컴퓨터의 성능도 눈부시게 발전되었으며(특히 GPGPU), 무엇보다 많은 샘플 데이터들이 확보됨에 따라 기계학습의 비약적인 발전을 이루게 되었다.

딥 러닝은 기존의 플랫 파일(flat file)에서 보다 복잡한 데이터의 깊은 통찰을 얻어낼 수 있는 방법으로, 자세한 것은 다음에...


관련글 |
  - BigData.5 성공적인 빅데이터 프로젝트의 조건
  - BigData.7 데이터 과학자가 갖추어야 할 소양

댓글 없음:

댓글 쓰기

인기글