By Cloudera |
먼저 Hadoop이 뭔지 정의를 살펴보자. Apache Hadoop 프로젝트는 안정적이고, 스케일러블하고, 분산 컴퓨팅을 지원하기 위한 오픈소스 소프트웨어를 개발하고자 하는 것으로, 일반적인(commodity) 서버들의 클러스터에 커다란 데이터 집합들을 배치하여 분산 프로세싱을 가능케 한다.
그렇다면 왜 사람들은 Hadoop에 열광하는 것일까? 그것은 적은 비용으로, 확장성이 뛰어나며, 무장애로 운영할 수 있으며, 유연하기 때문이다.
By Natasha Balac |
Cloudera 퀵스타트 VM 설치하기
앞서 얘기했듯이 우리는 가장 쉬운 방법으로 Hadoop을 맛 볼 것이다. 이를 위해 Cloudera의 퀵스타트 VM을 사용할 것이다. 퀵스타트 VM은 이미 Hadoop(정확히는 Cloudera 배포판)이 이미 설치되고 세팅된 디스크 이미지를 VirtualBox나 VMWare같은 가상화 소프트웨어에서 바로 실행할 수 있도록 제공하는 것이다.
퀵스타트 VM을 다운받기 위해서는 www.cloudera.com으로 들어가 "Downloads"에 이어 "Quick Start VM"을 선택하면 된다. 혹은 이 링크로 바로 들어가자. VM이미지의 크기는 대략 4GB 정도 되고, 설치하면 8GB 정도의 가상디스크가 생기므로 이 정도의 공간이 확보되어 있어야 한다.
그리고 이 VM들은 64비트 CentOS가 설치된 것이기 때문에, VMWare나 VirtualBox를 실행하는 호스트 OS도 64비트여야 한다.
나는 VirtualBox를 사용할 것이므로 VM 이미지도 VirtualBox용을 받는다. 그리고 VitualBox를 실행시켜 "가상시스템 가져오기"를 선택하고, 아래 그림과 같이 .ovf 파일을 오픈하면 된다.
이어서 이 가상머신을 실행하면 아래와 같이 CentOS를 로딩하는 화면이 나온다. 그런데 처음 실행할 때는 이 화면에서 5분 이상 멈춰있게 된다. 안된다고 생각하고 섣불리 X 누르지 말고, 느긋하게 기다리자.
이윽고 가상머신의 부팅이 완료되면 아래 그림과 같이 Firefox가 하나 뜨게 되며, 여기서 Cloudera와 첫 대면을 할 수 있다. 상당히 인상적이고 깔끔한 첫인상이다.
여기서 튜토리얼에 해당하는 "Get Started"를 클릭해서 한번 둘러보는 것이 좋겠다. 물론 상세한 내용들은 이어지는 글에서 계속 다룰 것이지만, 이 튜토리얼을 통해 어떤 모듈이 어떤 역할을 하고, 전체적으로 Hadoop이 할 수 있는 일에 대해서 느낌을 가질 수 있을 것이다.
Hadoop에 데이터 넣어 보기
이제 "Hue"라고 쓰여져 있는 탭을 클릭하자. Hue는 Hadoop의 웹 유저 인터페이스라고 보면 된다. 그러면 로그인 창이 뜨는데 사용자 이름과 암호 모두 "cloudera"라고 입력하면 된다.
이제 터미널을 열어서 Hadoop에 실제 데이터를 넣어보기로 하자. 터미널은 화면 상단 메뉴의 검은 사각형 아이콘을 클릭하면 나온다. 여기서 Hadoop에 파일을 넣는다는 것은 엄밀히 말하면 HDFS에 파일을 써 넣는다는 뜻이다.
터미널에서 다음과 같은 명령을 입력하여 testfile.txt를 만들어 보자.
$ echo "Hello world in HDFS" > testfile.txt
이제 이 파일을 다음과 같은 명령으로 HDFS에 올릴 수 있다.
$ hdfs dfs -put testfile.txt
잘 올라갔는지 확인하려면 다시 Firefox에 떠 있는 Hue 화면으로 돌아가 상단의 "File Browser" 메뉴를 클릭한다. 이 메뉴는 Firefox 창이 작을 때는 숨겨지므로, 안보이면 좌우 폭을 넓혀보기 바란다. 어쨌든 File Browser를 클릭하면 testfile.txt가 올라와 있는 걸 볼 수 있다.
관련글 |
- BigData.8 데이터 과학자들을 분석해 보면?
댓글 없음:
댓글 쓰기