2021. 5. 3. 17:21ㆍ미래영역/경제 시사 분석 스터디
하둡의 역사
데이터 홍수의 시대에 살게 되면서 비정형데이터를 포함한 큰 데이터를 다루기 위한 프로그램이 필요하게 되었다. 하둡은 '더그 커팅'이란 사람이 루씬이라는 라이브러리를 기반에서 만들어진 자바 기반 프로그램이다. 구글이 발표한 논문을 바탕으로 만들어진 프로그램이다.
2002년, '넛치'라는 프로그램이 시작한다. 웹크롤링을 하는 과정에서 '빅데이터'를 저장하여 활용할 필요성을 느낀다. 2003년에 구글 파일 시스템이라는 논문을 발표하고, 넛치 프로그램 팀은 이러한 논문을 이용하여 병렬 분산 처리 프로그램을 작성하기 시작한다. 2004년 뿐만 아니라 구글 맵리듀스라는 논문을 또한 설명하기 시작하는데, 더그 커팅은 이러한 논문을 그대로 본따 맵리듀스를 제작한다.
당시 야후는 가장 큰 검색엔진 시스템이었는데, 경계심을 느낀 야후는 구글의 그러한 검색 엔진을 이기기 위하여 하둡에 투자한다. 그 이후로 계속해서 하둡은 발전하고, 지금은 3.3.30버젼 이상까지 나와 있는 상황이다.
HDFS - Hadoop Distributed File System 실제 사례
하둡의 분산 파일 시스템은 데이터를 여러 서버에 저장시키는 방식으로 진행된다. 해당 방식을 이용하여 하둡으로 데이터를 분석하는 기업들에 대한 몇 가지 사례를 알아보자.
샤오미는 타사 클라우드를 이용하기보다는 자기 기업에 서버를 설치하여 데이터를 관리하고 분석하기로 결정했다. 고객의 개인정보 유출에 대해 민감한 상황에서 이런 결정은 어쩌면 당연한 것일지도 모른다.
포토샵으로 유명한 어도비도 마케팅에 사용되는 빅데이터를 이용하기 위해 하둡을 이용하기로 했다. 이를 통해 어도비를 사용하는 사람들은 온오프라인 채널의 어도비 캠페인에도 참여할 수 있다.
사실 하둡은 어디서나 사용되긴 하지만 HDFS같은 경우 요즘 AWS를 비롯한 클라우드 플랫폼에 밀려 감소하는 추세이다. 그럼에도 불구하고 하둡 분산 파일 시스템은 초창기 빅데이터 분석의 기준이 되었고, 정형화된 파일 뿐만 아니라 비정형화된 다양한 데이터를 분석할 수 있었으며, 지금 클라우드 분산 파일 저장 시스템의 모태가 되었다는 점에서 그 의의를 찾을 수 있을 것이다.
'미래영역 > 경제 시사 분석 스터디' 카테고리의 다른 글
[I.o.T.] 의 지평을 넓히는 요즘 기업들 (0) | 2021.05.24 |
---|---|
한미정상회담 결과와 백신 (0) | 2021.05.22 |
AI윤리를 지키기 위한 기업의 노력: 위원회 (0) | 2021.05.13 |
도지코인 (0) | 2021.05.03 |
플랫폼형 기업 (0) | 2021.04.12 |