하둡
여러분 안녕하세요. 오늘은 빅데이터, 하둡 그리고 스파크에 대해 배울 겁니다.
하둡
여러분 안녕하세요. 오늘은 빅데이터, 하둡 그리고 스파크에 대해 배울 겁니다.
빅데이터란 무엇인가요?
먼저 ‘빅 데이터'라는 용어는 실제 데이터를 의미하지 않습니다. 너무 거대하거나 복잡한 데이터셋을 분석하고, 체계적으로 정보를 뽑아 내거나 다루기 위한 분야입니다.
빅데이터 관한 4개의 V에 대해 꼭 알아야합니다.
자 이제 두 번째 유행어 하둡으로 넘어갑시다
하둡이란 무엇인가요?
아파치 하둡은 개발자로 하여금 컴퓨터 클러스터에 퍼져있는 거대 데이터셋을 분산 환경에서 쉬운 프로그래밍 모델로 처리할 수 있도록 도와주는 프레임워크입니다. 이 라이브러리는 하나의 서버에서 수천 개의 서버로 규모를 키울 수 있도록 설계되어 있습니다. 또한 라이브러리가 어플리케이션 단에서 일어나는 결함을 찾아내고 처리하기 때문에 하드웨어에서 나오는 보고에 의존할 필요가 없습니다. 이는 하둡이 서버 클러스터 위에서 고가용성 서비스를 할 수 있도록 합니다.
하둡 소프트웨어 라이브러리는 위의 설명들을 실현하는 모듈을 가지고 있습니다.
모듈
하둡 프로젝트는 아래의 모듈을 포함합니다:
하둡의 가장 중요한 특징은 사용자가 거대하고 구조화되지 않은 데이터를 분석할 수 있도록 하는 것입니다. 단순히 말하자면 하둡은 빅 데이터를 다룰 수 있도록 도와줍니다.
하둡은 어떻게 이 일을 할까요?
하둡의 생태계에 중요한 3가지 모듈에 대해 배워봅시다
HDFS - 하둡 분산 파일 시스템
이 시스템은 사용자가 하둡 클러스터에 있는 모든 노드에 퍼져있는 테라바이트 단위의 데이터에 접근 할 수 있도록 하는 데이터 저장소 모듈입니다. HDFS는 거대한 양의 데이터를 데이터 블록으로 나누고, 데이터 블록은 클러스터의 다양한 인터페이스를 통해서 관리합니다. 각 데이터 블록은 여러 개의 하드웨어로 복사되어 한 장치에서 결함이 발생하더라도 데이터를 이용할 수 있습니다.
하둡 맵리듀스
“맵리듀스”라는 용어는 하둡 어플리케이션이 실행하는 두 개의 다른 작업을 의미합니다. 매퍼는 각 요소를 튜플(키와 값의 쌍)의 형태로 나누어 데이터셋을 다른 데이터셋으로 변환합니다. 리듀서는 맵의 결과를 입력받아서 키와 값의 쌍을 더 작은 튜플 집합으로 합칩니다.
이 다이어그램에서 데이터가 어떻게 나뉘는지, 매퍼가 어떻게 작업을 분리하는지, 그리고 결과가 나오기 전에 최종적으로 리듀서가 어떻게 요약하는지를 볼 수 있습니다. 하둡 맵리듀스의 진정한 매력은 클러스터의 모든 노드에 대해 병렬화 되어 페타바이트 단위의 데이터를 몇 시간 안에 정렬 가능하다는 것입니다.
하둡 YARN - 또 다른 자원 협상자
Yarn은 그래프 처리, 상호작용이 가능한 처리, 스트림 처리, 하둡 분산 파일 시스템에 저장되어 있는 데이터를 실행하고 처리하기 위한 배치 처리와 같은 다른 데이터 처리 엔진을 제공합니다. 자원 관리와 별개로 Yarn은 작업 스케줄링도 합니다. Yarn은 또 다른 성장하는 기술로 하둡의 기능을 확장해 HDFS(세상에서 가장 믿음직하고 유명한 파일 관리 시스템)와 경제적인 클러스터의 장점을 누릴 수 있도록 합니다.
Apache Yarn은 하둡의 데이터 운영 체제이기도 합니다. 하둡의 아키텍처는 맵리듀스에 국한되지 않는 다목적 데이터 처리 플랫폼을 제공합니다. 하둡이 맵리듀스 외에 특별히 만들어진 데이터 처리 시스템을 처리할 수 있도록 합니다. 하둡이 설치된 같은 하드웨어에서 여러 개의 다른 프레임워크를 실행할 수 있습니다.
이제 하둡에 대해 잘 이해할 수 있게 되었길 바랍니다. 시간이 있다면 하둡을 설치해보세요. 하지만 작업을 빠르게 할 수 있는 많은 고급 애플리케이션들이 있으니 꼭 하둡을 사용할 필요는 없습니다.
참고자료
https://hadoop.apache.org
https://hadoop.apache.org
https://hadoop.apache.org
https://hadoop.apache.org
https://dataconomy.com
https://www.ibmbigdatahub.com
https://data-flair.training
https://www.datavard.com
https://hadoop.apache.org
https://www.datamation.com
comment