본문 바로가기

Dev./Hadoop

What Is Apache Hadoop? (Apache Hadoop이 뭐냐?)

Apache Hadoop 공식 페이지

http://hadoop.apache.org/



Apache Hadoop이 뭐냐??


Apache Hadoop 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 이용해서 컴퓨터 클러스터들에 존재하는 대용량 데이터의 분산 처리를 가능하게 해주는 프레임워크 이다.


Apache Hadoop은 단일 서버 부터 수천대의 서버까지 확장이 가능하도록 구성되어 있다.

처리 실패(faulures)를 어플리케이션단 에서 감지하고 처리 할수 있도록 설계되어서 고사양의 매우 안정적인 하드웨어 몇대 보다는 조금 불안정한 서버들 이라도 여러대로 클러스터링해 놓으면 높은 가용성을 기대할 수 있다.



구성 모듈은 아래와 같다.

Hadoop Common: 다른 모듈을 지원하는 공통(Common) 모듈

Hadoop Distributed File System (HDFS™): 하둡 분산 파일 시스템

Hadoop YARN: job 스케줄링과 클러스터 자원 관리 프레임 워크

Hadoop MapReduce: YARN을 기반으로 한 대용량 데이터 병행 처리 시스템



그 외에 Hadoop 과 관련된 아파치 프로젝트 들:


Ambari™: Apache Hadoop 클러스터들(HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig, Sqoop 등)을 관리하고 모니터링 하는 웹 기반 툴. MapReduce, Pig, Hive와 같은 어플리케이션들의 가용성이나 상태등을 확인하고 진단 할 수 있는 대시보드를 제공한다.

Avro™: 데이터 직렬화(serializable) 시스템

Cassandra™: 확장 가능한 multi-master database

Chukwa™: 대규모 분산 시스템을 위한 데이터 수집 시스템

HBase™: 확장 가능한 분산 database. 대규모 table과 같은 구조적인 데이터를 저장 할 수 있다.

Hive™: 데이터 요약과 임시 쿼리를 지원하는 데이터 웨어하우스 인프라 스트럭쳐 (A data warehouse infrastructure that provides data summarization and ad hoc querying.)

Mahout™: 확장 가능한 기계 학습 및 데이터 마이닝 라이브러리

Pig™: 병렬 처리를 위한 high-level data-flow language 와 실행 프레임 워크

Spark™: Hadoop 데이터를 위한 빠르고 일반적인 처리 엔진. ETL, 기계학습, 스트림 프로세스, 그래프 처리와 같은 다양한 어플리케이션을 지원하는 단순하고 다양한 프로그래밍 모델을 제공한다.

ZooKeeper™: 분산 응용 프로그램을위한 고성능 조정 서비스를 제공합니다.

반응형