오픈소스로 되어 있는 걸 간단히 정리 한 것입니다. 자세한 부분은 각 사이트를 접속 하셔서 참고하세요.
Hadoop http://hadoop.apache.org/
하둡은 여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
Map Reduce
하둡에서 제공하는 분산 컴퓨팅 엔진. 대용량 데이터세트를 컴퓨터 클러스터내에서 병렬로 처리하기 위한 컴퓨팅 프레임워크를 제공.
Yarn - 하둡2.0
“Yet Another Resource Negotiator”의 줄일말 하둡 1.0에는 맵리듀스 프레임웍이라는 하나의 분산처리환경만이 제공되었던 반면에 YARN은 차세대 분산처리환경으로 맵리듀스 프레임웍이외에도 다양한 종류의 분산처리환경 지원
Pig – 하둡 컨포넌트 – 하이레벨 스크립트 언어 http://pig.apache.org/
대용량 데이터셋을 분석하기 위한 고수준 언어로 데이터 분석 프로그램을 표현하기 위한 고유의 문법과 이러한 프로그램을 평가하기 위한 인프라스트럭처
Hive-하둡 컨포턴트 – 하이레벨 스크립트 언어 http://hive.apache.org/
하둡을 위한 데이터웨어하우스 시스템으로 쉬운 데이터 요약과 애드혹 질의, HDFS에 저장된 대규모 데이터셋의 분석을 가능하게 해준다.
HBase – NoSQL http://hbase.apache.org/
분산 및 컬럼 기반 데이터 베이스. 기반저장소로 HDFS를 사용. 맵리듀스를 이용한 배치 스타일의 계산과 랜덤 읽기 같은 원자적 쿼리가 모두 가능
Sqoop – RDBMS 연동 http://sqoop.apache.org/
하둡과 관계형 데이터베이스 사이에서 대량의 데이터를 효율적으로 전송하기 위해 디자인된 도구
Zookeeper – 분산 코디네이터 http://zookeeper.apache.org/
설정 정보와 명칠, 분산 동기화, 그룹 서비스를 유지하기 위한 중앙집중 서비스로 다양한 분산 시스템에 사용
Hue – 모니터링 http://gethue.com/
하둡을 모니터링, 관리하는 기능을 수행
Mahout – 기기학습 http://mahout.apache.org/
하둡맵리듀스에서 실행되는 머신 런닝 라이브러리
Flume – 데이터 수집 http://flume.apache.org/
데이터 발생원으로부터 데이터를 수집해 하둡 파일 시스템에 안정적으로 저장
Drill http://drill.apache.org/
아파치 드릴은 HDFS나 NoSQL 데이터베이스에 저장된 빅데이터를 분석하기 위한 오픈소스 분산 SQL 쿼리 엔진
Kafka http://kafka.apache.org/
대용량 데이터의 분산 메시징 시스템으로 실시간 데이터 전송에서 데이터 원천과 데이터 처리 사이에서 버퍼(Buffer) 역할
Phoenix http://phoenix.apache.org/
NoSQL인 HBase를 마치 RDB처럼 SQL을 통해 사용할 수 있도록 JDBC Driver를 제공해주는 라이브러리
ZeroMq http://zeromq.org/
분산 메세징 라이브러리
Presto - facebook https://prestodb.io/
분산 SQL 쿼리 엔진. 대화형 시스템에서 ad-hoc 분석 속도를 위해 최적화. 복잡한 쿼리문, 집합조인, 윈도우 기능들을 포함하는 ANSI SQL 표준을 서포트
Impala - 클라우드데라(미국하둡업체)
http://www.cloudera.com/products/apache-hadoop/impala.html
맵리듀스를 이용하지 않고 SQL 쿼리 처리 하는 기능
클레아두데라에서 제공되는 하둡을 써야하는 제약
Storm – Twitter http://storm.apache.org/
실시간 분석 분산 시스템. Haddop과 비슷
배치 처리에 초점.
Spark http://spark.apache.org/
대용량의 데이터를 처리하고 분석할 수 있는 인-메모리 클러스터 컴퓨팅 프레임워크. 빠른 성능을 위해 인 메모리 캐싱과 최적화된 실행을 사용
Spark Streaming
데이터가 수집되자 마자 처리고 되고 분석 되어야 할떄 필요로 하는 분산 스트리밍 프로세싱 프레임워크
Spark SQL
Spark 기반의 고수준 분산 질의 엔진으로서 기존의 SQL문을 활용한 질의가 가능
ChatGPT, 블록체인, 자바, 맥북, 인터넷, 컴퓨터 정보를 공유합니다.
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!