728x90

하둡

: 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크.

 분산 시스템인 HDFS에 데이터를 저장하고, 맵리듀스를 이용해 데이터를 처리한다.

 

- 여러 대의 서버에 데이터 저장하고, 저장된 각 서버에서 동시에 데이터를 처리하는 방식

- 기존의 RDBMS와 달리 데이터처리에 적합하지 않고, 배치성으로 데이터를 저장하고 처리

 

ex. 회원이 관심있게 보는 물품들, 이동경로, 머무르는 시간 등 배치성으로 저장되는 데이터

RDBMS : 회원가입, 결제진행 등

 

즉 하둡은 RDBMS와 협력하는 것

 

 

 

HDFS (Hadoop DIstributed File System)

: 대용량 파일을 하둡에 안정적으로 저장할 수 있게 하는 파일 시스템.

 

- 네임노드, 데이터노드 로 구성

(1) 네임노드

: 메타데이터 관리(파일 시스템 유지) , 데이터노드 모니터링(데이터노드는 네임노드에게 3초마다 하트비트 전송. 네임노드는 이를 이용해 데이터노드의 실행상태와 용량을 체크함. 하트비트를 전송하지 않는 데이터노드는 장애서버로 판단함.)

블록관리 , 클라이언트 요청접수 

 

(2) 데이터노드 

: 클라이언트가 HDFS 에 저장하는 파일을 로컬 디스크에 유지한다. 이 때 파일은 두가지로 저장됨. ( 실제 저장되는 로우데이터, 체크섬이나 파일생성일자같은 메타데이터)

 

 

출처 : https://yookeun.github.io/java/2015/05/24/hadoop-hdfs/

+ Recent posts