728x90
하둡
: 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크.
분산 시스템인 HDFS에 데이터를 저장하고, 맵리듀스를 이용해 데이터를 처리한다.
- 여러 대의 서버에 데이터 저장하고, 저장된 각 서버에서 동시에 데이터를 처리하는 방식
- 기존의 RDBMS와 달리 데이터처리에 적합하지 않고, 배치성으로 데이터를 저장하고 처리
ex. 회원이 관심있게 보는 물품들, 이동경로, 머무르는 시간 등 배치성으로 저장되는 데이터
RDBMS : 회원가입, 결제진행 등
즉 하둡은 RDBMS와 협력하는 것
HDFS (Hadoop DIstributed File System)
: 대용량 파일을 하둡에 안정적으로 저장할 수 있게 하는 파일 시스템.
- 네임노드, 데이터노드 로 구성
(1) 네임노드
: 메타데이터 관리(파일 시스템 유지) , 데이터노드 모니터링(데이터노드는 네임노드에게 3초마다 하트비트 전송. 네임노드는 이를 이용해 데이터노드의 실행상태와 용량을 체크함. 하트비트를 전송하지 않는 데이터노드는 장애서버로 판단함.)
블록관리 , 클라이언트 요청접수
(2) 데이터노드
: 클라이언트가 HDFS 에 저장하는 파일을 로컬 디스크에 유지한다. 이 때 파일은 두가지로 저장됨. ( 실제 저장되는 로우데이터, 체크섬이나 파일생성일자같은 메타데이터)
'Data Engineering > Hadoop' 카테고리의 다른 글
하둡 설치 ) 네트워크 설정 - 1. SSH key 생성 및 교환 (0) | 2024.01.31 |
---|---|
Hadoop Yarn (0) | 2024.01.29 |
[Hive] - 특정 컬럼 제외 후 모두 선택 (0) | 2023.08.21 |
Hadoop (0) | 2022.05.29 |
맥에서 brew 로 하둡 경로 찾기, 옵션넣기 (0) | 2021.07.20 |