728x90
맵리듀스 : 하둡 에코시스템의 기본적인 프로그램의 패러다임. 스팍의 동작방식 동일하다.
word count ex) n개의 단어가 block 단위로 나뉨.
Spark : 기존의 맵리듀스 프로그램보다 더 빠르고 다양하게 사용할 수 있게 만든 것.
컴퓨터 클러스터 벙렬 데이터 프로세싱을 하는 모듈 라이브러리 집합/ 통합된 컴퓨팅 엔진.

spark 은 기본적으로 scala 언어로 개발이 되어있고 function 언어의 장점을 가짐. 코드량도 간결하고
데이터 프레임이 더 추상화 되어있어 개발의 생산성 측면에서 good!
데이터 분석도 가능하고, 머신러닝, 그래프 분석, 실시간 스트리밍 데이터 처리 모두 가능함.
동작 방식 : 멀티노드의 구성.

할당받은 executors 에서 실제로 본인이 작성한 코드로 돌아가는 구조.

spark : when not to use
spark 자체가 컴퓨팅을 하는 프레임워크이기 때문에 기존에 있던 DB solution을 대체 하는것도 아니다.
다른 기술과 결합해서 사용했을 때 좀 더 프로세싱 할 수 있는 능력이 좋아지는 것이다.
데이터를 읽는 구조 자체가 shared storage 에서 읽어들이는 것이기 때문에 DB 만큼의 성능은 안나온다.
메모리 이슈는 계속 발생 중이다!

'Data Engineering > Spark' 카테고리의 다른 글
spark RDD (2) - flatMap/samle,take,takeSample (0) | 2022.09.18 |
---|---|
spark(2) - 실행, RDD, map 변환 연산자 (0) | 2022.08.07 |
가상머신 설치 오류) bsdtar: Error opening archive: Unrecognized archive format / github 파일 다운받기 (0) | 2022.07.24 |
Apache Spark - 컴포넌트, 실행과정 (0) | 2022.06.12 |