728x90

맵리듀스 : 하둡 에코시스템의 기본적인 프로그램의 패러다임. 스팍의 동작방식 동일하다. 

word count ex) n개의 단어가 block 단위로 나뉨. 

 

 

Spark : 기존의 맵리듀스 프로그램보다 더 빠르고 다양하게 사용할 수 있게 만든 것. 

컴퓨터 클러스터 벙렬 데이터 프로세싱을 하는 모듈 라이브러리 집합/ 통합된 컴퓨팅 엔진.



spark 은 기본적으로 scala 언어로 개발이 되어있고 function 언어의 장점을 가짐. 코드량도 간결하고 

데이터 프레임이 더 추상화 되어있어 개발의 생산성 측면에서 good!

 

데이터 분석도 가능하고, 머신러닝, 그래프 분석, 실시간 스트리밍 데이터 처리 모두 가능함. 

 

동작 방식 : 멀티노드의 구성.


 

할당받은 executors 에서 실제로 본인이 작성한 코드로 돌아가는 구조. 

 

 


 

 

 

 


spark : when not to use

spark 자체가 컴퓨팅을 하는 프레임워크이기 때문에 기존에 있던 DB solution을 대체 하는것도 아니다.

다른 기술과 결합해서 사용했을 때 좀 더 프로세싱 할 수 있는 능력이 좋아지는 것이다. 

데이터를 읽는 구조 자체가 shared storage 에서 읽어들이는 것이기 때문에 DB 만큼의 성능은 안나온다.

 

메모리 이슈는 계속 발생 중이다! 

 

 


 

 

 

+ Recent posts