Apache Spark 개념,활용

이유즈 2021. 3. 9. 15:18

2021. 3. 9. 15:18

728x90

맵리듀스 : 하둡 에코시스템의 기본적인 프로그램의 패러다임. 스팍의 동작방식 동일하다.

word count ex) n개의 단어가 block 단위로 나뉨.

Spark : 기존의 맵리듀스 프로그램보다 더 빠르고 다양하게 사용할 수 있게 만든 것.

컴퓨터 클러스터 벙렬 데이터 프로세싱을 하는 모듈 라이브러리 집합/ 통합된 컴퓨팅 엔진.

spark 은 기본적으로 scala 언어로 개발이 되어있고 function 언어의 장점을 가짐. 코드량도 간결하고

데이터 프레임이 더 추상화 되어있어 개발의 생산성 측면에서 good!

데이터 분석도 가능하고, 머신러닝, 그래프 분석, 실시간 스트리밍 데이터 처리 모두 가능함.

동작 방식 : 멀티노드의 구성.

할당받은 executors 에서 실제로 본인이 작성한 코드로 돌아가는 구조.

spark 자체가 컴퓨팅을 하는 프레임워크이기 때문에 기존에 있던 DB solution을 대체 하는것도 아니다.

다른 기술과 결합해서 사용했을 때 좀 더 프로세싱 할 수 있는 능력이 좋아지는 것이다.

데이터를 읽는 구조 자체가 shared storage 에서 읽어들이는 것이기 때문에 DB 만큼의 성능은 안나온다.

메모리 이슈는 계속 발생 중이다!

spark RDD (2) - flatMap/samle,take,takeSample (0)	2022.09.18
spark(2) - 실행, RDD, map 변환 연산자 (0)	2022.08.07
가상머신 설치 오류) bsdtar: Error opening archive: Unrecognized archive format / github 파일 다운받기 (0)	2022.07.24
Apache Spark - 컴포넌트, 실행과정 (0)	2022.06.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이유즈 데엔 여정