- 하둡의 문제점
대용량 일괄 배치 에느 효과적이지만
디스크 기반 이므로 많은 입출력 , 네트워크 트래픽 발생- 실시간 데이터 처리에 단점
- 비동기적으로 발생하는 데이터 처리에 비효율적
- 반복작업에 약함
- 하둡 문제점 해결방안
- 데이터 처리 방식을 disk 방식에서 memory 방식으로 전환
최초 데이터 로드와 최종결과 저장시에만 disk 사용
중간결과는 memory 활용- disk IO -> MR -> disk IO -> MR -> ….
- disk IO -> MR -> memory -> MR -> memory -> …
- 데이터 처리 방식을 disk 방식에서 memory 방식으로 전환
- 인메모리 기반의 데이터 처리 SW -> SPARK
- Spark SQL
- SQL 기반으로
- Spark Streaming
- 실시간 데이터 처리
- MLlib
- 머신러닝 처리
- GraphX
- Spark core
- 스파크의 분산 작업 처리, API, 입출력 등 기초기능 제공
- Spark Standalone
- 하둡없는 작업 처리 환경
- Hadoop YARN
- yarn 이 리소스 매니징해서 작업 처리
- Mesos
- yarn 비슷
'일 > spark' 카테고리의 다른 글
Spark Streaming 성능 Tuning (0) | 2022.05.24 |
---|---|
Spark Streaming Graceful Shut Down (0) | 2022.05.01 |
Spark streaming :: Kafka Dstream (0) | 2022.02.22 |
Spark #2 :: RDD (0) | 2022.02.05 |