본문 바로가기
일/spark

Spark #1 :: Spark 개념, 구조

by blair2dev 2022. 2. 5.

 

  • 하둡의 문제점 
    대용량 일괄 배치 에느 효과적이지만 
    디스크 기반 이므로 많은 입출력 , 네트워크 트래픽 발생
    • 실시간 데이터 처리에 단점
    • 비동기적으로  발생하는 데이터 처리에 비효율적
    • 반복작업에 약함
  • 하둡 문제점 해결방안
    • 데이터 처리 방식을 disk 방식에서 memory 방식으로 전환
      최초 데이터 로드와 최종결과 저장시에만  disk 사용
      중간결과는 memory 활용 
      • disk IO -> MR -> disk IO -> MR -> ….
      • disk IO -> MR -> memory -> MR -> memory -> …
  • 인메모리 기반의 데이터 처리 SW -> SPARK 
    •  
    • Spark SQL
      • SQL 기반으로 
    • Spark Streaming 
      • 실시간 데이터 처리 
    • MLlib
      • 머신러닝 처리 
    • GraphX
    • Spark core 
      • 스파크의 분산 작업 처리, API, 입출력 등 기초기능 제공
    • Spark Standalone
      • 하둡없는 작업 처리 환경
    • Hadoop YARN
      • yarn 이 리소스 매니징해서 작업 처리
    • Mesos
      • yarn 비슷

 

Spark Architecture

 

' > spark' 카테고리의 다른 글

Spark Streaming 성능 Tuning  (0) 2022.05.24
Spark Streaming Graceful Shut Down  (0) 2022.05.01
Spark streaming :: Kafka Dstream  (0) 2022.02.22
Spark #2 :: RDD  (0) 2022.02.05