검색 상세

실시간 스트리밍 빅데이터 분석 시스템 설계 및 개발

초록/요약

본 논문에서는 빅데이터 분야의 주요 이슈인 실시간 빅데이터 처리를 위하여 In-Memory 기반 클러스터 컴퓨팅 기술인 Spark을 활용한 빅데이터 분석 시스템을 설계 및 구현하였다. 아파치(Apache Software Foundation)에서 오픈 소스 형태로 서비스 중인 Spark은 MapReduce를 대체하는 범용적 목적의 분산 고성능 클러스터 컴퓨팅 기술이며, 현재 빅데이터 처리 선두 기업에서 강력히 채택하고 있는 차세대 빅데이터 컴퓨팅 프레임워크라 볼 수 있다. 또한 실시간 메시지 전달 프레임워크인 Kafka를 이용하여 대용량 데이터 수집에 필요한 확장성을 확보하였으며, Spark에서 제공하는 라이브러리인 Spark-Streaming을 이용하여 수집 된 대용량 데이터를 실시간으로 처리 할 수 있도록 하였다. 구축된 시스템의 성능 평가에서는 In-Memory 기반 Spark 프레임워크가 기존의 MapReduce 배치 처리 기반의 Hive SQL 보다 최대 20배 이상 빠른 처리 시간을 보였으며, 이를 통해 제안된 분석 시스템이 Smart Factory(제조 공정)에서 발생하는 대용량 센서 데이터 실시간 분석에 기여할 수 있음을 확인하였다.

more

목차

제 1 장 서 론 …………………………………………………………….1

제 2 장 관련 연구 ………………………………………………………..4
제 1 절 빅데이터 분석 ……………….……………………………………4
제 2 절 실시간 스트리밍 분석 …………………………………………6
제 3 절 In-Memory 기반 클러스터 컴퓨팅: Spark ……………8

제 3 장 실시간 빅데이터 분석 시스템 …………………….……...9
제 1 절 시스템 설계 ……………………………………………………..10
제 2 절 실시간 스트리밍 처리 …………………………………………11
제 3 절 인메모리 분산 저장 데이터 …………………………………..13

제 4 장 성능 평가 ………………………………………………………15
제 1 절 시스템 구축 환경 ………………………………………………15
제 2 절 스트리밍 처리 ……….…………………………………………21
제 3 절 실험 결과 ………………………………………………………23
4.3.1. 분석 스크립트 …………………………………………………23
4.3.2. Spark와 MapReduce(Hive) 연산 속도 비교 ……………24
제 4 절 실시간 시각화 결과 ……………………………………………31

제 5 장 결 론 …………………………………………………………32

참고문헌 ………………………………………………………………………33
Abstract ……………………………………………………………………...36

more