[책 리뷰] 스파크를 활용한 실시간 처리

apache_spark-01

이 리뷰는 한빛미디어 <나는 리뷰어다=""> 활동을 위해서 책을 제공받아 작성된 서평입니다.

빅데이터의 시대에 맞춰서 데이터 플랫폼은 계속해서 발전해나가고 있다. 그 중에서도 스파크는 대량의 스트림 처리를 지원하는 가장 유명한 듯 싶고 사실상 표준으로 성장한 것 같다. 스파크는 데이터분석 등 스트림 말고 다른 기능들도 제공하는데 이 책은 그 중에서도 정확히 스트림 처리와 관련된 부분만을 다루고 있는 책이다. 그래서 만약 작성자처럼 스파크 경험이 없다면 읽는 데 어려움을 겪을 지도 모르겠다. 개인적으로 추후에 다른 스파크 기본서를 읽고 다시 봐야 겠다는 생각이 들었다.

초반에는 혹시나 스파크를 아직 잘 이해하지 못하는 사람들을 위해서 용어, 스트리밍 처리 모델, 아키텍처 등에 대해서 설명해준다. 하지만 초반부에서 “스파크를 어느정도 사용할 줄 아는 사람들을 위한 책” 이라는 말에 맞게 간략하게만 설명하고 넘어간다. 만약 작성자가 스파크를 다루던 사람이라면 짧게 넘어가는 부분이 마음에 들었을 것 같다는 생각이 들었다.

그 이후부터는 이 책에서 중점적으로 다루려고 하는 “구조적 스트리밍”, “스파크 스트리밍” 에 대해서 자세히 다루기 시작한다. 우선 구조적 스트리밍 파트에서는 이에 대한 기초적인 설명으로 시작해서 이벤트 기반의 스트리밍, 모니터링 그리고 아직 릴리즈라기보단 실험적인 영역에 있는 기능들까지 설명해준다. 그 후 스파크 스트리밍 파트에서는 비슷하게 기초부터 시작해서 모니터링, 성능튜닝까지 이야기 해준다. 마지막장에서는 머신러닝을 사용할 수 있도록 약간 맛보기 설명이 있다.

개인적으로 이 책을 읽으면서 다른 스파크 책을 우선적으로 학습하고 이 책을 읽었으면 어땠을까 하는 생각도 들었다. 스파크는 실무에서 거의(아예) 써본적이 없어서 이 책의 난이도가 어디에 맞는지는 정확하게 모르겠다. 하지만 스파크 컴포넌트 중에서 두 가지 컴포넌트(구조적 스트리밍, 스파크 스트리밍)만을 상세하게 다룬 책이라 다른 책과 비교했을 때 강점이 있지 않을까 싶다.

작성자에게는 약간 어렵게 다가오기는 했지만 그래도 여러 기술 배우는 것을 좋아하는 개발자들에게는 한번 쯤 읽어봐도 좋을 것 같다.