Book

#01 빅데이터를 지탱하는 기술

버터젤리 2025. 2. 26. 21:19

 

 

https://product.kyobobook.co.kr/detail/S000001916916

목차

1장 → 빅데이터 개념
2장 → 데이터 형태, 집계 시각화(데이터분석)
3장 → 대규모 데이터를 빠르게 처리하는 분산 시스템 학습
4장 → 데이터 수집 기술
5장 → 데이터 파이프라인 구축 
6장 → 전체 데이터 관련 아키텍처 환경 구축

이 책을 읽게된 이유

 데브코스에서 멘토님께서 추천해주신 책이기도 했지만, 당시에는 필요성을 못느꼈다.

그러다가 새롭게 수강하게된 교육 과정에서, 팀 프로젝트 과제에 데이터 파이프라인을 넣고 싶었다.

짧은 프로젝트 기간에 내가 해보고 싶은 걸 제안하고 팀원들에게 동의를 얻으려면 사전에 준비 해둘 필요가 있다. 

헌데, 막상 아키텍처를 그려보려고하니 어떻게 구축해야 할지 감이 잡히질 않았다. 그와중에 이 책을 다른 교육생에게 받아서 읽게 되었다. 결론적으로는 책을 읽기전 원하는 것을 얻을 수 있었다. 

 

 

읽고나서 알게 된점

인프라를 공부하면서 알게 된 점이라면, 인프라 아키텍처에는 정답이 없었다. 마찬가지로 하위분야인 데이터 파이프라인 아키텍처 또한 정답이 없다. 그래서 초심자인 나에겐 더더욱 아키텍처 구성에 대한 확신이 부족했다. 그런 상황에서 기술적 리딩을 한다는 것도 불가능했다.

이 책을 읽으면서 얻게 된 점은 명확하다. 그 확신이 생겼다. 데이터 파이프라인의 아키텍처 구성요소들을 요구사항에 기반하여 적절히 배치 할 수 있게 되었다. 책을 읽을 때도 기술의 원리, 사용법 보다는 WHY에 기반해서 읽었다.

새롭게 깨닫게 된 부분을 정리하자면

  • 일반적으로 쌓이게 되는 데이터의 형태, 값을 기반으로 집계(Aggregation)가 필요한 이유
  • 빅데이터란 어느정도의 데이터를 말하는 것이고 이것에 대한 쿼리 실행 시 성능 문제로 분산처리가 필요하다는 점
  • 데이터 웨어하우스는 이러한 쿼리 작업을 빨리 끝내는데 집중한 분산처리 데이터베이스라는 점
  • 데이터 레이크는 여러 소스로부터 수집되는 저장소이며 데이터 보관, 정합성 체크 목적이 강하다는 점
  • 데이터 마트는 자주 사용하는 집계항목, 그래프를 미리 셋팅해놓는게 목적이라는 점
  • 데이터는 배치처리, 스트림처리 나눌 수 있으면 뼈대가 되는 기본 아키텍처 구성을 이해하는 것

물론 이전 교육 과정에서 동일한 배우기도 했으나, 첫번째 내용인 데이터에 대한 형태를 자세히 다루지 않았고 그로인해 각 구성요소들에 대한 필요성을 실감하지 못했달까? 그런데 이 책에서는 꽤나 자세히 데이터의 형태를 보여주고 논리적으로 설명을 이어 나감으로써 각 구성요소들이 왜 필요한지에 대한 답을 주었다.