#01 빅데이터를 지탱하는 기술

2025. 2. 26. 21:19·Book
목차
  1. 목차
  2. 이 책을 읽게된 이유
  3. 읽고나서 알게 된점

 

 

https://product.kyobobook.co.kr/detail/S000001916916

목차

1장 → 빅데이터 개념
2장 → 데이터 형태, 집계 시각화(데이터분석)
3장 → 대규모 데이터를 빠르게 처리하는 분산 시스템 학습
4장 → 데이터 수집 기술
5장 → 데이터 파이프라인 구축 
6장 → 전체 데이터 관련 아키텍처 환경 구축

이 책을 읽게된 이유

 데브코스에서 멘토님께서 추천해주신 책이기도 했지만, 당시에는 필요성을 못느꼈다.

그러다가 새롭게 수강하게된 교육 과정에서, 팀 프로젝트 과제에 데이터 파이프라인을 넣고 싶었다.

짧은 프로젝트 기간에 내가 해보고 싶은 걸 제안하고 팀원들에게 동의를 얻으려면 사전에 준비 해둘 필요가 있다. 

헌데, 막상 아키텍처를 그려보려고하니 어떻게 구축해야 할지 감이 잡히질 않았다. 그와중에 이 책을 다른 교육생에게 받아서 읽게 되었다. 결론적으로는 책을 읽기전 원하는 것을 얻을 수 있었다. 

 

 

읽고나서 알게 된점

인프라를 공부하면서 알게 된 점이라면, 인프라 아키텍처에는 정답이 없었다. 마찬가지로 하위분야인 데이터 파이프라인 아키텍처 또한 정답이 없다. 그래서 초심자인 나에겐 더더욱 아키텍처 구성에 대한 확신이 부족했다. 그런 상황에서 기술적 리딩을 한다는 것도 불가능했다.

이 책을 읽으면서 얻게 된 점은 명확하다. 그 확신이 생겼다. 데이터 파이프라인의 아키텍처 구성요소들을 요구사항에 기반하여 적절히 배치 할 수 있게 되었다. 책을 읽을 때도 기술의 원리, 사용법 보다는 WHY에 기반해서 읽었다.

새롭게 깨닫게 된 부분을 정리하자면

  • 일반적으로 쌓이게 되는 데이터의 형태, 값을 기반으로 집계(Aggregation)가 필요한 이유
  • 빅데이터란 어느정도의 데이터를 말하는 것이고 이것에 대한 쿼리 실행 시 성능 문제로 분산처리가 필요하다는 점
  • 데이터 웨어하우스는 이러한 쿼리 작업을 빨리 끝내는데 집중한 분산처리 데이터베이스라는 점
  • 데이터 레이크는 여러 소스로부터 수집되는 저장소이며 데이터 보관, 정합성 체크 목적이 강하다는 점
  • 데이터 마트는 자주 사용하는 집계항목, 그래프를 미리 셋팅해놓는게 목적이라는 점
  • 데이터는 배치처리, 스트림처리 나눌 수 있으면 뼈대가 되는 기본 아키텍처 구성을 이해하는 것

물론 이전 교육 과정에서 동일한 배우기도 했으나, 첫번째 내용인 데이터에 대한 형태를 자세히 다루지 않았고 그로인해 각 구성요소들에 대한 필요성을 실감하지 못했달까? 그런데 이 책에서는 꽤나 자세히 데이터의 형태를 보여주고 논리적으로 설명을 이어 나감으로써 각 구성요소들이 왜 필요한지에 대한 답을 주었다.

'Book' 카테고리의 다른 글

#02. 객체지향의 사실과 오해  (0) 2025.05.07
  1. 목차
  2. 이 책을 읽게된 이유
  3. 읽고나서 알게 된점
'Book' 카테고리의 다른 글
  • #02. 객체지향의 사실과 오해
버터젤리
버터젤리
  • 버터젤리
    across the universe
    버터젤리
  • 전체
    오늘
    어제
    • 분류 전체보기 (128)
      • 데이터 엔지니어 (0)
        • MLOPs (0)
      • 인프라 및 클라우드 (0)
        • Docker (0)
        • Kubernetes (0)
      • Development(개발) (2)
        • 백엔드 (0)
        • 개발 Core (2)
      • LLM (4)
        • 강화학습 (0)
        • LLM (4)
        • Generator (0)
      • PM (7)
        • IT Trends (0)
        • 세미나 후기 (7)
      • Deep learning (30)
        • 기초이론 (8)
        • 컴퓨터비전 (6)
        • 자연어처리 (5)
        • Anomaly Detection (6)
      • Machine learning (25)
      • Computer Science (26)
        • Linux (21)
        • 네트워크 (1)
        • 하드웨어 (4)
        • 운영체제(OS) (0)
      • 프로그래밍 언어 (17)
        • Python (8)
        • Pytorch (8)
        • Tensorflow (0)
      • Tools (14)
        • 주피터노트북 (7)
        • 깃(Git) (2)
        • 파이참 (5)
      • Book (2)
      • LIFE (0)
      • 창고 (0)
        • AI 인턴 (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    BatchNormalization
    객체지향의사실과오해
    batch normalization
    #git#github
    백그라운드
    책임
    역할과책임
    객사오
    역할
    @
    BN
    jupyer notebook
    nohup
    데코레이터
    리눅스#파일이동#특정이름#포함
    객체지향
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
버터젤리
#01 빅데이터를 지탱하는 기술
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.