28 August 2022

SQL로 시작하는 데이터 분석

SQL 책을 보면 대부분 기능적인 설명위주로 되어 있는데 이 책은 실제와 가까운 비즈니스 데이터 분석예제로 구성되어 있다. 최근 본 SQL 책 중에 가장 실무와 가깝고 재미있는 주제로 쓰여진 책이다.

다른 SQL책은 SQL문법 위주로 되어 있기 때문에 실무에 적용하거나 통계적인 연산을 고려해서 보려면 SQL과 통계에 대한 책을 따로 보고 또 그렇게 봤다 하더라도 맞게 적용한건지 의문이 들게 마련인데 이 책은 이런 어려움을 해결해 주는 책이다. 실무에서 사용되는 다양한 데이터 분석기법과 SQL 문법을 엮어서 설명한 점이 가장 좋다.

시계열 분석

날짜 및 시간 데이터를 처리하는 방법, 날짜 차원 테이블을 활용한 시간 윈도우 롤링 계산방법, 구간 비교계산과 계절성 패턴을 알아내는 방법을 다루고 있다. 실무에 필요한 비즈니스 예제로 구성되어 DAU, WAU, MAU 에 대한 이론적인 내용을 함께 설명하고 있다.

코호트 분석

각 그룹의 리텐션, 반복 행동, 누적값 등이 시간에 따라 어떻게 변화하는지 이해할 수 있도록 인구통계학적 분석 뿐만 아니라 통계적인 이론도 실무 예제와 함께 설명하는 점이 좋다. 예를 들면 상관 관계와 인과 관계의 다름을 설명하는 것도 좋다.

데이터 분석을 주로 다루기 때문에 SELECT 구문을 주로 다루며 다양한 함수와 서브쿼리 작성법을 다루고 있다.

텍스트 분석

like 구문 정규표현식 사용 등을 통해 텍스트 데이터 분석에 대해서도 다룬다. 텍스트에 포함된 내용을 SQL로 분석하는 다양한 예제를 제공하고 있다.

이상탐지

이상탐지에서도 SQL문법만을 다루는것이 아니라 이상탐지가 필요한 상황과 박스플롯, 스케일 변환 등의 통계적인 기법까지 다루고 있다.

실험분석

이상탐지, 코호트분석 등 다양한 유형의 분석을 아우르며 모바일게임 사용자 예제를 통해 카이제곱 검정, t-검정 등의 검정 방법을 다룬다. SQL 문법 뿐만아니라 실무에서 데이터분석을 위한 실험설계 방법까지 엮어 다룬다는 점이 이 책의 최고 강점이다.

복잡한 데이터셋 생성

분석 뿐만 아니라 좀 더 정교한 분석을 위해 뷰를 생성하는 방법, 복잡도 관리, 쿼리 성능 최적화, 결과 데이터셋에서의 프라이버시 보호 등 여러 SQL 문법을 다룬다.

기존까지 봤던 데이터 분석 책에 비교해봤을 때 다양한 도메인 데이터와 스토리텔링, 통계적인 내용을 쉽게 풀어 비즈니스 예제에 적용해준 점이 정말 인상적이다. SQL을 처음 다루는 사람에게도 도움이 되겠지만 SQL을 통해 분석을 해온 사람에게도 다양한 방법론과 통계적인 지식을 모두 쌓을 수 있는 책이다.

이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.