12 April 2019

엑셀만 알아도 할 수 있는 데이터 과학

책 제목에서부터 쉽게 풀어썼을 것 같은 느낌에 이 책에 관심이 갔다. 막상 실무에서 데이터 과학을 한다 하더라도 엑셀을 많이 사용하는 편이고 꼭 복잡한 기술을 써야하는게 아니기 때문에 책 제목이 마음에 들었다.

이 책 앞 부분에 있는 옮긴이의 말 처럼 데이터 과학은 꼭 대용량 컴퓨터가 필요하고 복잡한 기술이 없어도 가능한게 데이터과학이라 생각한다. 이 책의 초반에 나오는 이 얘기를 통해 이 책이 쉽게 쓰여졌음을 그리고 기본적인 통계기능과 엑셀의 몇 가지 수식만으로도 데이터과학을 할 수 있음을 얘기해 준다.

또, 이 책은 일본어로 된 책을 번역한 책이라 공공데이터를 사용했다 하더라도 일본의 데이터를 그대로 사용했겠다 생각했는데 일본 공공 데이터와 함께 국내 공공데이터를 활용하는 사례도 함께 나와있다.

데이터의 척도와 종류에 따라 분석하는 방법이 달라지는데 질적자료, 양적자료에 대해 자세하게 설명이 되어 있다. 데이터를 바라볼 때 질적자료인지 양적자료인지 수치형인지 범주형인지 연속적인지 비연속적인지에 따라 분석과 시각화가 달라지는데 이런 부분도 예제와 실습을 적절하게 구성되어 있다.

데이터 클리닝, 새로운 변수의 작성 등 데이터를 전처리 하거나 분석을 해서 새로운 변수를 추가해주는 이유에 대해 설명하고 그 방법을 구체적으로 설명하고 있다. 이 책에서는 인구데이터를 주로 예제로 사용하는데 연령을 20대, 30대, 40대 처럼 숫자의 특성의 데이터를 범주화 하는 기법에 대해서도 설명과 함께 시각화가 되어 있어 이해하기 쉽게 되어 있다.

연령의 binning 혹은 bucketing 예제

막대그래프의 종류

막대그래프를 그릴 때 다양한 종류로 그릴 수 있는 예제와 쌓아올린 막대그래프와 쌓아올리지 않은 막대그래프의 차이를 시각화 하여 잘 설명하고 있다.

표준오차, 첨도, 왜도 데이터 과학을 다루며 기본적으로 배우게 되는 이론적인 내용에 대해서 수학공식과 함께 이해할 수 있도록 되어있다.

국내통계 일본 서적이라 일본의 공공데이터만 다루지 않을까 했는데 역자가 국내데이터로 이 부분을 따로 만든것 같다. 국내에서 사용할 수 있는 인구데이터를 가져와 우리나라에 맞게 실습할 수 있도록 가이드를 주고 있다.

전체적으로 쉽게 설명하려고 노력한 흔적이 많이 보이는 책이다. 통계학에 대한 기초적인 지식을 이해할 수 있고, 데이터 요약과 시각화를 인구데이터를 통해 실질적인 예제로 이해할 수 있도록 구성되어 있다. 통계는 수식이 많고 복잡해서 실제 데이터로 이해해보고 공식을 적용해 보지 않으면 개념을 이해하기가 쉽지 않은데 이런부분을 최대한 쉽게 설명하려고 노력한 책인 것 같다.