23 August 2020

이 책을 읽기 전까지 통계와 관련된 여러 책들을 봤었다. 지금까지 봤던 책들은 대부분 너무 어렵거나 파이썬이 아닌 R로 설명이 되어 있어서 적당한 수준의 파이썬 통계책이 있었으면 좋겠다고 생각했을 시점에 이 책을 보게 되었다.

너무 어려운 수준의 통계용어와 수식은 읽고나서도 무슨 내용인지 어떻게 적용해야 될지 감이 잘 오지 않았는데 이 책은 파이썬의 고수준 라이브러리인 seaborn, scipy 등을 사용해서 설명하기 때문에 어려운 통계 지식을 추상화해서 익혀볼 수 있다는 장점이 있다.

추상화해서 익혀보고 더 궁금하면 여기에서 좀 더 깊게 들어가는 책을 보면 좋을거 같다.

분량도 너무 두껍지 않고 들고다니기 적당한 두께라 읽을때도 부담없이 읽을 수 있었다. 물론 이 책은 내가 주로 사용하는 시각화 도구가 seaborn 이라 더 쉽게 느껴졌을 수도 있을거 같다.

seaborn은 matplotlib을 고수준으로 추상화해서 복잡한 통계연산에 대한 이해가 없더라도 데이터를 넣어주면 짠! 하고 다양한 통계적 연산을 통한 그래프를 그려볼 수 있다.

여기에서는 물고기 낚시를 통해 설명을 하는데 적절한 비유를 통한 설명도 이 책의 장점이다.

이 책의 목차를 보게 되면 기본적인 기술통계값에 대한 이해를 도울 수 있는 설명부터 데이터분석, 머신러닝, 딥러닝에 필요한 확률과 회귀에 대한 개념을 적절하게 추상화해서 설명해 준다.

이렇게 추상화를 통해 설명할 수 있는건 matplotlib을 사용하기 쉽게 만들어 놓은 seaborn 덕도 클것이라는 생각이 든다. seaborn은 파이썬 시각화 도구 중에 가장 자주 사용하는 도구인데 기본적인 통계적인 지식을 이해하고 있다면 쉽게 활용해 볼 수 있다.

그리고 책 후반부에는 통계학과 머신러닝, 딥러닝까지 연결해서 설명을 해준다.

코드 예제는 파이썬, 주피터 노트북이 있다면 대부분 간단한 코드로 되어 있기 때문에 바로 따라해 볼 수 있을 정도다. 요즘 생활코딩의 머신러닝 야학을 듣고 있는데 ‘적게 배워서 최대한 많이 써먹을 수 있는 전략’이 나오는데 이 책이 그런 역할을 해주고 있지 않나 싶다.

[평균과 분산과 데이터의 범위에 대한 그림] 중학교 때 배웠던 평균, 분산, 표준편차도 막상 업무에 적용하려면 어려울 때도 있다. 그림으로 이해하기 쉽게 설명을 해주고 있다.

[구간추정 결과의 해석] 뉴스나 신문기사에서 신뢰구간에 대한 용어를 가끔씩 듣게 되는데 이 신뢰구간도 간략하게 잘 설명이 되어 있다.

[신뢰구간의 계산]

[다중공선성]

[선형모델과 비선형모델의 차이]

파이썬으로 된 “쉬운” 통계책이 있었으면 좋겠다고 생각해 왔었는데 이 책이 그 답이 아닐까 싶다. 또, 코드 몇 줄로 다양한 통계연산을 구현할 수 있는 파이썬의 여러 라이브러리 덕도 클것 같다. 이 책은 “나는 리뷰어다” 이벤트 전에도 도서관에서 빌려와서 읽었던 책인데 코로나19로 도서관이 휴관을 하게 되어 장기간 대출해서 읽어봤던 책이기도 하다. 이번 이벤트를 통해 자주 꺼내 읽고 싶다는 생각이 들어 다시 읽어보게 되었다.