[도서 리뷰] 실전 시계열 분석 - 통계와 머신러닝을 활용한 예측 기법
이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.
파이썬 시계열 데이터 관련 한국어 서적이 많지 않은 상황에서 이 책이 출판되었다고 해서 많이 궁금했는데 <한빛미디어의 나는="" 리뷰어다="">를 통해 읽어보게 되었다.한빛미디어의>
지금도 흘러가는 시간속에서 많은 데이터가 쌓이고 있고 우리는 이렇게 쌓인 데이터를 통해 무언가 인사이트를 얻고자 한다. 매출액, 재고량, 판매량, 주가의 가격, 비트코인의 가격, 서버의 트래픽량 등 시계열은 업무 뿐만 아니라 실생활과도 밀접한 관련이 많다.
시간축을 기반으로 쌓여진 수 많은 데이터를 가져와서 탐색적 자료분석을 하고 시뮬레이션을 해본다든지 지난 간 데이터를 통해 얼마나 이 모델이 미래를 잘 예측할지 백테스팅 등을 수행해 볼 수도 있을 것이다. 이 책은 이러한 과정을 R, Python 두 가지 코드를 통해 설명하고 있다. 어떤 기능은 R을 통해 원하는 데이터를 해석하거나 인사이트를 얻어볼 수 있을것이고 또 어떤 기능은 Python이 더 적합하기도 할텐데 이 책은 R, Python 두 가지 언어를 넘나들며 시계열 데이터를 분해하고 설명하고 모델을 만들어 예측을 하는 과정으로 구성되어 있다.
여러 시계열 모델을 사용하다보면 그럴듯한 그래프와 리포트를 뽑아주지만 막상 데이터를 해석하고 적용하는 건 다른 문제였다. 대부분의 데이터 분석 책에서는 시계열 모델을 다루더라도 일부분만을 다루고 있기 때문에 시계열을 좀 더 자세히 잘 정리된 책으로 보고자 하는 사람들을 위한 책이다.
또, 데이터를 분석하고 예측하는 것 뿐만 아니라 시계열 데이터를 저장하고자 할 때 어떤 방법으로 저장을 하는게 더 나은지, 관계형 DB를 사용할지, NoSQL을 사용할지, 파일로 다루는게 나을지에 대한 내용도 있다.
모델을 통한 예측에서는 전통적인 통계모델 부터 머신러닝, 딥러닝을 다루며 이렇게 만든 모델의 성능을 어떻게 측정하면 좋을지에 대한 내용을 담고 있다.
이렇게 전반적인 시계열 데이터를 다룰 때 필요한 내용을 익히고 이를 기반으로 헬스케어, 금융, 정부를 위한 시계열 데이터를 다루는 예제로 구성되어 있다.
전체 568쪽으로 구성되어 있어서 적지 않은 분량이고 쉬운 내용은 아니지만 시계열데이터를 다룰때 필요한 내용들을 정리하고 활용하는데 도움이 되지 않을까 싶다.
그리고 중요한 소스코드는 여기에서 볼 수 있다. : https://deep-diver.github.io/practical-time-series-analysis-korean/
- 이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.