[도서 리뷰] AWS 기반 데이터 과학
이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.
실무에서 실시간으로 쌓이는 대용량 데이터를 사용해서 실무 프로젝트를 진행한다면 클라우드 환경을 빼놓고 일하기가 어렵다. 이 책은 여러 클라우드 제품군 중 AWS를 기반으로 쓰여졌다.
데이터과학에 대한 어느정도 기본 이해가 있는 상태에서 AWS제품군을 활용방안을 제시하고 있기 때문에 데이터 과학에 대한 기초 소양이 필요한 책이기도 하다.
현업에서 AWS의 제품군을 활용하여 어떻게 비즈니스를 해야하는지에 대한 구체적인 사례를 함께 제시하고 있다. 단순히 알고리즘 혹은 클라우드 제품에 대한 소개가 아니라 제품군을 활용하여 실제 비즈니스에 어떻게 활용되는지에 대한 사례가 있어야 현업에 어떻게 적용할지 아이디어를 얻을 수 있는데 그런 점에서 이 책이 좋은 가이드 역할을 한다.
AWS는 제품군이 다양하고 복잡해서 콘솔을 열면 어디부터 작업해야할지 난감한데 이 책을 활용하여 데이터 과학 프로젝트를 어떻게 구축하고 배포해야하는지 상세하게 배울 수 있다.
실제 사례를 바탕으로 자연어처리, 컴퓨터 비전, 사기 탐지 등 비즈니스에 접목할 수 있는 예시라 아이디어를 얻기 좋다.
아마존 ML 스택을 통해 세이지메이커 오토파일럿의 AutoML을 사용한 사례를 통해 복잡한 제품군에 대한 활용법을 찾아볼 수 있다. 머신러닝 모델을 반복가능한 MLOps 파이프라인으로 통한합는 방법, 아마존 키네시스와 아파치 카프카용 아마존 관리형 스트리밍을 활용하여 실시간 데이터 스트림에 머신러닝, 이상탐지, 스트리밍 분석을 적용한 사례를 다룬다.
추천시스템, 컴퓨터비전, 사디탐지, 자연어이해, 대화형 디바이스, 인지검색, 고객지원, 산업예측 유지관리, 홈자동화, 사물인터넷 등 적용해 볼 수 있는 다양한 사례를 제공하고 있기 때문에 데이터 과학 프로젝트를 어떻게 활용해야 하는지에 대한 힌트를 얻을 수 있는 책이기도 하다.
데이터 수집 및 분석, 피처 선택 및 엔지니어링, 모델 훈련 및 튜닝, 아마존 세이지메이커, 아마존 아데나, 레드시프트, 일레스틱 맵리듀스(EMR), 텐서플로, 파이토치, 서비리스 아파치 스파크 등 다루는 기술이 방대하고 데이터 과학을 위한 AWS의 대부분의 제품군을 다루고 있다.
AWS 제품군 위주로 다루고 있기는 하지만 비즈니스 사례에 대한 질문을 곳곳에서 적절하게 던져주고 있기 때문에 실제 비즈니스에서 어떤 고민을 하고 활용해야하는지 생각할 지점을 제공해 준다는 점도 좋다.
예를 들어 2015년에 동일한 상품에 대해 2개 이상의 리뷰를 작성한 고객은 누구인가? 각 상품의 평균 별점은 몇 점인가?와 같은 질문을 통해 현업에서 고민할만한 질문을 어떻게 해결해 나가야할지 현업의 고민을 녹이기 위한 노력이 보이는 책이기도 하다. AWS 제품군 활용 뿐만 아니라 이런 질문을 통해 비즈니스 사례에서 어떻게 활용하면 좋을지 함께 고민해 볼 수 있는 책이다.
이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.