[도서 리뷰] 데이터 과학을 위한 파이썬과 R
이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.
데이터 과학, 통계 등을 시작하고자 할 때 어떤 언어를 선택할지에 대한 기로에 놓이게 된다. 파이썬과 R은 데이터과학 분야에서 주로 사용되는 언어이기도 하다.
보통 다양한 생태계를 이야기할 때는 파이썬을 통계 패키지를 좀 더 사용하고자 한다면 R을 추천하는 편이다. 서로 어떤 언어가 좋고 나쁘고를 떠나서 각 장점을 이해하고 사용하면 좋겠다는 생각을 해왔다. 주로 파이썬을 사용하는 입장에서 R관련 패키지에도 관심을 갖고 있으며 판다스의 주요 기능들이 R에서 영향을 받은 것이 많다는 것도 익히 들어왔다.
이 책은 데이터 과학을 위한 파이썬과 R을 비교해서 설명하고 있다. 이런 책 꼭 필요하다고 생각하고 있었는데 한빛미디어의 나는 리뷰어다를 통해 읽어보게 되었다. 해들리위컴의 tidy data 등의 여러 저널 자료와 ggplot의 철학을 통해 시각화를 이해하는데도 많은 도움이 되었다.
그럼 파이썬 사용자를 위한 R이라면 어떤 내용을 비교하면서 봐야 할까? 이미 파이썬을 통한 데이터과학 패키지 사용경험이 있는 사람이라면 다른 도구를 접했을 때 오히려 혼란스러울 수 있는데 이런 부분을 정리해 주고 있는 점이 좋았다.
또, 반대로 R사용자를 위해 파이썬을 사용할 때 어떤 점을 고려해야하는지에 대한 내용을 읽으면서 반대로 R을 이해하는데도 도움이 되었다.
파이썬과 R은 데이터과학에 사용되는 대표적인 언어로 이 두 언어가 서로 어떤게 더 좋다 나쁘다를 이야기하기 보다 서로의 장점을 이해하고 시너지를 낼 수 있는 방법에 대한 내용도 좋았다. 각 언어로 만들어진 도구마다 장점을 고려해서 사용할 수 있게 알려주고 있다.
시대별 마일스톤을 정리해 준 표가 인상적이었는데 중요한 출판자료, 중심언어, 핵심패키지, 재단과 기업 등을 한 눈에 살펴볼 수 있게 정리한 부분으로 시대적 흐름을 볼 수 있다.
각 데이터의 특성에 따라 어떤 처리를 해주어야 하는지에 대한 내용도 한눈에 볼 수 있다.
테이블 형식, 이미지, 텍스트, 시계열, 공간 정보에 따라 각 언어별 주요 패키지를 비교하고 있다.
데이터 멍잉, EDA, 머신러닝, 딥러닝, 데이터 엔지니어링, 보고서 작성에 대해서 비교한 표이다. 각 패키지별 유사한 기능을 하는 도구에 대한 이해를 돕는다.
두 언어를 한 번에 같이 사용하기보다는 절차를 통해 데이터 파일을 공유하는 형태로 각 언어의 장점을 활용하는 것을 추천하고 있다. 이 부분을 어떻게 설명할지 책을 읽기 전에 궁금한 부분이었는데 데이터 파일 형태로 파이프라인을 만드는 것이 프로세스상 혼란을 줄일 수 있는 방법일 것이라는 것에 동의한다.
요즘은 ChatGPT를 통해 파이썬 코드를 R로 변경해 달라 혹은 반대로 해달라 해도 척척 알아서 언어를 잘 바꿔준다. 하지만 여전히 오류가 많고 해당 지식을 이해하고 있다면 좀 더 시너지를 낼 것 같다는 생각이 드는데 이 책에 이러한 부분이 잘 정리되어 있다.
두껍지 않은 분량에 두 언어의 핵심을 비교하는 내용을 잘 담고있다. 두 언어를 모두 깊게 사용해 보지 않으면 쉽게 정리하기 어려운 내용인데 저자의 내공이 느껴지는 책이었다. 주로 파이썬을 사용하지만 나 또한 R과 관련된 저널이나 관련 패키지의 철학에 대해서는 공감하는 부분이 많은데 이 책을 통해 그러한 부분을 좀 더 잘 정리해볼 수 있는 계기가 되었다.
이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.