27 November 2022

비정형 텍스트 데이터는 정형 데이터에 비해 전처리가 어렵기도 하고 또 여러 전처리 방법을 사용한다 하더라도 막상 시각화를 하거나 분석을 하다보면 제대로 된 인사이트를 얻기 위해 텍스트를 정제하는 과정이 쉽지 않음을 느낀다.

하지만 텍스트 데이터를 분석할 수 있다면 방대한 논문 속에서 트랜드를 이루는 키워드를 찾아낼 수도 있으며 방대한 텍스트를 시각화해서 인사이트를 얻는데 도움이 될 수도 있다.

이 책은 이렇게 텍스트를 통해 의미를 찾기 위한 과정을 찾는 방법을 알려준다.

이 책의 특징

  • 대부분 파이썬 라이브러리를 활용한다.
  • 라이브러리를 활용하기 때문에 복잡한 수식, 통계를 직접 계산할 수 없더라도 해당 라이브러리의 활용방법을 익히게 되면 비교적 간단한 API를 통해 의미를 찾아볼 수 있다.
  • 그런면에서 파이썬 기초와 라이브러리에 대한 활용법을 알고 있는 대상에게 적합한 책이다.
  • 기본적인 라이브러리 활용법을 익히고 텍스트 분석에 대한 이론적인 내용을 어느정도 이해하고 있다면 사이킷런, Gensim, spacy 등의 라이브러리를 활용하여 의미를 찾는 방법을 소개하고 있다.

책을 읽기 전에 알고 있다면 좋은 점

  • 파이썬 기본 문법에 대한 이해와 라이브러리의 개념을 이해하고 있다면 책을 읽는데 도움이 된다.
  • 소스코드를 제공하고 있기 때문에 github( https://github.com/hanbit/blueprints-text )을 통해 실습과 책의 내용을 함께 볼 수 있다.
  • 의존성 있는 라이브러리 설치가 안 되어 있다면 동작을 하지 않을 수 있기 때문에 책의 내용을 잘 살펴보며 관련 라이브러리를 설치해야 사용할 수 있는 도구들이 있다.
  • 이 책을 읽고 어디에 활용할지에 대한 고민을 갖고 시작하는 것도 좋다.

사용하는 라이브러리

  • 각 장의 개요를 보면 사용하는 라이브러리가 나온다.
  • 사이킷런 뿐만 아니라 Gensim, Spacy, NLTK, Transformers 등의 활용방법이 나오며
  • 활용사례를 통해 각 라이브러리를 어떤 상황에서 사용하면 좋은지에 대한 감을 잡기 좋다.

텍스트 데이터를 통한 다양한 시각화 사례

  • 각종 시각화 도구 뿐만 아니라 LIME, ELI5, 그래프 등의 도구를 사용하여 텍스를 분석하고 시각화 하는 다양한 기법을 소개한다.
  • 기본적인 워드클라우드에서 시작해서 시각화나 요약, 전처리를 위한 행렬분해 기법을 통한 차원축소 방법을 다루고 있다.

텍스트 수집, 전처리, 시각화, 토픽모델링 뿐만 아니라 머신러닝, 딥러닝 기법을 활용한 텍스트 분석까지 텍스트 데이터 관련 라이브러리의 모든것을 알아볼 수 있는 책이기도 하다. 한국어 관련 전처리 도구에 대한 설명이 없다는 점이 조금 아쉽기는 하지만 텍스트 분석에 대한 A-Z 을 꼼꼼하게 알려주는 책이다.

이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.