[도서 리뷰] 핸즈온 생성형 AI
한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.
한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다.나는리뷰어다>
핸즈온 생성형 AI
생성형 AI가 화두인 요즘, 단순히 ChatGPT나 미드저니 같은 도구를 사용하는 것을 넘어서 실제로 모델을 이해하고 커스터마이징하고 싶을 때가 종종 있다. 모델을 좀 더 깊게 이해하고 원리를 이해해 보기에도 좋을 것 같아 이 책을 읽게 되었다.
책의 전체적인 구성
이 책은 크게 3부로 나뉘어 있다. 1부에서는 기존에 공개된 모델들을 활용하는 방법을, 2부에서는 내 데이터로 모델을 파인튜닝하는 방법을, 3부에서는 좀 더 창의적이고 고급 활용법을 다룬다. 처음부터 끝까지 읽어보니 학습자의 수준을 고려한 단계적 구성이 잘 되어 있다는 느낌이었다.
실습 프로젝트가 핵심
각 장마다 실제 프로젝트가 포함되어 있는데, 이게 이 책의 가장 큰 장점이다. 예를 들어:
- 2장에서는 언어 모델을 이용한 텍스트 생성 프로젝트
- 3장에서는 의미 기반 이미지 검색 프로젝트
- 5장에서는 Gradio로 인터랙티브 데모 만들기
- 6장에서는 검색 증강 생성(RAG) 프로젝트
- 7장에서는 SDXL 드림부스 LoRA 학습하기
이런 식으로 각 장에서 배운 이론을 바로 실습으로 적용해볼 수 있어서 이해도가 훨씬 높아진다. 특히 RAG나 LoRA 같은 최신 기법들을 직접 구현해볼 수 있다는 점이 좋았다.
허깅페이스 생태계 활용
책 전반에 걸쳐 허깅페이스의 다양한 도구들을 활용한다. 트랜스포머 라이브러리는 물론이고, 디퓨저스, 데이터셋, 그라디오까지 실무에서 실제로 많이 쓰이는 도구들을 배울 수 있다. API 문서만 보면 이해하기 어려운 부분들을 실제 예제를 통해 배우니까 훨씬 와닿았다.
확산 모델 부분이 특히 인상적
4장과 5장에서 다루는 확산 모델 부분이 개인적으로 가장 도움이 되었다. 스테이블 디퓨전이 어떻게 작동하는지 수학적 원리부터 실제 구현까지 상세히 설명해준다. 특히 5장의 “주석이 달린 샘플링 루프” 부분은 코드 한 줄 한 줄이 무엇을 하는지 자세히 해설되어 있어서 확산 모델의 동작 과정을 완전히 이해할 수 있었다.
파인튜닝이 핵심
6장과 7장의 파인튜닝 부분도 실무적으로 매우 유용하다. 언어 모델과 이미지 생성 모델 모두 내 데이터로 어떻게 학습시키는지 알 수 있다. 특히 LoRA나 어댑터 같은 효율적인 파인튜닝 기법들을 배울 수 있어서 실제 프로젝트에서 바로 써먹을 수 있을 것 같다.
양자화 부분도 인상적이었다. GPU 메모리가 제한적인 환경에서 어떻게 큰 모델을 효율적으로 돌릴 수 있는지 구체적인 방법을 제시한다.
멀티모달까지 커버
텍스트, 이미지뿐만 아니라 9장에서는 오디오 생성까지 다룬다. 음성 합성이나 오디오 생성은 다른 책에서 잘 다루지 않는 영역인데, 이 책에서는 Whisper부터 음성 합성까지 전체적인 파이프라인을 배울 수 있다.
최신 동향까지
10장에서는 생성형 AI 분야의 최신 동향을 다룬다. 선호도 최적화, 긴 컨텍스트, 전문가 혼합 모델 등 최근 화두가 되는 기술들을 소개한다. 빠르게 변화하는 AI 분야에서 어떤 방향으로 발전하고 있는지 전체적인 그림을 그릴 수 있어서 좋았다.
전체적으로 생성형 AI를 실무적으로 활용하고 싶다면 정말 좋은 책이다. 이론만 나열하는 게 아니라 실제로 손으로 코딩해가면서 배울 수 있어서, 읽고 나면 바로 프로젝트에 적용할 수 있는 실력이 생긴다. 생성형 AI 분야에서 전문성을 기르고 싶다면 한 번쯤 읽어볼 만한 책이다.