호돌찌의 AI 연구소

Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합니다.(2020년 7월 기준)

 

 

R


1. R을 이용한 텍스트 마이(2017, 2020 개정)

→ 제일 처음으로 저는 R을 이용을 했었고, 이 책으로 입문을 했었습니다. 이 도서는 전처리와 토픽모델링에 focusing 되어있기 때문에 텍스트마이닝 용으로는 괜찮은 책이라고 생각합니다. 특히 전처리 하는 내용이 상세히 되어있고, 올해 개정이 되면서 도서 분량도 늘어나서 좋은 내용이 기술되어 있을 것 같습니다. (한글 데이터도 다루는 것으로 기억이 납니다.)

 

2. R로 배우는 텍스트 마이닝(2019)

→ 이 책을 보지는 않았지만 tidytext를 이용하는 컨셉의 도서입니다. 외국 도서를 번역한 것이기 때문에 한글 데이터는 다루진 않습니다. 이 책도 마찬가지로 전처리와 토픽모델링에 focusing이 되어있습니다. (개인적으로 R을 활용하는 사용자에겐 이 책이 더 괜찮아 보인다고 생각합니다. tidyverse를 기반으로 서술하기 때문에 더 도움될 것으로 생각됩니다. 이 책으로 공부하고 한글에 적용 시켜본다면 괜찮을 것 같습니다.)

 

 

 

Python


1. 딥 러닝을 이용한 자연어 처리 입문

→ 이 책을 바탕으로 용어 잡기에는 굉장히 좋다고 생각합니다. 

 

2. 밑바닥부터 시작하는 딥러닝 2 파이썬으로 직접 구현하며 배우는 순환 신경망과 자연어 처리(2019.05)

→ 이 책은 이론적인 내용과 python low-level 코드로 구현을 다 해놓은 도서이기 때문에 정말 좋은 책이라고 생각됩니다. 파이썬, 딥러닝 기초가 닦여있다면 이 책으로 자연어를 시작하는 것을 추천합니다. 범위는 빈도기반, 임베딩, RNN(LSTM), 어텐션까지만을 다루고 있습니다. 번역본이기 때문에 영어 데이터만을 다루는 것으로 알고 있습니다. 기본을 다지기에는 정말 좋은 책입니다.

 

3. 텐서플로와 머신러닝으로 시작하는 자연어 처리(2019.02)

→ 작년 초 기준으로 자연어 처리 책이 이 도서 말고는 없었습니다. 기본부터, 트랜스포머까지 다룹니다. eda하는 부분 상세히 기술한 포인트가 좋았던 것으로 기억이 납니다. 하지만 transfer learning 코드까지는 다루고 있지 않고 tokenizer 부분에서 deep한 부분은 다루지 않습니다. 

 

4. 김기현의 자연어 처리 딥러닝 캠프 파이토치 편 딥러닝 기반의 자연어 처리 기초부터 심화까지(2019.07)

→ 파이토치 기준으로 서술한 자연어 도서입니다. 초보분들이 이 책을 바로 읽으시는 것은 정말 추천 드리지 않습니다. 파이썬과 파이토치 기본이 매우 탄탄하신 분은 도움이 될 것 같습니다. 특히 자연어 생성 부분도 잘 다루고 있고, 쉽게 볼 수 없는 번역 task에 심도깊게 다루는 점이 좋습니다. 상당히 고급 기법들을 많이 다루고 있어서 재미있는 책입니다. 또한 수식도 매우 detail하게 서술되어 있어서 제대로 공부하고 싶은 분에겐 좋은 책입니다.

 

5. 한국어 임베딩 자연어 처리 모델의 성능을 높이는 핵심 비결 Word2Vec에서 ELMo, BERT까지 (2019.09)

→ 도커를 설치하면 바로 실습할 수 있게 되어있으며, 텐서플로로 작성한 책입니다. 전처리에서 형태소 분석기 부분을 자세히 서술하고 있어 정말 좋은 책이였습니다. 그리고 pre-trained model 만드는 것과 fine tuning을 하는 내용도 서술하고 있습니다. 제일 최근에 나와서 그런지, 제일 다양한 내용을 다루고 있는 것이 특징입니다. 수식도 필요한 부분만 있고, 해당 부분에 대해 시사하는 바까지 deep하게 서술하고 있어서 칭찬을 여러번 해도 괜찮은 책입니다. 

 
 
 

Blog



 

1. ratsgo

→ 5번 도서의 저자이며, 석사 논문을 쓰던 당시에 구원 받은 블로그입니다. 정말 안다루는 내용이 없을 정도로 많은 내용을 다룹니다. 

 

2. Jay Alammar

→ 시각화로 머신러닝을 한번에 이해시킨다는 컨셉을 지닌 엄청난 블로그입니다. 특히 기계번역, Transformer, BERT, GPT2 부분 공부하게된다면 무조건 거쳐가게되는 블로그입니다.

 

3. huffon

→ 페이스북에서 월간 자연어 처리 그룹을 운영하시는 허훈님 블로그 입니다. 상당히 트렌디한 내용들을 다룹니다.

 

4. Lovit

→ 텍스트마이닝 부분에서 상당히 디테일한 내용을 많이 다루는 블로그 입니다.

 
 
결론 : 입문자 입장으로 돌아간다면 Python 1번 책을 빠르게 보고(최대한 이해하는 방향으로 가는 대신, 100%를 이해하려 하는 것은 비추천입니다. 틀을 잡는 용도로는 좋습니다), 2번 책을 여러번 읽습니다. 그 이후에 원하는 task에 4번, 5번 도서를 병렬적으로 골라 보는 것을 추천합니다. 물론 지극히 제 주관이므로 참고만 하시면 될 것 같습니다. 더 좋은 내용을 아시는 분은 댓글을 달아주시면 감사하겠습니다.

 

profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!