대회 결과는 이전 글을 참고하시길 바랍니다. https://hotorch.tistory.com/59 1. 대회 간단 소개 및 도메인 간단히 이야기하면 국가 연구개발과제를 '기후기술분류체계'에 맞추어 예측하는 모델을 개발하는 것입니다. 즉, 방대한 R&D 문헌들 중 기후 기술 연구 내용을 분류하는 것입니다. 저도 처음 들었을 때 기술 문서 분류면 쉬울 것 같다고 생각했지만, 살펴보니 기후 기술들을 더 자세히 분류하는 데이터였습니다. 그리고 정말 처음 보는 내용이 많았고 기후 기술이 상당히 광범위함을 알았습니다. 2. 데이터 간단 소개 - Multiple Text 보통 다들 NLP를 공부 시작하게 되면 IMDB, NSMC와 같은 single text인 경우에 대해서만 다루었습니다. 조금 더 발전하면 sing..
1. Review 지난 시간에는 Self-supervised Learning을 통해서 좋은 weight parameter를 얻고, Transfer Learning을 통해 본인이 가지고 있는 한정된 데이터셋과 할당된 task에 활용해 더 좋은 성능을 얻는 것이 목표였습니다. 2. transformer 트랜스포머는 추후에 조금 더 자세히 기술할 생각입니다. 워낙 블로그에 좋은 글이 많기 때문입니다. 2017년 구글에서 'Attention is all you need' 논문에서 아키텍처를 제안하며 rnn 기반의 seq to seq를 대체하였습니다. 즉, 어텐션만을 활용하여 더 뛰어난 아키텍처를 구성하였고, 이것이 자연스럽게 유행하면서 이를 PLM에 활용하여 유행하게 되었습니다. 이제는 NLP뿐만 아닌 다른 분..
1. Motivations 처음에 전이학습이 나온 분야는 비전입니다. 데이터가 다르더라도 이미지를 활용한 공통된 Feature들이 존재할 것이라고 접근합니다. 꽃은 잎 모양, 길이가 비슷하나 조금씩 다 차이가 있습니다. 최소한의 공통적인 Feature를 활용하겠다는 사상에서 출발을 합니다. 2. Common Feature in NLP NLP에서는 공통적인 Feature들을 어떻게 뽑을 수 있을까요? I love to go to market. I would like to go home. You have to go to school. .... Corpus에 위와 같은 쉬운 표현들을 보면 semantic, syntactic 한 요소들이 사람이 보기에 쉽게 보일 수 있습니다. I wish to precariou..
1. comparison of Supervised vs. Unsupervised Learning Supervised Learning은 머신러닝 공부할 때 가장 제일 처음 나오는 부류의 학습방법입니다. label y와 data input의 관계를 학습합니다. 반면 Unsupervised Learning은 label y가 존재하지 않고 data x 분포 자체를 학습하거나 x의 feature를 학습하여 활용합니다. 2. Supervised learning 많은 데이터에 사람이 직접 label을 답니다. 이를 통해 입력 x와 output y사이의 관계를 학습합니다. Data y에 label을 다는 것이 인형에 눈알을 다는 것으로 행위가 유사하다고 빗대는데, 실제로 label을 다는 것은 정말 고되고 힘듭니다. ..
개인적으로 올해 목표 한 10개 정도 세웠었는데, 9월인데 절반밖에 달성을 못했습니다. 올해 목표 여러 개 중 하나가 올해 데이터 관련 대회에서 나름 유의미한 성적을 내는 것이 목표였습니다. 작년에 운 좋게 1등을 한 경험이 있었지만 제가 다른 일을 벌인 게 많아 혼자 하거나 열심히 하지 않았습니다. 마침 7월 말에 시간이 조금 생긴 것도 있고, 좀 흥미로워 보이는 대회가 마침 열려서 참가하였습니다. 좋은 사람들과 팀을 구성해서 상금은 못 받았지만 총 258팀들 중에서 7등(상위 3%)을 달성하였습니다. 후기를 작성하는 데 있어 기술적인 부분을 제외한 후기를 이야기해보고자 합니다. 1. 팀원 구성 배경 학부생 때는 학교 친구들은 너무 친해서 같이 대회 나가보면 대회 등수가 조금만 횡보하면 포기를 해버리는..
NLP를 공부하면서 도움이 되었던 강좌들을 소개하며 몇줄평을 남겨보도록 하겠습니다. 오로지 자연어 관련 강좌만을 언급을 합니다.(2020년 7월 기준) 1. 허민석님 유튜브→ 자연어처리 재생목록입니다. 용어 잡기에 정말 좋고 짧게 구성되어 있습니다. 2. [Korea University] Text Analytics 2020 Spring → 고려대학교 강필성 교수님 강좌입니다. 텍스트 관련 모든 이론 내용(전처리, topic modeling, deep learning 등)을 다루고 있다고 무방합니다. 정말 추천하는 강좌입니다. 3. 딥러닝을 이용한 자연어 처리 Edwith → 조경현 교수님 자연어 처리 강좌입니다. 처음 듣는 사람들에게 다소 어려울 수 있지만 꽤나 depth있게 필요한 내용들을 전부 다루고..
Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합니다.(2020년 7월 기준) R 1. R을 이용한 텍스트 마이닝(2017, 2020 개정) → 제일 처음으로 저는 R을 이용을 했었고, 이 책으로 입문을 했었습니다. 이 도서는 전처리와 토픽모델링에 focusing 되어있기 때문에 텍스트마이닝 용으로는 괜찮은 책이라고 생각합니다. 특히 전처리 하는 내용이 상세히 되어있고, 올해 개정이 되면서 도서 분량도 늘어나서 좋은 내용이 기술되어 있을 것 같습니다. (한글 데이터도 다루는 것으로 기억이 납니다.) 2. R로 배우는 텍스트 마이닝(2019) ..