호돌찌의 AI 연구소
article thumbnail

대회 결과는 이전 글을 참고하시길 바랍니다.

https://hotorch.tistory.com/59

 

1. 대회 간단 소개 및 도메인

간단히 이야기하면 국가 연구개발과제를 '기후기술분류체계'에 맞추어 예측하는 모델을 개발하는 것입니다. 즉, 방대한 R&D 문헌들 중 기후 기술 연구 내용을 분류하는 것입니다. 저도 처음 들었을 때 기술 문서 분류면 쉬울 것 같다고 생각했지만, 살펴보니 기후 기술들을 더 자세히 분류하는 데이터였습니다. 그리고 정말 처음 보는 내용이 많았고 기후 기술이 상당히 광범위함을 알았습니다. 

 

2. 데이터 간단 소개 - Multiple Text

보통 다들 NLP를 공부 시작하게 되면 IMDB, NSMC와 같은 single text인 경우에 대해서만 다루었습니다. 조금 더 발전하면 single text + 정형 데이터처럼 여러 메타 정보들 추가로 제시합니다.

하지만 이번 대회의 데이터는 text 데이터가 여러 개(multiple columns) 존재합니다. 또한 논문 작성 후 관련 키워드들을 적는 것처럼 여기 문서에서도 키워드들이 존재합니다. 

데이터 형태는 아래와 같이 생겼습니다. (Train 174,304건, Test 43,576건, Label은 총 46개를 맞춰야 합니다.)

 

첫 번째 데이터의 label은 '작물재배 및 생산' 내용입니다. 조금 자세히 보면 아래와 같습니다.

대충 보면 딱 봐도 어지럽고 모르겠고 만감이 교차합니다.  

 

3. 대회의 Goal

대회 Task는 NLP + Multiclass Classification 문제였습니다. 평가지표는 Macro-F1입니다. Micro-f1과 Macro-f1 score의 산출 방식은 평균을 산출할 때 순서의 차이가 있는데, 의미론적으로는 Micro-F1는 major 한 class에, Macro-F1은 minor 한 class에 집중한다고 생각하면 됩니다. 특이한 평가지표나 inference time 등을 요구하는 대회는 아녔습니다. 

 

4. 문제 접근 방식

NLP는 3가지 철학 & 가설을 토대로 기술이 발전해왔습니다. 

- Bag of Words 방식(BOW) : 어떤 단어가 많이 쓰였는가?

- Distributional Hypothesis 방식 : 어떤 단어가 동시에 출현하여 쓰였는가?

- Language Model(LM) : 단어들이 어떤 순서로 쓰였는가?

 

최근 트렌드는 PLM방식이 정석으로 자리를 잡고 있습니다. 하지만 데이터를 처음 봤을 때 여러 컬럼에 다양한 형태들의 텍스트들이 존재하여 PLM(BERT 류), Distributional Hypothesis(word2vec + CNN or LSTM), BOW(TF 또는 TF-IDF + ML방법) 모두 활용을 해봐야 한다고 생각했습니다. 특히 키워드 부분은 BOW방식으로 풀어봐야겠다 라고 생각을 했습니다. 

 

위의 정보들을 전부 활용하거나 또는 유의미한 것은 무엇인지 또는 어떤 것을 조합해야 할지 찾는 것이 관건이었습니다. 

오로지 지표 점수만 높으면 되기 때문에 가벼운 distill 류 모델은 테스트만 하고 사용 안 하는 것이 맞다고 생각했습니다. 

 

 

5. 대회가 난이도가 있었다 판단한 부분

- 특이한 텍스트 어체 : Pre-train을 실시하는 데이터의 종류들은 일반적으로 문어체입니다. 여기에 Domain-Specific 한 종류로는 특정분야(Bio, Financial 등등) 또는 구어체 같은 다른 형태의 데이터를 추가 또는 새로 학습하여 Pre-train LM을 만들고 이를 배포하여 여러 사람들이 쉽게 받아 Downstream Task에 사용을 하는 구조입니다. 하지만 이 데이터는 조금 다른 형태에 가깝습니다. 문어체와 구어체와 먼 보고서 형태 같은 분위기를 안겨다 줍니다. 이러한 데이터는 처음 마주했고, 상식이 안 통했었습니다. 

 

- Imbalance : 데이터 과학 하는 사람들은 원래 이런 Imbalance 한 데이터는 무조건 마주치게 마련입니다. 근데 이렇게 비율이 극악인 경우는 개인적으로는 처음이었습니다. 상위 라벨 4개를 제외하면 건수가 1%가 넘는 라벨이 없습니다. 아래 표를 참고하시면 됩니다.  NaN 라벨은 기후 기술과 관련이 없는 R&D 문서입니다. 

 

Label Name Train 건 수  Train Ratio(%)
NaN 142,571 81.79
산업 효율화 4,938 2.83
작물재배·생산 3,520 2.02
유전자원·유전개량 1,840 1.06
태양광 1,698 0.97
전력 저장 1,672 0.96
수송 효율화 1,550 0.89
원자력 발전 1,261 0.72
기타 기후변화 관련 기술 1,137 0.65
(중략)
인공광합성 91 0.05
태양열 78 0.04
신재생에너지 67 0.04
수력 57 0.03
저전력소모장비 51 0.03

 

 

크게 어렵다고 생각한 부분은 위와 같습니다. 다음 편에 어떻게 하나씩 문제를 풀었는지, 아쉬웠던 점과 실험 내용 등에 대해 이야기 해보도록 하겠습니다. 

 

 

 

profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!