호돌찌의 AI 연구소
728x90
article thumbnail
첫 Kaggle 후기 - Google AI4code
후기/공모전 후기 2022. 8. 15. 21:24

한 달 동안 블로그 글을 쓰지 않았는데, 가장 큰 이유는 올해 Kaggle Expert가 목표(동메달 2개)인 팀원들과 5월 말부터 Kaggle 대회를 참가하고 공을 들였기 때문입니다. 참가한 Competition은 간단하게 설명하면, Python에서 다들 Jupyter notebook을 공들여서 작성해본 경험이 있을 텐데, code와 markdown 사이의 순서를 예측하는 것입니다. 이번 대회에서는 생소한 Evaluation Metric인 kendall-tau correlation 통계량이 높은 순으로 leaderboard에 구성되고, 스폰서인 Google이 큰 상금($150,000)을 걸고 한 대회였습니다. 최근에 code 관련된 competiton이 꽤 많이 나오는 것을 느끼고 있었는데, 그와 관련..

article thumbnail
Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 _ 기술 Part (2)
후기/공모전 후기 2021. 9. 23. 19:42

이전 글에 이어서 후기를 이어나가겠습니다. 이전 글은 데이터 모양새와 대회 개요에 대한 내용이었다면, 이번 글은 문제를 푸는 방식에 대해 서술합니다. 6. 문제를 푼 방식 6-1. 전처리 및 결측 처리 - 결측은 공백을 채우거나, 전부 다 채워져 있는 '과제명' 열을 채우거나 했습니다. ML 쪽과 PLM 쪽은 조금씩 다르지만 대체적으로 전처리는 숫자들은 대체하고, 영문은 소문자로 대체, 특수문자와 띄어쓰기 등은 공백으로 처리하는 수준이었습니다. 기술적인 문제를 다 풀고 한계점을 찍었을 때 10에 9는 데이터 문제였던 경험이 있는데, 여기 단계가 성능을 엎을 만한 제일 중요한 단계였을 수 있습니다. 상위권이 쓰는 방법은 거의다 비슷하기 때문에, 과거에도 이런 부분을 조정을 했을 때 등수가 막 치고 올라가면..

article thumbnail
Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 _ 기술 Part (1)
후기/공모전 후기 2021. 9. 17. 19:36

대회 결과는 이전 글을 참고하시길 바랍니다. https://hotorch.tistory.com/59 1. 대회 간단 소개 및 도메인 간단히 이야기하면 국가 연구개발과제를 '기후기술분류체계'에 맞추어 예측하는 모델을 개발하는 것입니다. 즉, 방대한 R&D 문헌들 중 기후 기술 연구 내용을 분류하는 것입니다. 저도 처음 들었을 때 기술 문서 분류면 쉬울 것 같다고 생각했지만, 살펴보니 기후 기술들을 더 자세히 분류하는 데이터였습니다. 그리고 정말 처음 보는 내용이 많았고 기후 기술이 상당히 광범위함을 알았습니다. 2. 데이터 간단 소개 - Multiple Text 보통 다들 NLP를 공부 시작하게 되면 IMDB, NSMC와 같은 single text인 경우에 대해서만 다루었습니다. 조금 더 발전하면 sing..

article thumbnail
Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 (상위 3%)
후기/공모전 후기 2021. 9. 8. 21:11

개인적으로 올해 목표 한 10개 정도 세웠었는데, 9월인데 절반밖에 달성을 못했습니다. 올해 목표 여러 개 중 하나가 올해 데이터 관련 대회에서 나름 유의미한 성적을 내는 것이 목표였습니다. 작년에 운 좋게 1등을 한 경험이 있었지만 제가 다른 일을 벌인 게 많아 혼자 하거나 열심히 하지 않았습니다. 마침 7월 말에 시간이 조금 생긴 것도 있고, 좀 흥미로워 보이는 대회가 마침 열려서 참가하였습니다. 좋은 사람들과 팀을 구성해서 상금은 못 받았지만 총 258팀들 중에서 7등(상위 3%)을 달성하였습니다. 후기를 작성하는 데 있어 기술적인 부분을 제외한 후기를 이야기해보고자 합니다. 1. 팀원 구성 배경 학부생 때는 학교 친구들은 너무 친해서 같이 대회 나가보면 대회 등수가 조금만 횡보하면 포기를 해버리는..