호돌찌의 AI 연구소
article thumbnail

Downstream Task는 간단히 말해 구체적으로 내가 풀고 싶은 문제들을 말합니다. 스택오버플로우에서 퍼온 영문 의미는 아래와 같습니다. 

Downstream tasks is what the field calls those supervised-learning tasks that utilize a pre-trained model or component.

 

1. 전형적인 NLP에서의 I/O

빨간색 부분이 Input, 파란색 부분이 Output이라고 할 때, NLP에서 자주 쓰이는 유형은 3가지로 정할 수 있습니다. 

1) Many to One : 텍스트 분류 Task가 여기에 해당합니다. 긍정/부정이나 multiclass 등등 제일 많이 활용하는 분야가 분류 Task라고 생각합니다. 

2) One to Many : 자연어 생성이나 기계 번역 종류가 여기에 해당됩니다.

3) Many to Many : 형태소 분석과 같은 Pos-Tagging이나 기계 독해(MRC) 분야가 여기에 해당됩니다. 

 

2. Benchmark Dataset

1) GLUE(General Language Understanding Evaluation) : 각종 벤치마크 테스트 데이터셋을 통해서 실제 문제들을 어떻게 해결했는지 내가 만든 모델들의 성능의 증감을 확인하기 위해 존재하는 데이터 셋입니다. 각각에 대한 Task들이 문맥 이해, 두 문장이 semantic 하게 비슷한지 아닌지, 문장 유사도 분류, 감성 분류, 기계 독해 등 상당히 다양합니다. 이것들 하나하나 다 설명은 하지 않겠습니다. 왜냐하면 여기 아래 주소로 가시면 정말 친절하게 설명을 해주고 있기 때문입니다.

https://huggingface.co/datasets/glue

 

glue · Datasets at Hugging Face

Dataset Card for "glue" Dataset Summary GLUE, the General Language Understanding Evaluation benchmark (https://gluebenchmark.com/) is a collection of resources for training, evaluating, and analyzing natural language understanding systems. Supported Tasks

huggingface.co

2) SQuAD(Stanford Question Answering Dataset) : 기계독해 데이터 셋입니다. 현재 글을 쓰는 시점으로 SQuAD 1.1에서 우리나라 사람들이 1등인 걸로 알고 있습니다.(세계 1등!)

3) KLUE(Korean Language Understanding Evaluation) : 나온지 그렇게 오래되지 않았습니다. 여러 기관들이 주축이 되어 만들었습니다. 

https://klue-benchmark.com/tasks

각 Task들에 대한 상세한 내용은 위와 같습니다. 

 

3. 간편 테스트?

공식문서를 참고해보시면 좋을 것 같습니다. 짧은 코드로 쉽게 데이터를 부를 수 있습니다.

https://huggingface.co/docs/datasets/loading_datasets.html

 

Loading a Dataset

A datasets.Dataset can be created from various sources of data: from the Hugging Face Hub,, from local or remote files, e.g. CSV/JSON/text/parquet/pandas fil...

huggingface.co

 

 

4. 정리

1) NLP가 점점 발전하다보니 NLP안에서도 여러 분야가 연구됨에 따라 논문마다 자기 논문 방법이 좋다고 자랑을 하지만 통일이 되지 않았습니다. 고로 벤치마크 데이터 셋이 생겨났습니다.

2) 이 Downstream Task들의 문제 정의 자체는 다르지만 대부분의 I/O의 형태는 규격화되어 있습니다.

3) 각자 연구하며 만든 PLM들을 학습하면서 정량적인 부분인 loss나 단순한 지표 만들을 확인하는 것으로 끝나는 것이 아닌, 다양한 벤치마크 데이터셋에 대해 성능을 입증할 수 있습니다. 여기서 정말 내가 잘 만들고 있는지에 대한 의문에 대한 정량적인 해답을 얻을 수 있습니다. 

 

 

profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!