마지막으로 다룰 내용은 MLOps에 대해 미래의 이야기와 개념을 간단하게 정리해보는 글입니다.
아래는 O'REILLY에서 설문조사한 내용입니다.
데이터 부족 문제가 2위(18%)입니다. 그냥 데이터가 아닌, 쓸 수 있는 데이터가 부족하다는 점입니다. 앤드류 응 교수님 말씀으로는 모델의 중요성 보다는 재료가 되는 데이터의 질과 양이 더욱 중요하다고 강조합니다. 본인 회사에서 데이터를 수집하지만 Quality 측면에서 신뢰성과 정합성도 떨어진다고 생각하고 있는 것이 현실이며 그리고 쌓아뒀던 데이터가 있으면 다행인데, 데이터도 없고, 풀고 싶은 문제도 없으면서 AI를 그냥 적용해보고 싶다는 의견만 제시하는 회사가 많이 존재하는 것이 현실입니다. 즉, MLOps 시스템을 성공적으로 구축하고 운영하고 있는 회사가 그렇게 많지 않습니다.
1위(19%)는 원하는 스킬셋을 가지고 있는 개발자가 부족하다는 것 입니다.(물론 미국 기준이지만, 한국 채용 시장도 마찬가지..) 현재 기업들에서는 AI를 연구하는 것 보다는 제품화해서 비즈니스적인 가치를 창출하는 것이 더 많기 때문에 도메인 지식 + DevOps 지식 + 백엔드 + 클라우드 + 인프라 지식 등 여러 측면에 대해 지식을 갖춘 개발자를 찾기 힘든 것이 현실입니다. 확실히 한국 채용 시장에서도 ML Engineer들 채용공고에서도 과거 논문 실적 만큼만 요구했다면, 코딩테스트 + 도커와 쿠버네티스, 백엔드 지식까지 요구하는 시대입니다.
물론 여기에 대해 반문을 하는 글들도 존재합니다. (참고하시길 바랍니다.)
- https://www.determined.ai/blog/data-scientists-dont-care-about-kubernetes
- https://huyenchip.com/2021/09/13/data-science-infrastructure.html
- https://news.ycombinator.com/item?id=28649508
대략적으로 Data Scientist가 Kubernetes 관련 내용까지 알아야하는가, Insight를 발굴하기 위해 Data Scientist로 시작했는데 너무나도 할 것이 많은데 Kubernetes까지 공부하는 것은 힘들다, 제품화 과정까지 관여를 해야하는가 등에 대한 이야기)도 존재합니다.
구글 클라우드 Doc에서 수준별 MLOps 프로세스를 총 3단계로 정의를 했습니다.
0단계 (수동 프로세스): 그동안 다루었던 일련의 과정들에 대해서 각각에 대해서 수동으로나마 베이스라인 느낌으로 삐걱거리더라도 전체 프로세스는 있어야한다고 언급합니다. 각 프로세스를 점점 진화시켜야한다고 강조합니다.
1단계 (ML 파이프라인 자동화): Production Level, Model Level 각각 파이프라인이 구축되어있어야함을 강조합니다. ML Level에서는 지속적으로 모델을 학습시키고 예측 서비스를 지속적으로 제공하며 Production level에서는 모델 재학습시키는 프로세스를 자동화하려면 Pipeline Trigger 및 metadata 관리, 자동화된 데이터 및 모델 검증 단계를 파이프라인에 도입해야한다고 합니다.
2단계(CI/CD Pipeline 자동화) : 기존에는 ML과 Ops를 구분짓던 경계가 사라지고, 모든 프로세스가 단 하나의 파이프라인이 물 흐르듯 구축해야합니다. Production Level에서 Pipeline을 빠르고 안정적이게 업데이트하려면 자동화된 CI/CD 시스템이 필요합니다. 이 자동화된 CI/CD 시스템을 사용하면 Data Scientist가 Feature Extraction, 모델 아키텍처, 초매개변수에 대한 새로운 아이디어를 빠르게 살펴볼 수 있습니다. Data Scientist는 이러한 아이디어를 구현하고 새 Pipeline 구성요소를 대상 환경에 자동으로 빌드, 테스트, 배포할 수 있습니다.
MLOps 생태계에서 앞으로 더 많이 마주보게될 사항이 많이 존재합니다. 데이터 라벨링과 Annotation을 서포팅하는 것을 도와주는 Active Learning, ML지식이 없는 사람뿐만 아니라 ML 지식이 있는 사람에게도 괜찮은 베이스라인 모델을 제공해주는 AutoML, 모니터링 시스템이 고도화 되어있고 performace metric과 threshold가 잘 정의되어있을 때 특정 Event를 잘 잡기 위한 Continous Training(CT), 설명가능한 AI인 XAI 등이 있습니다.
* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'AI > MLOps' 카테고리의 다른 글
[패스트캠퍼스 챌린지 최종 미션] 머신러닝서비스구축을위한실전MLOps 강의 후기 (2) | 2022.03.21 |
---|---|
[패스트캠퍼스 챌린지 49일차] GCP - Feast FastAPI App 배포 (0) | 2022.03.13 |
[패스트캠퍼스 챌린지 48일차] GCP - Feast Feature Store (2) (0) | 2022.03.12 |
[패스트캠퍼스 챌린지 47일차] GCP - Feast Feature Store (1) (0) | 2022.03.11 |
[패스트캠퍼스 챌린지 46일차] Amazon SageMaker Autopilot 실습 (0) | 2022.03.10 |