Feast 관련 글은 이 글로 정리하며 끝내려고 합니다.
1. Feast가 없는 경우(As-Is)
보통 아래 그림과 같이 각 단계에서 각각 처리되거나 가공이 되는 Feature들이 바로 모델에 소비되는 시스템입니다. 즉, 어떤 Feature들에 대해 '저장'이라는 개념이 없이 데이터가 실시간으로 들어오면 처리와 변형을 통해 Feature들을 생성하며 모델 훈련과 제공이 하나의 Pipeline에서 이루어지는 end-to-end system입니다.
2. Feast를 적용한 경우(To-Be)
Feature를 생성하는 부분, 모델을 훈련하는 부분, 모델을 제공하는 부분 총 3가지 영역에 대해서 생각할 수 있습니다. 모델을 훈련하는 부분에서는 Feast에서 Feature들이 소비되고 끝나는 것이 아니라, 저장이 되기 때문에 Feature store에 접근만 해서 어떤 Feature를 쓸지만 정하면 됩니다. 마찬가지로 모델을 제공하는 부분에서도 Feature 생성하는 것만 신경을 쓰는 것이 아닌, 어떤 Feature Service가 있는지 파악하고 online store에서의 Feature를 제공받아 모델을 제공하고 운영시스템에 넘겨주면 됩니다.
위 그림에서, 아래 Feast plugin으로 인해 전체 또는 부분만 적용하여 필요한 부분만 가져다 쓰기만 하는 이점도 있습니다.
3. Feast의 역할 및 방법(선결조건)
Feast를 모델제공, 데이터 변환, 모니터링, 레지스트리, 저장소 관점에서 역할과 방법 및 조건들에 대해 정리하면 다음과 같습니다.
4. 정리
Feast를 이용하여 할 수 있는 일들을 list-up 하면 다음과 같이 정리가 가능합니다.
- 모델 훈련을 위한 Feature를 적기에 활용할 수 있게 합니다.
- 실시간/Batch 데이터의 추가 및 저장을 관리할 수 있습니다.
- 환경에 관계없는 Feature 정의 및 표준화가 가능해집니다.
- 참조를 통해 Feature의 공유 및 재사용이 가능해집니다.
- 훈련과 제공에 필요한 데이터 일관성이 유지된다.
- Feature들의 Tracking, Validating, Monitoring을 통해 모델 성능 유지가 가능해집니다.
하지만, airflow와 같은 작업 흐름 관리라던가, Feature Pipeline이 아닌 ML pipeline을 생성하는 것에 대해서는 Feast를 이용해 할 수 없는 일입니다. 데이터 버전 관리, 모델 제공 메타데이터 관리 또한 Feast의 역할에서 벗어납니다. 다음 글에서는 CI/CD Pipeline 관련 시리즈로 찾아뵙겠습니다.
* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'AI > MLOps' 카테고리의 다른 글
[패스트캠퍼스 챌린지 38일차] Github Actions CICD - Build (0) | 2022.03.02 |
---|---|
[패스트캠퍼스 챌린지 37일차] ML Workflow (0) | 2022.03.01 |
[패스트캠퍼스 챌린지 35일차] Feast Server 생성 (0) | 2022.02.27 |
[패스트캠퍼스 챌린지 34일차] Feast - Feature 추출 & 추론 (0) | 2022.02.26 |
[패스트캠퍼스 챌린지 33일차] Feast - Store 생성 & 배포 (0) | 2022.02.25 |