호돌찌의 AI 연구소
article thumbnail

1. AWS 계정 생성

계정을 생성하는 방법은 구글링 해보시면 상당히 많습니다. 유튜브에도 많습니다. 

https://sujinisacat.tistory.com/12 

위 주소를 참고하면 될 것 같습니다. 

 

2. Amazon SageMaker 접속하기

 Amazon SageMaker 의 요금은 여기를 참고하면 될 것 같습니다. 콘솔에 들어가 보겠습니다. 검색창에 SageMaker를 검색하여 접속합니다. 지역은 우측 상단에 서울로 설정합니다. 

SageMaker Studio에 접속합니다.

 

SageMaker Studio에 접속합니다. 

 

최초로 SageMaker Studio IAM 을 생성합니다. 

 

 

SageMaker Studio 생성 완료 대기를 합니다. 대략 10분 내외로 소요되었습니다. 

 

 

완료되면 아래처럼 나타납니다. 앱 시작 버튼을 눌러 Studio에 접속합니다. 

 

SageMaker Studio 접속 중 입니다.

 

접속이 완료되면 아래와 같이 Jupyterlab처럼 나타납니다. 접속 완료입니다.

 

 

 

 

 

 

 

 

3. AutoPilot

SageMakr의 AutoML의 기능인 autopilot에 대해 알아볼 예정입니다. 대략적인 구조는 아래와 같은데, 유저와 시스템 관점에서 다릅니다. 2020년 관련 논문도 있으니 참고하시길 바랍니다. 

 

- User

1) Data를 s3에 업로드한다.

2) SageMaker Studio에서 autopilot experiment를 create 할 때, ML problem type과 target column을 지정한다.

3) autopilot experiment 가 완료되기까지 기다린다.

4) auto-generated 된 Notebook을 확인한다.

5) model을 deploy 하고 monitoring 한다.

 

- System 관점

 

1) data를 train/valid split 하고, 분석한 뒤, 적합한 feature engineering 과정을 수행한다. 또한, 해당 과정에 대한 설명이 담긴 Jupyter Notebook 파일을 생성한다.

2) pre-processed data 를 사용하여, ML problem type에 맞는 model candidate을 생성하고 각 model을 학습한다.

3) 적절한 model candidate에 대해 HPO 과정을 수행한다.

4) 각 모델의 performance를 리더보드에 기록하고, 각 model을 재현할 수 있는 Jupyter Notebook 파일을 생성한다.

 

 

4. SageMaker Autopilot의 장단점

- 장점

  • WhiteBox
    • 제일 큰 장점으로 다른 AutoML과 다르게 친절하게 어떤 과정을 거쳐 AutoML 이 진행되었는지, 후보 모델로는 어떤 모델이 있었는지 등 전 과정에 대한 정보 제공합니다.
  • Generated Notebook
    • EDA 과정이 담긴 Jupyter Notebook 파일 제공합니다.(개인적으로는 이 부분이 매우 친절해서 좋음)
    • Model Candidate과 그 사용법이 담긴 Jupyter Notebook 파일 제공합니다.
  • Aws의 다른 기능과의 연동과 편리함
    • s3로 데이터 자동 저장 관리합니다.
    • SageMaker endpoint로 원클릭 배포합니다.
    • CloudWatch로 Monitoring 자동화합니다.
  • 높은 성능의 Baseline 모델 제공
    • 다른 AutoML 툴과는 다르게, 상당히 많은 양의 모델을 검토하고 튜닝하기에 시간은 다소 오래 걸리지만 그만큼 좋은 성능을 가진 Baseline 모델을 제공합니다.

- 단점

  • 제한된 Data Type
    • label 이 있는 tabular 형식의 정형 데이터에만 적합합니다. (csv로 표현)
  • 제한된 ML 문제 종류
    • Classification(분류) or Regression(회귀)만 제공합니다.
  • Pre-training 불가
    • pretrained model을 사용하거나, 도메인 지식을 첨가하여 feature engineering을 미리 수행할 수는 없습니다.

 

 

다음 글에서는 Autopilot을 한번 실습하는 글로 찾아뵙겠습니다.

 


https://bit.ly/37BpXiC

 

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

 

* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

 

 

 

 


profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!