MLOps에서 큰 범주로 나누면 데이터, 모델, 서빙으로 나눌 수 있습니다. 이번 글에서는 각 범주에 해당되는 SW/오픈소스 등을 언급만 하고 넘어갈 예정입니다. 제가 찍어만 먹어보거나 사용했던 경험이 있는 부분만 진한 글씨로 표시를 해보았습니다. 1. 데이터 요리로 치면 재료에 해당하는 부분입니다. 데이터 수집 Pipeline, 저장, 관리 측면으로 나눌 수 있습니다. - 데이터 수집 Pipeline : Sqoop, Flume, Kafka, Flink, Spark Streaming, Airflow - 데이터 저장 : MySQL, Hadoop, Amazon S3, MinIO - 데이터 관리 : TFDV, DVC, Feast, Amundsen 2. 모델 요리로 치면 조리에 해당하는 부분입니다. 개발, 버전..
1. Intro 전통적인 IT 프로젝트에서의 Software 개발 방식은 Uni-directional 한 방향으로 진행되었습니다. 간단히 다음과 같이 정리할 수 있다. Code 구현 → Build → Deployment 이러한 방식을 이제 벗어나 DevOps라는 하나의 방법론이 정의되기 시작했습니다. 그림에서 볼 수 있듯이 이러한 단계가 하나의 사이클이 이루어지는 개발 방식이 필요하다는 이야기가 나오면서 DevOps라는 개발 방법론이 정의가 되었습니다. 또한 DevOps라는 분야갸 탄생하면서 소프트웨어 개발 프로세스에서 단순한 코드 구현 이외에 여러 가지 구성 요소들이 정리 및 분리가 이루어지면서 많은 기술적 & 문화적 발전이 있었습니다. 2. ML Project와 SW Project 의 유사성 ML을 ..
학생 때 ML을 공부할 때에는 간단하게 요약하면 다음과 같이 공부를 했었습니다. - 많이들 들어본 알고리즘(Linear Reg, Logistic Reg, Decision Tree, RF, SVM 등등) 원리, 수식 - 수식 이해가 잘 되지 않았을 때 예제 데이터와 함께 R 또는 Python으로 이해 - 논문 쓸 때에는 기존 baseline 모델 보다 성능 높이기와 데이터 전처리 및 튜닝의 반복 여기서 성능이 가장 좋았던 모델의 정보, n번째로 좋았던 모델의 정보, n번 Cross Validation를 했을 때 가장 좋았던 정보 등 이러한 내용들을 object로 떨구어서 엑셀에 따로 기록을 했었던 기억이 있습니다. 프로젝트를 3년동안 해보면서 몇몇 프로젝트는 협업보다는 개인적으로 모델 하나 할당을 받아 진..
저는 2021년 3/4분기부터 공모주 청약을 처음 시작해보았고 소액으로 거의 무조건 이득을 볼 수 있다는 점에 흥미를 가지고 관련 내용을 찾아보았습니다. 강력한 기대수익을 내는, 대박을 노리는 투자자들에게는 큰 매력이 없는 투자방법이겠지만, 무조건 예금이자 이상의 수익을 목표로 한다면 훌륭한 투자방법이 공모주 청약입니다. 이번 글은 공모주 청약 투자방법에 대한 2020년까지의 과거의 사례를 바탕으로 이 글을 정리하고자 합니다. 해당 내용은 '주식시장을 이긴 전략들'이라는 책에 있는 데이터를 바탕으로 분석한 결과를 요약함을 먼저 알립니다. 저자가 테스팅한 통계 결과는 이 블로그에 모두 엑셀 파일로 업로드되어있습니다. 그럼 시작해보겠습니다. 1) 공모주 청약 투자의 핵심 팩터 1 - 청약 경쟁률 이 투자 방..
세 번째 리뷰할 책은 '돈의 속성' 입니다. 돈의 속성 - YES24 베스트셀러 종합 1위! 경제경영 17주 연속 1위!유튜브 1,100만 명이 시청한 「돈의 속성」 완결판최상위 부자 김승호 회장이 직접 밝히는 돈에 대한 통찰과 철학이 책 『돈의 속성』은 3년 전 어느 www.yes24.com 1. 도서 선정 이유 작년 가을에 베스트셀러 가판대에 올라와 있을 때 내용이 좋아서 샀던 기억이 납니다. 책을 여러 번 읽는 것을 싫어하는 편인데, 이 책은 4~6개월 정도 긴 텀을 두고 읽는 책입니다. 이 책 저자이며 최상위 부자라고 할 수 있는 김승호 회장님의 30대 후반까지 흙수저로 살아가면서 어떻게 엄청난 부를 누리고 있는지에 대해 돈에 대한 마인드와 철학을 조각조각 소개하는 책입니다. 항상 주변 동생이나 ..
두 번째 리뷰할 책은 '비트코인, 지혜의 족보'입니다. 비트코인, 지혜의 족보 - YES24 비트코인은 이 시대, 가장 중요한 지적인 현상이다우리 모두는 인문학적 호기심이 얄팍한 사회에 속했다는 이유로 엄청난 대가를 지불한 셈이다. 비트코인은 철학적으로 족보가 있는 명문가문 www.yes24.com 1. 도서 선정 이유 비트코인은 스캠, 도박이다라는 인식이 작년까지만 해도 고정관념이 상당히 잡혀있었습니다. 변동성이 상당히 심하고 리스크 관리도 어렵다 판단하여 꺼려하였습니다. 심지어 올해 2~3월에 나스닥 조정장을 맞고 있었을 때 주변에서 코인으로 돈을 복사하고 있던 지인들이 많았지만 FOMO는 오지 않았습니다. 그때까지만 해도 잘 모르는 자산군에 대해 투자하지 말자는 원칙이 있었습니다. 하지만 자산을 조..
암호화폐는 자산배분의 시각에서, 다른 자산군과 상관관계가 작으면서도 수익성 개선에도 기여를 하는 자산군으로 점점 인식이 인정을 받고 있는 추세입니다. 변동성이 심하지만 이를 잘 활용한 젊은 부자들도 많이 생겨났습니다. 필자는 펀더멘탈도 없는 암호화폐에 대한 부정적 시각을 가지고 있었지만 9월부터 암호화폐에 대한 관심을 가지게 되었고, 공부를 하고 나니 주식보다 더 재미있고 흥미로운 분야임을 뒤늦게 깨달아서 후회하고 있습니다. (항상 반성하고 있습니다.) 그래서 입문하는 사람들에게 조금이나마 도움이 되고자 트레이딩이나 각종 정보들을 얻는데 도움이 되는 사이트 중심으로 정리하고자 합니다. (대표적인 거래소 위주의 사이트는 제외를 하였습니다.) 1. Crypto Fear & Greed Index 암호화폐 트레..
저번 글에서는 단순 이동 평균선을 활용한 마켓타이밍으로 비트코인 매매 승률을 올리는 것에 대해 논의를 해보았습니다. 하지만, 이전 글에서 언급한 것처럼 여전히 이 방법이 '최근'에는 유효한지 확인이 필요한 것 같습니다. 또한 방법을 조금 더 개선할 수 있는지 확인해 보겠습니다. 1. 관찰 기간 축소 (2018.02~2021.11.13) 거시적인 경제적인 이벤트나 규제 등에 의해서 자산 시장에서는 큰 상승과 폭락 시기엔 시장 참여자들이 변화합니다. 2017년에 비트코인은 엄청난 상승이 있었고, 2018년 초에 Drawdown의 골이 상당히 깊은 것을 알 수 있습니다. 낙폭의 평균이 -40%임을 보면 어지러움을 느낄 수 있습니다. 시계열에서 regime-shift-models 같은 내용들이 있었는데, 잘 아..
이전 글 까지 2가지 종류의 언어 모델을 언급했었습니다. 전통적인 방식의 언어 모델인 이전 단어들을 통해 다음 단어를 예측하는 Auto-regressive Model과 앞과 뒤 단어들을 통해 Masked 된 빈칸을 예측하는 MLM 방식의 Autoencoding Model이었습니다. 이 Model들은 Transformer의 Decoder만을 활용하거나, Encoder만을 활용하는 것이었습니다. 이번 글은 Encoder와 Decoder를 모두 활용하면서 NLG와 NLU Task를 전부 가능케 하는 PLM인 BART(Bidirectional and Auto-Regressive Transformers, 2018)를 소개하고자 합니다. 1. Pretrain - Encoder, Decoder 모두 사용하여 사전학습..
이전 글에서는 배경과 마켓타이밍, 코인과의 상관성에 대해서 간단하게 점검을 해보았습니다. 이번 글에서 다루는 내용은 마켓타이밍을 실험 설계하고 이에 따라 매매를 하는 것이 좋은지 안 좋은지 성과 공유를 하고자 합니다. 결론부터 이야기하면 아래와 같습니다. - 2014년 2월 1일부터 2021년 11월 6일까지 3가지 제시한 마켓타이밍을 활용했다면 적어도 승률이 50% 이상은 나오는 매매 방법이라 할 수 있다. - 2014년 2월 1일부터 2021년 11월 6일까지, BTC 종가 가격이 BTC 단순 이동평균선 3일, 5일, 10일, 20일 선 하나라도 높을 때 시장 참여하는 것은 수익 기회 손실을 최대한 줄일 수 있다. - 2014년 2월 1일부터 2021년 11월 6일까지, BTC 종가 가격이 BTC 단..