호돌찌의 AI 연구소
728x90
article thumbnail
Pretrained Language Model - 1. Self-supervised Learning
AI/NLP 2021. 9. 12. 19:34

1. comparison of Supervised vs. Unsupervised Learning Supervised Learning은 머신러닝 공부할 때 가장 제일 처음 나오는 부류의 학습방법입니다. label y와 data input의 관계를 학습합니다. 반면 Unsupervised Learning은 label y가 존재하지 않고 data x 분포 자체를 학습하거나 x의 feature를 학습하여 활용합니다. 2. Supervised learning 많은 데이터에 사람이 직접 label을 답니다. 이를 통해 입력 x와 output y사이의 관계를 학습합니다. Data y에 label을 다는 것이 인형에 눈알을 다는 것으로 행위가 유사하다고 빗대는데, 실제로 label을 다는 것은 정말 고되고 힘듭니다. ..

article thumbnail
Pretrained Language Model - 0. Intro
AI/NLP 2021. 9. 12. 18:33

사전학습 언어모델 PLM 관련 필요한 지식, 알아두면 좋은 것들 등을 위주로 정리할 생각입니다. 분량은 저도 잘 모르겠습니다. 참고로 모든 사람을 이해시킨다는 것이 목적이 아닌, 요약성에 가까운 글들임을 알려드립니다.

article thumbnail
개별종목 지수편입 이벤트 스윙매매 (1)

이 글은 투자를 종용하거나 추천하는 글이 아니고 단지 저의 생각과 내용 전달, 정리에 목적이 있음을 알려드립니다. 투자의 책임은 투자자 본인에게 있습니다. 오랜만에 손 매매 관련 이야기를 하고자 합니다. 투자 영역에 있어 모든 자산군에 공부가 잘 되어있다면, 기회가 왔을 때 잡게 되면 부를 누릴 수 있다고 저는 생각합니다. 저는 공부가 한참 멀었고 경험이 적지만 이번 소재는 여러 사람들이 알만한 내용일 수도, 아닐 수도 있습니다. 개별 종목이 지수 편입을 하는 이벤트인데요. 차례대로 살펴보겠습니다. 1. BackGround 퀀트 유튜브에서 신격화되어 있는 유튜브 채널 '할수있다 퀀트 투자'를 매번 올라올 때마다 보는 애청자입니다. 거기서 '주식 시장을 이긴 전략들'라는 책을 리뷰하는 영상(아래 주소 참고..

article thumbnail
Dacon 자연어 기반 기후기술분류 AI 경진대회 후기 (상위 3%)
후기/공모전 후기 2021. 9. 8. 21:11

개인적으로 올해 목표 한 10개 정도 세웠었는데, 9월인데 절반밖에 달성을 못했습니다. 올해 목표 여러 개 중 하나가 올해 데이터 관련 대회에서 나름 유의미한 성적을 내는 것이 목표였습니다. 작년에 운 좋게 1등을 한 경험이 있었지만 제가 다른 일을 벌인 게 많아 혼자 하거나 열심히 하지 않았습니다. 마침 7월 말에 시간이 조금 생긴 것도 있고, 좀 흥미로워 보이는 대회가 마침 열려서 참가하였습니다. 좋은 사람들과 팀을 구성해서 상금은 못 받았지만 총 258팀들 중에서 7등(상위 3%)을 달성하였습니다. 후기를 작성하는 데 있어 기술적인 부분을 제외한 후기를 이야기해보고자 합니다. 1. 팀원 구성 배경 학부생 때는 학교 친구들은 너무 친해서 같이 대회 나가보면 대회 등수가 조금만 횡보하면 포기를 해버리는..

article thumbnail
자산 배분 포트폴리오 - 4. 동일 비중 포트폴리오

Python이라는 도구를 활용해서 직전 글(아래 Reference) 막바지에 소개한 10 종목을 바탕으로 어떻게 포트폴리오를 구성하는지, 이렇게 구성했을 때 어떤 구조를 가지게 되는지 알아보고자 합니다. !pip install yfinance !pip install PyPortfolioOpt !pip install pulp import datetime import matplotlib.pyplot as plt import pandas_datareader.data as web import pandas as pd from tqdm import tqdm import numpy as np import yfinance as yf 8월 초에 쓰고 자산배분 글을 바로 이어 썼어야 했는데 못본 사이에 종가가 꽤나 변화된..

article thumbnail
[Crawling] R을 이용한 가상화폐 거래소 Open API 실시간 가격조회
Programming/R 2021. 8. 22. 16:20

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. 이때만 해도 정말 관심이 없었는데 지금은 차트를 상당히 좋아하는 제 자신이 대비됩니다. 살펴보겠습니다. 우선 업비트 개발자 센터로 접속한다. 메인페이지 → 고객센터 → Open API 이용안내 → 업비트 개발자 센터 또는 아래 GET STARTED 클릭! 시세 정보 아래 'REST API를 이용한 업비트 시세 수신' 을 활용할 예정이다. cURL 언어로 소개가 되어있지만 R에서 GET 방식을 활용한 HTTP 요청으로 해결 가능. 시세 정보 조회 방법 코인 리스트 조회 상장 코인 294개 정보를 조회할 수 있음 예시 : 원화 마켓의 비트코인 시세를 알고싶다면 market 파라미터에 KRW-BTC 라고 명시할 수 있음 curl --re..

article thumbnail
Chrome Driver & Selenium 설치
Programming/Python 2021. 8. 15. 23:38

웹에 있는 정보들을 긁어오는 행위를 크롤링이라고 간단히 이야길 합니다. 크롤링에 있어 다양한 방식으로 자료를 긁어올 수 있습니다. 다양한 방식 중 파이썬에서 제일 대표적인 것은 BeautifulSoup방법이 대표적이지만 이 방법은 서버에서 접근이 막혀 우회하는 방식을 고려해야 하거나 팝업 정보들을 받거나 불편한 경우를 맞닥뜨리게 됩니다. 이 방식은 직접 사이트에 Request를 하는 대표적인 방식입니다. 하지만 Selenium이라는 도구는 정확히 크롤링을 위한 기술은 아니지만 사람이 마우스, 키보드의 동작대로 움직여서 정보를 접근 및 수집하는 목적인 도구라고 생각하시면 됩니다. 설치하는 과정은 다음과 같습니다. 1. Chrome Driver 설치 https://chromedriver.chromium.or..

article thumbnail
[Crawling] PDF파일 R로 간단하게 크롤링해보기
Programming/R 2021. 8. 15. 11:40

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. ------------------------------------------------------------------------------------------ 먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보자. 그 후에 특정 경로에 논문을 저장한다. pdf_text 패키지를 이용하면 쉽게 변환을 해준다. 하지만 쉽게 converting되는 함수는 뒤에 손이 많이 갈 것이라 예상하고 있었는데 역시나 예상대로였다. 아래 코드처럼 경로지정하고 그냥 함수 집어넣어 돌리기만 하면 된다. 그럼 아래처럼 나타난것을 확인할 수 있는데 꽤나 전처리가 많이 필요하다 > fileName pdf_text(pdf = fileName) [1] " AL..

article thumbnail
자산 배분 포트폴리오 - 3. 포트폴리오 성과 지표

포트폴리오 구성의 컨셉은 아이디어만 많다면 다양한 방법으로 포트폴리오를 짤 수 있습니다. 또한 공격적 성향, 안정적 성향 등 본인 성향에 따라 구성을 할 수 있습니다. 컨셉기준으로 성장주 위주, 가치주와 성장주 혼합 방식, 시장이 큰 충격이 와도 흔들림이 덜한 변동성이 작은 주식들로 구성하는 전략, 시가총액이 큰 종목들을 구성한 우량주 전략, 리밸런싱 기간을 짧게 잡은 소형주 전략 등 다양하게 서술을 할 수 있을 것 같네요. 어떤 포트폴리오, 전략이 좋아요? 이 부분은 정답이 없기 때문에 저도 모르겠습니다. SNS나 유튜브, 블로그에 수익률을 자랑하는 글들이 상당히 많이볼 수 있습니다.(저도 그런 사람입니다.) 증권사에서는 짧은 기간의 투자대회가 많이 열리기도 합니다. 근데 이 행위가 무의미하다고 생각하..

[Crawling] 공공데이터 포털 : 한국환경공단 대기오염정보 open api 수집
Programming/R 2021. 8. 6. 15:00

# Load Library > library(tidyverse) > library(httr) > library(rvest) > library(jsonlite) 공공데이터 포털에서 발급받은 인증키를 복사한 다음 R 환경변수에 추가 # usethis::edit_r_environ() ## DATAGOKR_TOKEN = '자신의 인증키를 여기에 붙여넣기' ## 이제 '.Renviron' 파일을 저장한 다음 RStudio Restart Session myKey에 R 환경변수를 지정 > myKey main oper res # 응답 결과 확인 > print(x = res) Response [http://openapi.airkorea.or.kr/openapi/services/rest/ArpltnInforInqireSv..