호돌찌의 AI 연구소
728x90
article thumbnail
[Crawling] R을 이용한 가상화폐 거래소 Open API 실시간 가격조회
Programming/R 2021. 8. 22. 16:20

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. 이때만 해도 정말 관심이 없었는데 지금은 차트를 상당히 좋아하는 제 자신이 대비됩니다. 살펴보겠습니다. 우선 업비트 개발자 센터로 접속한다. 메인페이지 → 고객센터 → Open API 이용안내 → 업비트 개발자 센터 또는 아래 GET STARTED 클릭! 시세 정보 아래 'REST API를 이용한 업비트 시세 수신' 을 활용할 예정이다. cURL 언어로 소개가 되어있지만 R에서 GET 방식을 활용한 HTTP 요청으로 해결 가능. 시세 정보 조회 방법 코인 리스트 조회 상장 코인 294개 정보를 조회할 수 있음 예시 : 원화 마켓의 비트코인 시세를 알고싶다면 market 파라미터에 KRW-BTC 라고 명시할 수 있음 curl --re..

article thumbnail
[Crawling] PDF파일 R로 간단하게 크롤링해보기
Programming/R 2021. 8. 15. 11:40

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. ------------------------------------------------------------------------------------------ 먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보자. 그 후에 특정 경로에 논문을 저장한다. pdf_text 패키지를 이용하면 쉽게 변환을 해준다. 하지만 쉽게 converting되는 함수는 뒤에 손이 많이 갈 것이라 예상하고 있었는데 역시나 예상대로였다. 아래 코드처럼 경로지정하고 그냥 함수 집어넣어 돌리기만 하면 된다. 그럼 아래처럼 나타난것을 확인할 수 있는데 꽤나 전처리가 많이 필요하다 > fileName pdf_text(pdf = fileName) [1] " AL..

[Crawling] 공공데이터 포털 : 한국환경공단 대기오염정보 open api 수집
Programming/R 2021. 8. 6. 15:00

# Load Library > library(tidyverse) > library(httr) > library(rvest) > library(jsonlite) 공공데이터 포털에서 발급받은 인증키를 복사한 다음 R 환경변수에 추가 # usethis::edit_r_environ() ## DATAGOKR_TOKEN = '자신의 인증키를 여기에 붙여넣기' ## 이제 '.Renviron' 파일을 저장한 다음 RStudio Restart Session myKey에 R 환경변수를 지정 > myKey main oper res # 응답 결과 확인 > print(x = res) Response [http://openapi.airkorea.or.kr/openapi/services/rest/ArpltnInforInqireSv..

R 정규표현식 기본문법
Programming/R 2021. 7. 17. 11:43

정규표현식에 대한 이해 하는 만큼 실력이 느는 Part, 많이 연습하면 외워지겠지만, 매번 검색해서 찾아보는 것을 추천. 패턴(규칙)을 갖는 문자열의 집합을 표현하는 데 사용하는 언어 복잡한 문자열에서 특정한 패턴과 일치하는 문자열을 찾고, 대체하기 위해 사용됨 정규표현식 기능을 많은 프로그래밍 언어에서 제공하지만, 문법에 있어선 프로그래밍 언어간 다소 차이가 있음 R에서 사용되는 정규표현식의 특징은 escape 문자가 두번(\\) 사용된다는 것임 정규표현식 내에서 띄어쓰기 하면 인식 X 정규표현식 기본 문법 1 한 글자만 해당됨 정규표현식 포함되는 패턴 \\w 숫자 \\s \\w의 반대 \\D \\s의 반대, 대문자는 모두 반대로 생각하면 된다. \\p{Hangul} 모든 문자 (공백 포함, 단, \r..

[Crawling] R stringr 패키지 사용법
Programming/R 2021. 7. 6. 22:20

stringr 패키지 소개 stringr 패키지 주요 함수 1 : 패턴 포함 여부 확인 stringr 패키지 주요 함수 2 : 패턴을 한 번 또는 모두 삭제 stringr 패키지 주요 함수 3 : 패턴을 한 번 또는 모두 교체 stringr 패키지 주요 함수 4 : 패턴을 한 번 또는 모두 추출 stringr 패키지 주요 함수 5 : 문자열 인덱스로 자르기 stringr 패키지 주요 함수 6 : 문자열 하나로 묶음 stringr 패키지 주요 함수 7 : 문자열 구분자로 분리 stringr 패키지 주요 함수 8 : 양 옆의 공백 제거 stringr 패키지 소개 R에서 문자 데이터를 다루는 데 필요한 주요 함수를 담고있음 다음과 같은 기능들 가능 패턴을 포함하고 있는지 확인 (str_detect) 패턴을 삭..

[Crawling] RSelenium
Programming/R 2021. 7. 2. 23:16

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Selenium 이해 Java JDK 설치 RSelenium 패키지 소개 크롬 드라이버 버전 확인 크롬 드라이버 설정 Rselenium 패키지 주요함수 1 : remote driver 설정 Rselenium 패키지 주요함수 2 : remote web browser 제어 Rselenium 패키지 주요함수 3 : 웹사이트 접속 Rselenium 패키지 주요함수 4 : HTML 요소 찾기 Rselenium 패키지 주요함수 5 : 글자 입력 Rselenium 패키지 주요함수 6 : 버튼 클릭 Rselenium 패키지 주요함수 7 : 페이지 이동 Rselenium 패키지 주요함수 8 : 창 이동 및 팝업 제거 Rselenium 패키지 주요함..

[Crawling] JavaScript가 사용된 Webpage 긁기
Programming/R 2021. 6. 22. 22:15

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents JavaScript 사용된 파일 찾기 Step 날짜데이터 활용 - 매우 기초 현재 날짜 반환 현재 날짜 속성 확인 현재 날짜를 숫자 값으로 변환, 1970-01-01로 부터의 누적일 수가 반환됨 현재 날짜를 특정 형태로 변환하려면 format() 함수 사용 Date 객체에 정수를 더하면 미래 일자, 빼면 과거 일자 반환 문자열을 날짜로 변환 'x' 인자에 숫자 0을 할당하면 'origin'인자에 지정된 날짜가 반환 생일을 입력해서 지금까지 살아온 일 수 계산 가능 날짜 데이터 활용 - 크롤링에 활용하기위해 날짜 벡터 생성 시작일자와 종료일자를 각각 지정 후 1, 2일 간격으로 생성 1주일, 1달, 1..

[Crawling] XML, JSON in R
Programming/R 2021. 6. 17. 22:19

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents 반복문에서 예외 처리 JavaScript에 대한 이해 AJAX & XHR XML R에서 XML 데이터를 다루는 방법 JSON에 대한 이해 R에서 JSON 데이터를 다루는 방법 Chrome 개발자도구 활용법 반복문에서 예외 처리 반복문 실행 중 여러 이유로 다양한 에러가 발생함. 특히 HTTP 요청 결과 상태 코드가 4xx이거나 응답결과는 정상이었지만 HTML이 비어있는 경우 등 여러가지 이슈에 부딪힐 수 있으므로 예외처리를 해주어야 함 R 반복문 실행 도중 에러가 발생하는 경우, 해당 에러는 건너뛰고 다음번 실행으로 넘어가도록 설정하기 위해 tryCatch() 함수를 사용, (설명이 괜찮게 되어 있는..

article thumbnail
[Crawling] 용어 다지기 및 Tutorial
Programming/R 2021. 6. 5. 17:36

19년 하반기에 강의 했었던 내용을 짧게 일부 발췌하였습니다. 최소한은 이 부분은 알고 가신 다음에 적용하는 것이 좋습니다. 간단 이론! 웹크롤링 전반적인 범위 우리가 인터넷에서 정보를 검색하는 방법 R에서의 웹 크롤링과 인터넷 검색의 유사점 웹 크롤링을 위해 추가로 알아야할 사항 이것만 알고 넘어가요 HTML 기초 HTML 요소 CSS Selector & XPath 표기법 비교 Rselenium Selenium 이해 Selenium 환경 Rselenium 브라우저 설정 실습에 활용할 함수들 ★ 실습 코드는 메일에 보내겠습니다 Rselenium Function 1 : remote driver 설정 Rselenium Function 2 : remote web browser 제어 Rselenium Funct..

자연어 관련 도서 및 블로그 소개(2020)
AI/NLP 2020. 7. 12. 16:00

Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합니다.(2020년 7월 기준) R 1. R을 이용한 텍스트 마이닝(2017, 2020 개정) → 제일 처음으로 저는 R을 이용을 했었고, 이 책으로 입문을 했었습니다. 이 도서는 전처리와 토픽모델링에 focusing 되어있기 때문에 텍스트마이닝 용으로는 괜찮은 책이라고 생각합니다. 특히 전처리 하는 내용이 상세히 되어있고, 올해 개정이 되면서 도서 분량도 늘어나서 좋은 내용이 기술되어 있을 것 같습니다. (한글 데이터도 다루는 것으로 기억이 납니다.) 2. R로 배우는 텍스트 마이닝(2019) ..