호돌찌의 AI 연구소
728x90
[Crawling] XML, JSON in R
Programming/R 2021. 6. 17. 22:19

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents 반복문에서 예외 처리 JavaScript에 대한 이해 AJAX & XHR XML R에서 XML 데이터를 다루는 방법 JSON에 대한 이해 R에서 JSON 데이터를 다루는 방법 Chrome 개발자도구 활용법 반복문에서 예외 처리 반복문 실행 중 여러 이유로 다양한 에러가 발생함. 특히 HTTP 요청 결과 상태 코드가 4xx이거나 응답결과는 정상이었지만 HTML이 비어있는 경우 등 여러가지 이슈에 부딪힐 수 있으므로 예외처리를 해주어야 함 R 반복문 실행 도중 에러가 발생하는 경우, 해당 에러는 건너뛰고 다음번 실행으로 넘어가도록 설정하기 위해 tryCatch() 함수를 사용, (설명이 괜찮게 되어 있는..

article thumbnail
[Crawling] 용어 다지기 및 Tutorial
Programming/R 2021. 6. 5. 17:36

19년 하반기에 강의 했었던 내용을 짧게 일부 발췌하였습니다. 최소한은 이 부분은 알고 가신 다음에 적용하는 것이 좋습니다. 간단 이론! 웹크롤링 전반적인 범위 우리가 인터넷에서 정보를 검색하는 방법 R에서의 웹 크롤링과 인터넷 검색의 유사점 웹 크롤링을 위해 추가로 알아야할 사항 이것만 알고 넘어가요 HTML 기초 HTML 요소 CSS Selector & XPath 표기법 비교 Rselenium Selenium 이해 Selenium 환경 Rselenium 브라우저 설정 실습에 활용할 함수들 ★ 실습 코드는 메일에 보내겠습니다 Rselenium Function 1 : remote driver 설정 Rselenium Function 2 : remote web browser 제어 Rselenium Funct..

자연어 강좌 추천(2020)
AI/NLP 2020. 7. 12. 17:06

NLP를 공부하면서 도움이 되었던 강좌들을 소개하며 몇줄평을 남겨보도록 하겠습니다. 오로지 자연어 관련 강좌만을 언급을 합니다.(2020년 7월 기준) 1. 허민석님 유튜브→ 자연어처리 재생목록입니다. 용어 잡기에 정말 좋고 짧게 구성되어 있습니다. 2. [Korea University] Text Analytics 2020 Spring → 고려대학교 강필성 교수님 강좌입니다. 텍스트 관련 모든 이론 내용(전처리, topic modeling, deep learning 등)을 다루고 있다고 무방합니다. 정말 추천하는 강좌입니다. 3. 딥러닝을 이용한 자연어 처리 Edwith → 조경현 교수님 자연어 처리 강좌입니다. 처음 듣는 사람들에게 다소 어려울 수 있지만 꽤나 depth있게 필요한 내용들을 전부 다루고..

자연어 관련 도서 및 블로그 소개(2020)
AI/NLP 2020. 7. 12. 16:00

Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합니다.(2020년 7월 기준) R 1. R을 이용한 텍스트 마이닝(2017, 2020 개정) → 제일 처음으로 저는 R을 이용을 했었고, 이 책으로 입문을 했었습니다. 이 도서는 전처리와 토픽모델링에 focusing 되어있기 때문에 텍스트마이닝 용으로는 괜찮은 책이라고 생각합니다. 특히 전처리 하는 내용이 상세히 되어있고, 올해 개정이 되면서 도서 분량도 늘어나서 좋은 내용이 기술되어 있을 것 같습니다. (한글 데이터도 다루는 것으로 기억이 납니다.) 2. R로 배우는 텍스트 마이닝(2019) ..