2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다. Contents Contents 반복문에서 예외 처리 JavaScript에 대한 이해 AJAX & XHR XML R에서 XML 데이터를 다루는 방법 JSON에 대한 이해 R에서 JSON 데이터를 다루는 방법 Chrome 개발자도구 활용법 반복문에서 예외 처리 반복문 실행 중 여러 이유로 다양한 에러가 발생함. 특히 HTTP 요청 결과 상태 코드가 4xx이거나 응답결과는 정상이었지만 HTML이 비어있는 경우 등 여러가지 이슈에 부딪힐 수 있으므로 예외처리를 해주어야 함 R 반복문 실행 도중 에러가 발생하는 경우, 해당 에러는 건너뛰고 다음번 실행으로 넘어가도록 설정하기 위해 tryCatch() 함수를 사용, (설명이 괜찮게 되어 있는..
19년 하반기에 강의 했었던 내용을 짧게 일부 발췌하였습니다. 최소한은 이 부분은 알고 가신 다음에 적용하는 것이 좋습니다. 간단 이론! 웹크롤링 전반적인 범위 우리가 인터넷에서 정보를 검색하는 방법 R에서의 웹 크롤링과 인터넷 검색의 유사점 웹 크롤링을 위해 추가로 알아야할 사항 이것만 알고 넘어가요 HTML 기초 HTML 요소 CSS Selector & XPath 표기법 비교 Rselenium Selenium 이해 Selenium 환경 Rselenium 브라우저 설정 실습에 활용할 함수들 ★ 실습 코드는 메일에 보내겠습니다 Rselenium Function 1 : remote driver 설정 Rselenium Function 2 : remote web browser 제어 Rselenium Funct..
NLP를 공부하면서 도움이 되었던 강좌들을 소개하며 몇줄평을 남겨보도록 하겠습니다. 오로지 자연어 관련 강좌만을 언급을 합니다.(2020년 7월 기준) 1. 허민석님 유튜브→ 자연어처리 재생목록입니다. 용어 잡기에 정말 좋고 짧게 구성되어 있습니다. 2. [Korea University] Text Analytics 2020 Spring → 고려대학교 강필성 교수님 강좌입니다. 텍스트 관련 모든 이론 내용(전처리, topic modeling, deep learning 등)을 다루고 있다고 무방합니다. 정말 추천하는 강좌입니다. 3. 딥러닝을 이용한 자연어 처리 Edwith → 조경현 교수님 자연어 처리 강좌입니다. 처음 듣는 사람들에게 다소 어려울 수 있지만 꽤나 depth있게 필요한 내용들을 전부 다루고..
Text MIning, NLP를 공부하면서 도움이 되었던 책들과 블로그를 소개하며 몇줄 남겨보도록 하겠습니다.(블로그는 많은 내용을 다루는 곳을 기준으로만 기술 했습니다.) 서적은 자연어 관련 서적 만을 언급을 합니다.(2020년 7월 기준) R 1. R을 이용한 텍스트 마이닝(2017, 2020 개정) → 제일 처음으로 저는 R을 이용을 했었고, 이 책으로 입문을 했었습니다. 이 도서는 전처리와 토픽모델링에 focusing 되어있기 때문에 텍스트마이닝 용으로는 괜찮은 책이라고 생각합니다. 특히 전처리 하는 내용이 상세히 되어있고, 올해 개정이 되면서 도서 분량도 늘어나서 좋은 내용이 기술되어 있을 것 같습니다. (한글 데이터도 다루는 것으로 기억이 납니다.) 2. R로 배우는 텍스트 마이닝(2019) ..