2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다.
------------------------------------------------------------------------------------------
먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보자. 그 후에 특정 경로에 논문을 저장한다.
pdf_text 패키지를 이용하면 쉽게 변환을 해준다. 하지만 쉽게 converting되는 함수는 뒤에 손이 많이 갈 것이라 예상하고 있었는데 역시나 예상대로였다.
아래 코드처럼 경로지정하고 그냥 함수 집어넣어 돌리기만 하면 된다. 그럼 아래처럼 나타난것을 확인할 수 있는데 꽤나 전처리가 많이 필요하다
> fileName <- '../../Desktop/R pdf/albert.pdf'
> pdf_text(pdf = fileName)
[1] " ALBERT: A L ITE BERT FOR S ELF - SUPERVISED\r\n L EARNING OF L ANGUAGE R EPRESENTATIONS\r\n Zhenzhong Lan1 Mingda Chen2∗ Sebastian Goodman1 Kevin Gimpel2\r\n Piyush Sharma1 Radu Soricut1\r\n 1\r\n Google Research 2\r\n Toyota Technological Institute at Chicago\r\n {lanzhzh, seabass, piyushsharma, rsoricut}@google.com\r\n {mchen, kgimpel}@ttic.edu\r\narXiv:1909.11942v1 [cs.CL] 26 Sep 2019\r\n A BSTRACT\r\n Increasing model size when pretraining natural language representations often re-\r\n sults in improved performance on downstream tasks. However, at some point fur-\r\n ther model increases become harder due to GPU/TPU memory limitations, longer\r\n
정보를 파악하면 다음과 같다.
> pdf_info(pdf = fileName)
$`version`
[1] "1.5"
$pages
[1] 16
$encrypted
[1] FALSE
$linearized
[1] FALSE
$keys
$keys$`Author`
[1] ""
$keys$Creator
[1] "LaTeX with hyperref package"
$keys$Keywords
[1] ""
$keys$PTEX.Fullbanner
[1] "This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2"
$keys$Producer
[1] "pdfTeX-1.40.17"
$keys$Subject
[1] ""
$keys$Title
[1] ""
$keys$Trapped
[1] ""
$created
[1] "2019-09-27 09:38:08 KST"
$modified
[1] "2019-09-27 09:38:08 KST"
$metadata
[1] ""
$locked
[1] FALSE
$attachments
[1] FALSE
$layout
[1] "no_layout"
한장씩 저장하면 다음 처럼 나타난다.
> pdf_convert(pdf = fileName, format = 'png')
한장씩 사진이 저장된다.
그리고 표 같은 경우가 잘 불러오기 힘든데 다음과 같은표를 보고싶지만 현실은 그렇지 않다.
> table %>% head()
V1 V2 V3 V4 V5 V6 V7 V8 V9
1 9
2 8 BERT-large
3 0.6
4 7 BERT-xlarge
5 6 0.5
6 5 0.4 Training loss
좀 많이 짤리고 그러는데 이부분은 전처리가 반드시 필요하다.
<Copyright 2019. hotorch. All rights reserved.>
'Programming > R' 카테고리의 다른 글
[Crawling] R을 이용한 가상화폐 거래소 Open API 실시간 가격조회 (0) | 2021.08.22 |
---|---|
[Crawling] 공공데이터 포털 : 한국환경공단 대기오염정보 open api 수집 (0) | 2021.08.06 |
[Crawling] KBReport 2019 정규시즌 투수 Stat Crawling (0) | 2021.07.22 |
R 정규표현식 기본문법 (0) | 2021.07.17 |
[Crawling] R stringr 패키지 사용법 (0) | 2021.07.06 |