호돌찌의 AI 연구소
article thumbnail

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다.

 

 

------------------------------------------------------------------------------------------

먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보자. 그 후에 특정 경로에 논문을 저장한다.

 

pdf_text 패키지를 이용하면 쉽게 변환을 해준다. 하지만 쉽게 converting되는 함수는 뒤에 손이 많이 갈 것이라 예상하고 있었는데 역시나 예상대로였다.

아래 코드처럼 경로지정하고 그냥 함수 집어넣어 돌리기만 하면 된다. 그럼 아래처럼 나타난것을 확인할 수 있는데 꽤나 전처리가 많이 필요하다

 

<code />
> fileName <- '../../Desktop/R pdf/albert.pdf' > pdf_text(pdf = fileName) [1] " ALBERT: A L ITE BERT FOR S ELF - SUPERVISED\r\n L EARNING OF L ANGUAGE R EPRESENTATIONS\r\n Zhenzhong Lan1 Mingda Chen2∗ Sebastian Goodman1 Kevin Gimpel2\r\n Piyush Sharma1 Radu Soricut1\r\n 1\r\n Google Research 2\r\n Toyota Technological Institute at Chicago\r\n {lanzhzh, seabass, piyushsharma, rsoricut}@google.com\r\n {mchen, kgimpel}@ttic.edu\r\narXiv:1909.11942v1 [cs.CL] 26 Sep 2019\r\n A BSTRACT\r\n Increasing model size when pretraining natural language representations often re-\r\n sults in improved performance on downstream tasks. However, at some point fur-\r\n ther model increases become harder due to GPU/TPU memory limitations, longer\r\n

 

정보를 파악하면 다음과 같다.

<r />
> pdf_info(pdf = fileName) $`version` [1] "1.5" $pages [1] 16 $encrypted [1] FALSE $linearized [1] FALSE $keys $keys$`Author` [1] "" $keys$Creator [1] "LaTeX with hyperref package" $keys$Keywords [1] "" $keys$PTEX.Fullbanner [1] "This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2" $keys$Producer [1] "pdfTeX-1.40.17" $keys$Subject [1] "" $keys$Title [1] "" $keys$Trapped [1] "" $created [1] "2019-09-27 09:38:08 KST" $modified [1] "2019-09-27 09:38:08 KST" $metadata [1] "" $locked [1] FALSE $attachments [1] FALSE $layout [1] "no_layout"

 

한장씩 저장하면 다음 처럼 나타난다.

<code />
> pdf_convert(pdf = fileName, format = 'png')

 

 

 

한장씩 사진이 저장된다.

그리고 표 같은 경우가 잘 불러오기 힘든데 다음과 같은표를 보고싶지만 현실은 그렇지 않다.

 

<r />
> table %>% head() V1 V2 V3 V4 V5 V6 V7 V8 V9 1 9 2 8 BERT-large 3 0.6 4 7 BERT-xlarge 5 6 0.5 6 5 0.4 Training loss

좀 많이 짤리고 그러는데 이부분은 전처리가 반드시 필요하다.

 

 

<Copyright 2019. hotorch. All rights reserved.>

profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!