호돌찌의 AI 연구소
article thumbnail

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다.

 

 

------------------------------------------------------------------------------------------

먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보자. 그 후에 특정 경로에 논문을 저장한다.

 

pdf_text 패키지를 이용하면 쉽게 변환을 해준다. 하지만 쉽게 converting되는 함수는 뒤에 손이 많이 갈 것이라 예상하고 있었는데 역시나 예상대로였다.

아래 코드처럼 경로지정하고 그냥 함수 집어넣어 돌리기만 하면 된다. 그럼 아래처럼 나타난것을 확인할 수 있는데 꽤나 전처리가 많이 필요하다

 

> fileName <- '../../Desktop/R pdf/albert.pdf'
> pdf_text(pdf = fileName)
 [1] "                                         ALBERT: A L ITE BERT FOR S ELF - SUPERVISED\r\n                                         L EARNING OF L ANGUAGE R EPRESENTATIONS\r\n                                             Zhenzhong Lan1              Mingda Chen2∗           Sebastian Goodman1          Kevin Gimpel2\r\n                                                                           Piyush Sharma1              Radu Soricut1\r\n                                                            1\r\n                                                                Google Research          2\r\n                                                                                             Toyota Technological Institute at Chicago\r\n                                                      {lanzhzh, seabass, piyushsharma, rsoricut}@google.com\r\n                                                                  {mchen, kgimpel}@ttic.edu\r\narXiv:1909.11942v1 [cs.CL] 26 Sep 2019\r\n                                                                                             A BSTRACT\r\n                                                      Increasing model size when pretraining natural language representations often re-\r\n                                                      sults in improved performance on downstream tasks. However, at some point fur-\r\n                                                      ther model increases become harder due to GPU/TPU memory limitations, longer\r\n

 

정보를 파악하면 다음과 같다.

> pdf_info(pdf = fileName)
$`version`
[1] "1.5"

$pages
[1] 16

$encrypted
[1] FALSE

$linearized
[1] FALSE

$keys
$keys$`Author`
[1] ""

$keys$Creator
[1] "LaTeX with hyperref package"

$keys$Keywords
[1] ""

$keys$PTEX.Fullbanner
[1] "This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2"

$keys$Producer
[1] "pdfTeX-1.40.17"

$keys$Subject
[1] ""

$keys$Title
[1] ""

$keys$Trapped
[1] ""


$created
[1] "2019-09-27 09:38:08 KST"

$modified
[1] "2019-09-27 09:38:08 KST"

$metadata
[1] ""

$locked
[1] FALSE

$attachments
[1] FALSE

$layout
[1] "no_layout"

 

한장씩 저장하면 다음 처럼 나타난다.

> pdf_convert(pdf = fileName, format = 'png')

 

 

 

한장씩 사진이 저장된다.

그리고 표 같은 경우가 잘 불러오기 힘든데 다음과 같은표를 보고싶지만 현실은 그렇지 않다.

 

> table %>% head()
             V1  V2 V3 V4 V5 V6 V7 V8            V9
1             9                                    
2  8 BERT-large                                    
3               0.6                                
4 7 BERT-xlarge                                    
5             6 0.5                                
6             5 0.4                   Training loss

좀 많이 짤리고 그러는데 이부분은 전처리가 반드시 필요하다.

 

 

<Copyright 2019. hotorch. All rights reserved.>

profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!