[Crawling] PDF파일 R로 간단하게 크롤링해보기

2019년에 Crawling 공부하면서 정리를 했었던 내용의 일부입니다.

------------------------------------------------------------------------------------------

먼저 뽑고 싶은 논문을 찾아보고 pdf로 저장해보자. 그 후에 특정 경로에 논문을 저장한다.

pdf_text 패키지를 이용하면 쉽게 변환을 해준다. 하지만 쉽게 converting되는 함수는 뒤에 손이 많이 갈 것이라 예상하고 있었는데 역시나 예상대로였다.

아래 코드처럼 경로지정하고 그냥 함수 집어넣어 돌리기만 하면 된다. 그럼 아래처럼 나타난것을 확인할 수 있는데 꽤나 전처리가 많이 필요하다

> fileName <- '../../Desktop/R pdf/albert.pdf'
> pdf_text(pdf = fileName)
 [1] "                                         ALBERT: A L ITE BERT FOR S ELF - SUPERVISED\r\n                                         L EARNING OF L ANGUAGE R EPRESENTATIONS\r\n                                             Zhenzhong Lan1              Mingda Chen2∗           Sebastian Goodman1          Kevin Gimpel2\r\n                                                                           Piyush Sharma1              Radu Soricut1\r\n                                                            1\r\n                                                                Google Research          2\r\n                                                                                             Toyota Technological Institute at Chicago\r\n                                                      {lanzhzh, seabass, piyushsharma, rsoricut}@google.com\r\n                                                                  {mchen, kgimpel}@ttic.edu\r\narXiv:1909.11942v1 [cs.CL] 26 Sep 2019\r\n                                                                                             A BSTRACT\r\n                                                      Increasing model size when pretraining natural language representations often re-\r\n                                                      sults in improved performance on downstream tasks. However, at some point fur-\r\n                                                      ther model increases become harder due to GPU/TPU memory limitations, longer\r\n

정보를 파악하면 다음과 같다.

> pdf_info(pdf = fileName)
$`version`
[1] "1.5"

$pages
[1] 16

$encrypted
[1] FALSE

$linearized
[1] FALSE

$keys
$keys$`Author`
[1] ""

$keys$Creator
[1] "LaTeX with hyperref package"

$keys$Keywords
[1] ""

$keys$PTEX.Fullbanner
[1] "This is pdfTeX, Version 3.14159265-2.6-1.40.17 (TeX Live 2016) kpathsea version 6.2.2"

$keys$Producer
[1] "pdfTeX-1.40.17"

$keys$Subject
[1] ""

$keys$Title
[1] ""

$keys$Trapped
[1] ""


$created
[1] "2019-09-27 09:38:08 KST"

$modified
[1] "2019-09-27 09:38:08 KST"

$metadata
[1] ""

$locked
[1] FALSE

$attachments
[1] FALSE

$layout
[1] "no_layout"

한장씩 저장하면 다음 처럼 나타난다.

> pdf_convert(pdf = fileName, format = 'png')

한장씩 사진이 저장된다.

그리고 표 같은 경우가 잘 불러오기 힘든데 다음과 같은표를 보고싶지만 현실은 그렇지 않다.

> table %>% head()
             V1  V2 V3 V4 V5 V6 V7 V8            V9
1             9                                    
2  8 BERT-large                                    
3               0.6                                
4 7 BERT-xlarge                                    
5             6 0.5                                
6             5 0.4                   Training loss

좀 많이 짤리고 그러는데 이부분은 전처리가 반드시 필요하다.

'Programming > R' 카테고리의 다른 글

[Crawling] R을 이용한 가상화폐 거래소 Open API 실시간 가격조회 (0)	2021.08.22
[Crawling] 공공데이터 포털 : 한국환경공단 대기오염정보 open api 수집 (0)	2021.08.06
[Crawling] KBReport 2019 정규시즌 투수 Stat Crawling (0)	2021.07.22
R 정규표현식 기본문법 (0)	2021.07.17
[Crawling] R stringr 패키지 사용법 (0)	2021.07.06

'Programming > R' 카테고리의 다른 글

검색 태그

티스토리툴바