논문 주제로도 wordcloud를 만들 수 있을까?

Pubchem은 논문이 모이는 보고… 정말 온갖가지 논문이 다 모인다. 그리고 시대에 따라 트렌드가 있듯이 논문도 그러할 것이다. 크게는 생물학에 대해 연구를 하더라도 20년 전과 지금의 연구 분야, 연구하는 영역은 다를 수 있는데… 그럼 이걸 wordcloud로 만들어서 비교할 수 있을까?

1. pubchem에서 특정 연도에 발행된 논문의 제목, PMID(이거 있으면 논문 찾을 수 있음), 저자 데이터를 가져온다.
2. wordcloud를 만든다.
끝. 이게 다다. 그럼 여기서 세부적으로 들어가보자…

1) 논문의 제목을 가져올 때, 그냥 그 해에 발행된 논문의 데이터를 가져올수도 있지만, 그 해에 발행된 논문 중에서도 본인이 관심있어하는 분야나 특정 키워드 관련 논문으로 가져올 수 있다. 예를 들자면 신경생물학 관련된 논문이라던가, 애기장대에 대해 연구한 논문.
2) Wordcloud를 만들 때 빼야 하는 단어들이 있다. stopword라고 하는데 여기에 대해 설정해줘야 트렌드를 볼 수 있다. (한국어의 은는이가같은 것, 감탄사는 빼야 한다)
3) 이를 응용하면 전체적으로 특정 키워드에 대한 논문 제목만 가져와서 wordcloud를 만들 수도 있다. 예를 들자면 sonic hedgehog protein에 대한 논문.