검색 상세

거대 인용 네트워크 데이터를 이용한 피 인용수 예측 모델링

Cited count prediction modeling from large citation network

초록/요약

학술정보 데이터는 논문과 또는 학술대회에서 출간된 발표지 또는 도서 등을 의미한다. 다른 정보와 달리 상대적으로 내용에 충실하며 첨단 정보를 포함하고 있다. 학술자료는 기존의 학술자료의 아이디어를 바탕으로 발전하며 아이디어를 얻은 학술자료로 인용한다. 이런 관계를 인용 관계(Citation relation)라 하며 네트워크(그래프) 구조로도 표현될 수 있다. 이렇게 만들어진 네트워크를 인용 네트워크(Citation network)라 한다. 최근 컴퓨터와 인터넷의 발달로 상호 정보교류가 빨라지고 많아 짐에 따라 상대적으로 발생량이 적었던 학술 정보 데이터 또한 매년 성장세가 커지고 있다. 이는 인류 발전에 있어 큰 축복임이 분명하지만 이면으로 발행된 자료 중에 상대적으로 중요한 논문을 찾아내야 하는 필요성이 증가하게 되었다. 학술적 영향력은 학술자료들의 다른 자료들에 대한 영향력을 측정하려는 방법으로 제시되었다. 그중 학술정보가 참조된 횟수인 인용 수는 대부분의 학술적 영향력에서 중추적인 역할을 담당한다. 또한, 이와 함께 학술적 영향력을 예측하기 위한 많은 연구가 지속하여 왔다. 본 논문에서는 인용 네트워크로부터 다양한 형태로 이용하여 인용 수 예측 문제를 효과적으로 푸는 방법에 대한 연구를 진행하였다. 이를 달성하기 위해 소셜 네트워크 분석 기법의 하나인 중심성 (Centrality)으로부터 다수의 특징(feature)을 추출하는 방법과 인용 네트워크의 생성 규칙을 학습해 가상의 인용 네트워크를 생성하는 모델을 이용한다. 실험 결과 첫 번째 실험에서 인용 네트워크에서 뽑아낸 새로운 특징들은 기존의 유의하다고 알려진 특징들과 비교해 향후 학술자료의 피인용 수를 예측하는 데 도움이 될 수 있을 것으로 확인되었다. 또한, 시간에 따른 변화는 각 특징의 중요성에 큰 영향을 미치지 않는 것으로 나타났다. 두 번째 실험에서는 인용 네트워크의 특성과 내용 유사성을 활용해 인용 네트워크 생성 모델을 제시하였다. 이 모델은 초기 생성 단계에선 큰 차이가 없었으나 단계가 거듭될수록 제시한 모델이 실제 인용 네트워크와 비슷한 형태로 네트워크 생성하는 것을 볼 수 있었다. 비록 실제 예측값을 완전하게 예측하기는 어려운 것이 인용 수 예측과정에서 확인되었지만, 이는 내용 벡터의 확장 등으로 개선할 수 있을 것으로 보인다. 본 연구를 통해 학술 데이터 분석 과정에서 나온 인용 네트워크의 특징을 이용해 학술 정보 데이터에 대한 통찰을 얻을 수 있을 것이며 또한 예측 모델을 활용하여 향후 주목받을 수 있을 논문과 학술 분야에 대한 연구가 가능할 것으로 예상된다.

more

목차

1. 서론 1
1.1 서 론 1
1.1.1. 연구 목적 및 필요성 1
1.1.2. 연구내용 및 방법 1
1.1.3. 연구의 기대효과 2
1.1.4. 논문 구성 3
2. 개념 정리 및 관련 연구 4
2.1 네트워크 데이터 4
2.1.1. 네트워크 패턴 및 생성모델 4
2.1.2. 중심성(Centrality) 5
2.2 텍스트 데이터 9
2.2.1. 단어 가방(Bag of Words) 10
2.2.2. 확률적 언어 모델링(Probabilistic Language Modeling) 11
2.2.3. 유니그램 모델(Unigram Model) 12
2.2.4. N-gram Model 13
2.2.5. 단어 및 텍스트 임베딩(Word and Text Embedding) 14
2.3 인용 네트워크와 인용 수 예측 모델 19
2.3.1. 인용 네트워크 19
2.3.2. 인용 수 예측 모델 20
2.3.3. 인용 네트워크 패턴 및 생성 모델 21
3. 시계열 인용 네트워크 데이터를 이용한 인용수 예측 모델 23
3.1. 네트워크 중심성 특징 추출 및 그 영향력 측정 23
3.1.1. 문제 정의 23
3.1.2. 실험 설정 24
3.1.3. 특징 추출 25
3.1.4. 실험 결과 26
3.2 학술논문의 텍스트 정보를 활용한 인용 네트워크 생성 모델 29
3.2.1. 문제 정의 29
3.2.2. 실험 준비 34
3.2.3. 실험 결과 36
4. 결론 44

more