검색 상세

자연어처리를 이용한 신산업군 분류

A New Classification of Industries Using Natural Language Processing

초록/요약

본 연구는 자연어 처리를 이용하여 기업에서 추진하고 있는 사업을 반영한 새로운 산업군 분류를 실시하였다. 데이터는 2020년-2021년 SEC의 10-K report를 사용하였고, S&P 500에 포함되는 회사들의 Item 1. Business로 데이터를 구성하였다. 연구에서는 워드투벡터와 코사인 유사도를 이용하여 새로운 산업군을 만들었다. 그리고 신 산업군과 기존 글로벌산업분류기준에 따라 분류된 산업군의 차이와 효과성을 보이기 위해, 특정 회사를 중심으로 수익률에 대한 상관관계의 평균을 비교해 보았다. 또한 S&P 500 index와의 연관성을 배제시키기 위해 각 기업과 S&P 500 index 수익률의 회귀분석 잔차를 이용하여 대표기업에 대한 각 기업의 상관관계의 평균을 비교해 보았다. 분석 결과 글로벌산업분류기준에 속한 산업군보다 대표기업과의 코사인 유사도를 기준으로 만든 신산업군이 대표기업과 상관관계가 더 높은 것으로 확인되었다. 또한 S&P 500 index와의 회귀분석 잔차로 비교한 것을 보면, 대표기업에 대하여 다수의 신산업군이 글로벌산업분류기준으로 분류한 산업군보다 더 높은 상관관계를 보여주었다. 따라서 본 연구는 기존의 확률 기반이나 딥러닝 방식이 아닌 워드투벡터를 사용하여 산업군 분류를 효율적으로 하고, 단어의 빈도수를 사용하지 않아 기업에서 추진하는 사업 내용에 따라 산업군을 다르게 적용시켰다는 점에서 의의가 있다.

more

목차

I. 서론 1
II. 선행 연구 분석 및 본 연구의 차별성 3
III. 데이터 설명 5
A. 10-K report 5
B. S&P 500 요소 6
IV. 모형 설명 7
A. 워드투벡터 7
B. 코사인 유사도 9
V. 분석결과 10
Ⅵ. 결론 및 한계 21
참고문헌 22

more