dCollection 디지털 학술정보 유통시스템

뉴스 웹페이지 크롤링과 텍스트 정제 및 중요단어 추출 함수구현

News web page crawling, text purification, and important word extraction function implementation

원문보기

주제(키워드) 웹 크롤링 , TF-IDF , 매개중심성 , 단어 네트워크 맵 , 텍스트 마이닝
주제(DDC) 006.31
발행기관 아주대학교
지도교수 권순선
발행년도 2022
학위수여년월 2022. 2
학위명 석사
학과 및 전공 일반대학원 인공지능학과
실제URI http://www.dcollection.net/handler/ajou/000000031736
본문언어 한국어
저작권 아주대학교 논문은 저작권에 의해 보호받습니다.

초록/요약

텍스트 데이터에서의 핵심 내용을 추출하기 위해 사용되는 방법 중 하나는 해당 텍스트 데이터에서 많이 사용된 단어들을 찾는 것이다. 이 방법은 텍스트 데이터에서 자주 사용되는 단어들은 중요한 의미를 갖고 있으며 문서의 핵심내용을 대략적으로 확인할 수 있게 하는 단서라고 해석한다. 하지만, 단어 빈도를 계산하는 방법은 단어 간의 상관관계를 계산하지 않고 단순빈도 만을 기반으로 분석하기 때문에 문서의 성격과 맥락을 이해하고 분석하기에는 한계가 존재한다. 의미가 없는 단어가 단순 반복되어서 빈도수가 높게 측정될 수도 있고, 해당 문서에서 중요한 핵심 내용과는 전혀 상관없는 단어가 중요 단어로 잘못 추출될 수 있다. 이에 본 논문에서는 단순 단어빈도가 아닌 단어 간의 상관관계를 계산한 후 단어들 사이에서 중심역할을 하는 단어들을 찾아내는 방법을 사용한다. 웹페이지를 크롤링하여 정제한 후 데이터를 저장하고 단어 네트워크 맵을 그리는 과정인 텍스트 마이닝 과정을 수행하는 KTDA(Korean Text Data Analysis)함수를 제작하고, 한글 텍스트 문서에 대한 통계적 분석과 텍스트 분석에 적용하는 것이 본 연구의 목표이다.

1. 서론 1
2. 연구 방법론 2
2.1 웹 크롤링 2
2.2 단어 분석 3
2.2.1 TF-IDF 3
2.2.2 매개중심성 5
2.3 시각화 6
2.3.1 워드 클라우드 6
2.3.2 단어 네트워크 맵 6
2.4 연관성 분석 8
3. KTDA(Korean Text Data Analysis) 함수 구현 10
3.1 KTDA 함수 10
3.2 텍스트 마이닝 11
3.2.1 데이터 수집 12
3.2.2 텍스트 정제 12
3.2.3 차원 축소 14
3.2.4 텍스트 분석 15
4. 한글 텍스트 분석 16
4.1 갑상선암 관련 뉴스 데이터 17
4.2 최신 다음 뉴스 데이터 22
5. 결론 26
참고문헌 27

반출 Meta View 목록

검색 상세

뉴스 웹페이지 크롤링과 텍스트 정제 및 중요단어 추출 함수구현

초록/요약

목차