프로그램 소개

대부분의 블로그 메타사이트나 뉴스 메타사이트에서는 최근 인기있는 이슈들을 키워드 형태로 제공합니다. 많은 사이트에서는 이 작업을 위해 사람이 직접 이슈를 선택하거나 간단한 알고리즘을 이용하여 이슈를 선택합니다. 하지만 위와 같은 방법을 사용할 경우에는 사람의 선입견이나 알고리즘의 단순함 때문에 실제 이슈들과 큰 차이를 보일 수 있습니다.

우리 프로그램에서는 기계학습(machine learning)을 이용하여 실제 이슈들과의 차이를 줄이도록 노력하였습니다. 그리고 해당 이슈에 지식이 없는 사람들에게 이슈에 대한 이해를 위해 DAUM OPEN API들을 이용하였습니다. 우리 프로그램은 내부 알고리즘에 의해 최대한 공평하게 이슈를 선정하여 사람들이 쉽게 이슈를 접근할 수 있도록 합니다.

DAUM 위젯 - 블로그 이슈

2009년 9월18일 20시 기준

DAUM 위젯 - 뉴스 이슈

2009년 9월18일 20시 기준

업그레이드 된 내용

우리 프로그램의 전부인 이슈를 선정하는 알고리즘이 전혀 새롭게 변경되었고 뉴스 이슈도 새롭게 추가 되었습니다. 기존의 블로그 이슈 선정 알고리즘은 한RSS의 인기RSS 1000개를 바탕으로 RSS마다 최근 3개의 글(총 3천개)들에 대하여 단순히 명사들을 카운팅하여 소팅한 뒤 선정하였습니다. 변경된 알고리즘은 다음과 같습니다.

이슈를 선정하기 위해 기계학습 방법을 이용하였습니다. 자세한 설명을 위해 학습 데이터셋을 2008년 1월 1일부터 2008년 6월 30일까지 동아일보의 약 2만 5천개의 뉴스기사로 하였습니다.

먼저, 기사마다 빈도수가 큰 5개의 명사를 해당 기사의 주제어로 선별하였습니다. 그리고 기사마다 기자의 이메일을 추출합니다 (이메일 주소가 없는 기사는 제외하였습니다). 그럼 기자마다 주제어와 주제어마다 빈도수의 총합을 가지고 벡터를 만들 수 있습니다. 이 벡터들은 주제어의 개수만큼의 (수만) 차원을 갖게되는데 직접 MDS알고리즘을 이용하여 2차원 평면에 표시하면 다음과 같습니다.

2d

위 그림에서 가까운 위치에 있는 기자들 일수록 비슷한 주제어를 사용하여 기사를 작성한 것입니다. 연필을 가지고 비슷한 주제어를 사용하는 기자들그룹을 동그라미 칠 수 있을 정도 입니다. 그래서 직접 kNN알고리즘을 이용하여 클러스터링을 합니다. 그 결과의 dendrogram 은 다음과 같습니다.

clust

가까운 노드들 일수록 비슷한 주제어를 사용한 것입니다. 그리고 20개의 클러스터를 만들어서 클러스터마다 "주제어:빈도수"를 계산해서 상위 5개씩만 뽑아내면 다음과 같습니다.

keywords

라인마다 하나의 클러스터입니다. 주제어들은 해당 클러스터가 자주 사용한 것입니다. 우리 프로그램은 이렇게 생성된 클러스터들을 토대로 이슈들을 선정합니다. 지금 사용된 방법은 임의의 클러스터(기자들의 집합)에서 어떤 주제어가 최근 몇일 동안에 자주 사용되고 있다면 그 주제어를 이슈로 선정하는 방식입니다. 수년동안 작성한 기사를 이용하여 만든 클러스터를 토대로 이슈를 선정하기 때문에 기자들의 전문성을 이용한 집단지성을 활용했다고 할 수 있습니다. 따라서 좀 더 실제 이슈와 가깝다고 생각 합니다.

그리고 이 모든과정은 파이프라인을 통해 100% 자동으로 이루어 집니다. 또 현재 이슈선정에 사용되는 블로그글의 수는 약 5만건, 뉴스글은 약 40만건 입니다.

개발자 소개 - 김봉중

김봉중

숭실대학교 컴퓨터학부 3학년에 재학중이며, 숭실대학교 기계학습 연구실의 학부생 연구원 입니다. 정보검색(information retrieval)과 기계학습(machine learning)에 관심이 많으며 근래에는 검색엔진이나 웹에서 주어지는 여러 문제들을 기계학습 방법을 이용하여 해결하는 일에 푹 빠져 있습니다. 이 프로그램의 시작은 포털사이트 메인화면의 "뉴스 바로가기" 서비스를 자동으로 공평하게 제공하자는 문제에서 시작되었습니다.

개발자 소개 - 정현지

정현지

안녕하세요? 저는 서울여자대학교 미디어학부에 재학중인 정현지라고 합니다. 현재 학교내 커뮤니티 사이트 '슈먼닷컴'의 프로그래밍팀에 속해 있습니다. 컴퓨터를 좋아하고 웹언어에 관해 관심을 갖고 공부하고 있으며, 모든 일에 성실히 임하고 최선을 다하려고 하는 열정 가득한 22살입니다.