우리 프로그램의 전부인 이슈를 선정하는 알고리즘이 전혀 새롭게 변경되었고 뉴스 이슈도 새롭게 추가 되었습니다. 기존의 블로그 이슈 선정 알고리즘은 한RSS의 인기RSS 1000개를 바탕으로 RSS마다 최근 3개의 글(총 3천개)들에 대하여 단순히 명사들을 카운팅하여 소팅한 뒤 선정하였습니다. 변경된 알고리즘은 다음과 같습니다.
이슈를 선정하기 위해 기계학습 방법을 이용하였습니다. 자세한 설명을 위해 학습 데이터셋을 2008년 1월 1일부터 2008년 6월 30일까지 동아일보의 약 2만 5천개의 뉴스기사로 하였습니다.
먼저, 기사마다 빈도수가 큰 5개의 명사를 해당 기사의 주제어로 선별하였습니다. 그리고 기사마다 기자의 이메일을 추출합니다 (이메일 주소가 없는 기사는 제외하였습니다). 그럼 기자마다 주제어와 주제어마다 빈도수의 총합을 가지고 벡터를 만들 수 있습니다. 이 벡터들은 주제어의 개수만큼의 (수만) 차원을 갖게되는데 직접 MDS알고리즘을 이용하여 2차원 평면에 표시하면 다음과 같습니다.

위 그림에서 가까운 위치에 있는 기자들 일수록 비슷한 주제어를 사용하여 기사를 작성한 것입니다. 연필을 가지고 비슷한 주제어를 사용하는 기자들그룹을 동그라미 칠 수 있을 정도 입니다. 그래서 직접 kNN알고리즘을 이용하여 클러스터링을 합니다. 그 결과의 dendrogram 은 다음과 같습니다.

가까운 노드들 일수록 비슷한 주제어를 사용한 것입니다. 그리고 20개의 클러스터를 만들어서 클러스터마다 "주제어:빈도수"를 계산해서 상위 5개씩만 뽑아내면 다음과 같습니다.

라인마다 하나의 클러스터입니다. 주제어들은 해당 클러스터가 자주 사용한 것입니다. 우리 프로그램은 이렇게 생성된 클러스터들을 토대로 이슈들을 선정합니다. 지금 사용된 방법은 임의의 클러스터(기자들의 집합)에서 어떤 주제어가 최근 몇일 동안에 자주 사용되고 있다면 그 주제어를 이슈로 선정하는 방식입니다. 수년동안 작성한 기사를 이용하여 만든 클러스터를 토대로 이슈를 선정하기 때문에 기자들의 전문성을 이용한 집단지성을 활용했다고 할 수 있습니다. 따라서 좀 더 실제 이슈와 가깝다고 생각 합니다.
그리고 이 모든과정은 파이프라인을 통해 100% 자동으로 이루어 집니다. 또 현재 이슈선정에 사용되는 블로그글의 수는 약 5만건, 뉴스글은 약 40만건 입니다.