분당아재의 솔직한 블로그

올블로그 검색 품질에 대해서 한말씀 드립니다.

IT산책

어제 리장님께서 "올블, 4대강죽이기 블로그 게시글 수집 안하나??" 라는 포스트를 쓰셨고
올블로그 운영진께서 "올블로그는 절대 수집된 정보를 왜곡하지 않습니다."라는 반박(?)의 포스트의
올려주셨습니다.

결국은 검색에 대한 이야기로 귀결이 되는 느낌인데요.
이전부터 올블로그 검색품질이 그다지 좋지 않았던 것은 알고 있었지만 이번 기회에 말씀을 드리는 것이 나을 듯 하여 올블로그의 검색품질에 대해서 말씀에 드리고자 포스트를 올려봅니다.

올블 운영진께서 알려주신 방법으로 "4대강"이란 키워드로 검색을 하였습니다.


아래 그림처럼 검색결과가 7건 나타납니다.


검색결과 목록에서도 알 수 있듯이 첫번째, 두번째는 제목만으로도 4대강 이라는 내용이 있을 것으로 짐작이 됩니다. 그러나 3번째 이후는 고개를 까우뚱하게 만듭니다.
그래서 3번째 포스트인 "[춤추는 원숭이 빨간 피터]..." 를 클릭해 보았습니다.


포스트 내용의 어디를 보아도 "4대강"이란 키워드는 찾을 수 없습니다. 포스트 본문 뿐 아니라 태크, 다른 포스트 목록, 카테고리 목록까지 보아 "4대강"이란 키워드는 없습니다. 그런데 이 포스트가 왜 검색이 되었을까요?

혹시 우리가 흔히 알고 있는 키워드 검색을 하는 것이 아니라 bi-gram 방식으로 검색을 하는 것은 아닌지 궁금합니다.
즉, 사용자가 입력한 "4대강"을 "4대", "대강" 이렇게 나누어서 검색을 하는 것을 말합니다.
이런 경우라면 위의 포스트도 검색이 됩니다.

포스트 본문에 보면 "카이스트 대강당"이란 단어에서 "대강"이 걸리거든요.
같은 논리로 보면 위의 검색결과 목록에서 4번째, 5번째인 "무비스님 서장 대강좌 3-4"도 검색이 되긴 합니다.

그러나 사용자가 원하는 "4대강"은 절대로 아니죠.


두번째로, 올블 운영진께서 알려주신 것처럼 검색범위를 MAX로 설정해서 검색을 해 보았습니다.
검색결과는 약 5,033건으로 훨씬 많아집니다. 과연 정확한 검색결과가 나올까요?


3번째 결과인 "비상천 국제적으로 놀아보기" 포스트를 클릭해 보았습니다.


역시 포스트 본문 어디에도 '4대강'이란 키워드는 보이지 않습니다.
하지만.. 주욱 내려다가 보면...


맨 처음에 "대강 호스트의 ..."라는 글이 보입니다.
아까 말씀드린 것과 같은 논리로 검색이 되는 것이 아닌가 생각합니다.
4번째 포스트도 마찬가지구요.

유추해 보건데
올블로그에서는 전문검색엔진을 사용하지 않는 것 같습니다. 지극히 개인적인 생각입니다.
전문 검색엔진을 사용하면 사용자가 의도하는 바를 비교적 정확하게 검색을 해주지만
블로거들이 쉴새없이 올려대는 포스트를 실시간으로 검색결과에 반영하기가 좀 어렵고
색인을 저장해야 하는 디스크도 만만찮기 때문에 도입을 꺼리는 경우가 있을 것 입니다.

만일, 전문검색엔진을 사용하는 것이라면 색인방식을 형태소분석기를 이용한 방식으로 변경해야 할 것 같습니다. 지금처럼 like나 bi-gram 방식으로 둔다면 올블로그의 검색결과는 신뢰하기 어렵습니다.

간단하게 한가지를 덧붙이자면  설계도나 구조도 같은 것에 관심이 있어
검색어로 "도면"이라고 입력하면 검색결과에 "이정도면 괜찮지?" "이정도면 S라인" 등의 포스트가 검색됩니다.

포스트가 나날이 축적되고 올블로그가 블로고스피어에서 차지하는 위상으로 볼 때 검색에 좀더 신경을 써야 할 것 입니다. 쟁쟁한 파워 블로거들이 올린 과거의 주옥같은 포스트를 클릭 한두번에 찾는다면 정말로 편리할 것입니다.