SIGIR’15 학회에서 엿보는 정보검색 분야의 연구 동향

검색 연구자로서 필자는 지난 7-8년간 매년 관련 분야의 학회에서 논문을 발표하고 워크숍을 주최하는 등 다양한 활동을 해왔다. 대학원을 졸업하고 회사에서 일하기 시작한 뒤에도 관련 분야의 학회 참석은 최선 연구 및 업계의 동향을 따라잡고, 때로는 회사에서 진행하는 연구 프로젝트의 결과를 공유할 수 있는 기회를 제공한다. 이런 활동이 없다면 박사 학위를 마쳤다고 해도 몇년이 지나면 분야의 최신 흐름에서 멀어지게 되니, 연구자에게 학회 참석은 선택이 아닌 필수라고 하겠다.

최근에는 (2015년 8월) 칠레 산티아고에서 열린 학회인 SIGIR에 참석할 기회가 있었다. SIGIR은 정보검색(Information Retrieval) 분야의 대표적인 국제 학회로 세계 유수의 대학을 포함한 연구기관, 그리고 검색 분야의 대표적인 회사들이 모두 참여한다. SIGIR의 프로그램은 학술 논문 발표를 중심으로, 각 세부 분야별 워크숍과 튜토리얼 등으로 이루어지는데, 필자는 현재 주 업무 분야인 검색 평가 방법에 대한 튜토리얼을 진행했다.

본 글에서는 학회에서 보고 들은 내용을 바탕으로 정보검색 분야의 최신 연구흐름을 공유하고자 한다. 데이터 과학을 공부하는 여러분이 모두 이 분야에 종사하지는 않겠지만, 정보 검색이라는 분야가 대용량 데이터 처리기술 및 기계학습과 같은 많은 분야의 발전에 주도적인 역할을 수행해왔고, 사용자에게 원하는 정보를 제공하는 것이 온라인 서비스의 기본이라는 것을 감안하면 정보 검색에 대한 이해는 여러분에게 큰 도움이 될 것이라는 생각이다. 본 글에서 모든 내용을 다 소개할 수는 없지만, 관련 연구에 대한 좀더 깊은 탐구를 해보고 싶은 여러분들은 여기에서 참조된 논문을 읽어볼 수 있을 것이다.

웹문서 검색에서 지능형 비서로

전통적인 검색 연구는 주어진 질의어에 (검색 키워드) 대해 가장 적절한 문서를 랭킹하여 순서대로 보여주는 사용자 인터페이스를 가정한다. 이는 구글, 빙, 그리고 네이버 등 모든 웹 검색엔진에서도 기본적으로 채택하는 방식이다. 따라서 검색 연구의 대상으로 주어진 질의어를 바탕으로 문서를 평가할 수 있는 랭킹 모델의 개발과 평가가 주를 이루어왔다. 사용자에 따라 다른 결과를 보여주는 개인화 검색이 한창 연구되고 있지만, 이 역시 문서의 랭킹에 사용자 각각의 취향을 고려하는 모델에 국한되어 왔다.

하지만 최근들어 검색엔진은 단순한 ‘문서 찾기’를 넘어선 종합적인 정보 서비스로 진화해 왔다. 검색 결과에 단순 문서뿐 아니라 이미지, 비디오, 뉴스, 지도 등을 보여주는 통합 검색이 일반화 되었고, 모바일 기기의 확산에 따라 사용자가 질의어를 입력하는 것이 아니라 음성으로 던지는 질문에 대한 대답을 음성으로 들려주는 시리(Siri), 코타나(Cortana) 등 인공지능 비서와 (Intelligent Assistant) 같은 서비스도 등장하고 있다. 또한 구글 나우와 (Google Now) 같이 사용자의 질의어가 없이도 사용자가 원할만한 결과를 보여주는 적극적 (proactive) 검색도 나왔다.

이번 학회에서도 이런 새로운 검색 환경과 기법에 대한 다양한 연구결과가 발표되었다. 우선 마이크로소프트에서는 여러 사용자가 디바이스를 (컴퓨터, 타블렛 등) 공유할 때 개별 사용자를 자동으로 식별하여 개인화된 서비스를 제공하는 방법에 대한 논문을 발표하였다. 예를 들어 가족이 공용으로 쓰는 컴퓨터에서 검색을 하면 검색 엔진에서 가족 구성원 중 누가 검색을 하는지를 판단하여 그에 맞는 서비스를 제공하려는 것이다. 이를 그림으로 설명하면 다음과 같다.

또한 구글에서는 웹상에 흩어져있는 이벤트 정보를 자동으로 추출하는 알고리즘에 대한 논문을 발표하였다. 이 알고리즘를 간단히 설명하면, (1) 이벤트 정보가 포함되었을만한 문서를 찾고, (2) 이벤트가 언급된 문서의 부분을 추출한 후 (3) 이벤트의 날짜/장소/시간 정보를 추출하는 순서로 작동하며, (1)에는 정보 검색 기술이, (2)와 (3)에는 정보 추출 기술이 사용된다. 이렇게 추출된 이벤트는 구글 나우의 개인화된 이벤트 추천 서비스에 활용되는 것으로 알려져 있다.

마지막으로 야후!와 중국의 칭화대에서는 웹과 다른 종류의 검색결과가 혼재된 검색 결과 페이지에서 사용자가 어떻게 행동하는지에 대한 연구결과를 발표하였다. 이들은 검색결과의 유형 (이미지/웹/뉴스 등) 및 품질에 따라 사용자의 주의도가 다양하게 분산되는 것을 발견하였다. 아래 그림은 뉴스와 이미지 결과가 존재하는 검색 결과에서 사용자의 시선이 어떻게 움직이는지를 히트맵(heat map)으로 보여준다. 이런 사용자 행동에 대한 이해는 검색엔진이 페이지의 레이아웃을 최적화하는데 다양하게 활용될 수 있다.

사용자 중심의 연구 방법론

위에서 살펴본 것처럼 현대의 검색엔진은 단순 질의어와 매칭되는 문서를 나열하는 것이 아니라 사용자가 필요한 정보를 원하는 시점에 가장 편리한 형태로 보여주는 것을 목표로 한다. 하지만 제대로 된 지도와 나침반이 있어야 방향감각을 잃지 않고 먼 길을 갈 수 있듯이, 이렇게 고도화된 검색엔진을 지속적으로 개선하기 위해서는 그 결과를 검증할 수 있는 연구 및 평가 방법이 뒷받침되어야 한다. 필자의 주 업무 분야인 검색 품질의 평가는 이런 의미에서 검색 연구 및 개발의 방향을 제시한다.

정보 검색 연구자들은 검색 모델을 만드는 방법 만큼이나 만들어진 모델을 평가하는 방법에 대해서도 오랫동안 연구해왔다. TREC(Text REtrieval Conference)으로 대표되는 전통적인 평가 기법은 각 검색 토픽에 대한 정답셋을 만들고 이 문서들을 가장 상위에 보여주는 시스템을 높게 평가하는 방식이다. 그리고 육상 선수들이 각 종목별로 신기록을 달성하기 위해 노력하듯이, 정보 검색 연구의 초점은 대표적인 TREC 데이터셋에서 좀더 고성능을 거두는 방향에 집중되어 왔다.

하지만 이런 전통적 정보 검색의 연구 및 평가 방법론이 실제 사용자의 만족도를 제대로 반영할 수 있는지에 대해서는 논란이 있어왔다. 또한 위에서 언급한 현대적 검색엔진을 다루기에는 부족한 점이 많다. 우선 사용자의 질의가 전통적인 키워드 형태가 아닌 경우도 많고, 검색 시스템의 결과 역시 문서의 목록이 아니라 다양한 형태의 정보가 혼합된 형태이기 때문이다. 이번 학회에서 나타는 또다른 추세는 이런 현대적인 검색엔진을 평가할 수 있는 다양한 연구방법 및 평가지표였다.

우선 연구실에 초대된 실험 참가자들을 대상으로 주어진 검색엔진 및 환경을 평가하는 사용자 연구가 (user study) 많은 논문에서 주된 연구방법으로 사용되었다. 이는 검색엔진 연구 및 개발의 목적이 단지 더 나은 품질의 문서를 상위에 올리는 것 뿐만 아니라, 실제 사용자를 만족시키는 전체적인 경험을 제공하는 것으로 옮겨가고 있다는 것을 의미한다.

또한 사용자 연구에서 인지 및 뇌과학의 연구 결과물인 눈동자 추적기 (Eye Tracker) 및 뇌파 분석기의 (EEG) 광범위한 활용도 주목을 끌었다. 과거에도 검색엔진 사용자의 키보드 업력, 마우스 클릭 및 커서 움직임을 분석한 논문은 많이 나와있었지만, 이런 최신 기술을 통해 실제 사용자의 주의와 감정 상태를 정확히 파악할 수 있다는 사실을 알 수 있었다. 해당 주제를 바탕으로 한 워크샵도 눈길을 끌었다.

본 학회에서는 사용자 연구를 통하여 검색 결과 페이지에 보여질 문서의 개수의 최적값을 찾는 논문과, 검색 결과가 사용자에게 보여지기까지의 시간과 사용자 만족도와의 관계를 연구한 논문이 눈길을 끌었다. 마지막으로 아래 그림은 사용자의 시선이 페이지 상에서 어떻게 움직이는지를 보여주는 것으로, 이 논문의 저자들은 사용자 시선의 움직임을 커서와 페이지 내용에 기반하여 예측해냈다.

딥러닝과 검색의 미래

최근 인공지능 전 분야에 걸쳐 딥러닝이 각광받고 있는데, 정보검색의 경우에도 예외가 아니다. 딥러닝 기술은 인간의 두뇌에서 영감을 얻어 개발된 신경망 학습 모델이 고도화된 형태로, 인간의 인지구조에서 나타나는 다층적이고 복잡한 판단과정을 대량의 데이터를 바탕으로 학습해내는 모델이다. 게다가 대량의 데이터만 주어진다면 이 모든 학습 과정이 자동으로 이루어진다는 장점이 있다.

단어와 단어, 단어와 문서간의 복잡한 상호작용을 모델링해야 하는 정보검색 분야에서도 딥러닝은 활용도가 높다. 기존의 검색 모델은 문서가 포함하고 있는 단어의 분포로 해당 문서의 의미를 표현하는 경우가 많았고, 단어 이상의 의미 단위를 표현하기 위해서는 복잡한 속성(feature)을 일일히 개발해야 했지만, 딥러닝 기술을 사용하면 별다른 노력 없이도 문서를 단어가 아닌 의미 단위에서 이해하는 예측 모델을 만들 수 있기 때문이다.

이번 학회에서도 딥러닝 기반의 논문이 여러 편 발표되었다. 대부분 딥러닝을 통해 주어진 텍스트를 (질의어 혹은 문서) 워드 임베딩이라고 (word embedding) 불리는 의미 기반의 저차원 벡터로 변환한 후에, 이를 질의어 추천 및 문서 랭킹 등 다양한 작업에 적용하는 내용이다. 2011년 발표된 논문에서 발췌한 아래 표는 임베딩 벡터 공간에서 각 단어의 가장 가까운 이웃(nearest neighbor)을 보여준다. 각 열의 단어들을 보면 의미상으로 매우 비슷한 것을 알 수 있다.

이번 학회에서 마이크로소프트의 저자는 딥러닝을 질의어 추천에 활용하는 논문을 발표하였다. 이 논문의 핵심 아이디어는 검색 로그 데이터에서 추출된 연속된 질의어를 가지고 워드 임베딩 벡터를 학습한 후에, 아래 표에서처럼 주어진 질의어의 각 단어간의 벡터 연산을 통해 새로운 의미를 갖는 질의어를 추론해내는 식이다. 예를 들어 사용자가 질의어 ‘chicago newspaper’를 입력했다면 이 두 단어의 조합과 가장 유사한 의미를 갖는 질의어인 ‘chicago suntimes’를 추천할 수 있을 것이다.

또한 구글에서 발표한 논문은 딥러닝을 전통적인 검색 문서에 적용하였다. 이는 질의어와 문서의 워드 임베딩을 구한 후, 이를 바탕으로 주어진 질의어에 대해 관련도 순으로 문서를 찾는다. 이들은 질의응답 및 단문 검색 데이터셋에서 딥러닝 기반의 시스템이 복잡한 속성의 조합으로 이루어진 기존 시스템보다 훨씬 더 나은 성능을 보이는 것을 발견했다. 아래 그림은 문서 및 질의어가 어떻게 임베딩 벡터로 바뀌고, 그 결과가 문서 랭킹에 활용되는지를 보여준다.

요약

매년 학회에 참석할때마다 검색이라는 분야가 얼마나 빠르게 변화하는지에 놀라곤 하지만, 이번 학회에서도 예외는 아니었다. 주어진 질의어에 대한 문서의 랭킹과 그 평가에 초점을 맞추었던 과거와 달리 다양한 검색 유형과 인터페이스에 맞는 검색 기법과 평가 방법을 연구한 논문이 많이 눈에 띄었기 때문이다. 또한 검색 모델 측면에서도 딥러닝의 가능성에 많은 사람들이 관심을 갖는 것을 볼 수 있었다. 데이터 과학에 관련된 학회는 이외에도 많은데, 관련 분야의 최신 동향을 접하고 싶은 독자라면 꼭 살펴보기 바란다.

학회에 수록된 논문의 목록은 여기서 볼 수 있으니 관심있는 독자들은 참고하기 바란다. 또한 필자가 진행한 검색 평가 방법에 대한 튜토리얼의 슬라이드는 Slideshare에 공유해 놓았다. 평소 검색엔진의 결과를 어떻게 평가하는지를 궁금했거나, 혹은 평가단(human judge)을 활용한 온라인 서비스의 개선 방법에 대해 더 알고 싶은 독자라면 도움을 받을 수 있을 것이다.

Please rate this

Comments