검색엔진의 시작
초창기 검색엔진은 인터넷이라는 개방형 네트워크 기술에서 웹사이트를 찾아주는 역할을 하였다. 현재도 명맥을 유지하고는 있지만, 당시의 검색엔진들은 웹사이트 담당자가 웹사이트와 이를 소개하는 글을 등록하면 검색엔진이 일일이 심사하여 웹사이트를 종류별로 분류하고 소개 글에 있는 정보를 활용해 키워드로 검색하는 거대한 사이트맵과 같았다.
인터넷이 확산됨과 동시에 PC의 보급과 기술 보편화로 개인과 기업에서 관리가 잘 되지 않는 웹사이트를 마구잡이로 쏟아내었고, 야후와 같은 검색엔진들은 우량한 웹사이트를 선별한다는 이유로 막강한 노출 권한을 휘두르고 있었다.
그러나, 수작업에 가까운 웹사이트 선별방식은 경직된 서비스를 제공할 수 밖에 없었고, 사람들은 야후가 제공하는 정갈한 정보에서 벗어나 빠르게 넓어지는 인터넷 영토에서 좀 더 정확하고 신뢰도 있는 정보를 쉽게 찾길 원했다.
스탠퍼드 대학에 재학 중이던 레리 페이지와 세르게이 브린은 신뢰도 높은 웹사이트들은 링크를 통해 서로를 연결하고 있다는 점을 착안하여 Page Rank라는 알고리즘을 선보였으며, 1998년 이를 토대로한 검색엔진 구글이 출시되었다.
검색결과의 만족도
사용자는 짧은 글상자와 돋보기 버튼로 구성된 검색 인터페이스에 단어나 문장을 입력한다.
일반적으로 단어를 입력하면 웹사이트를 찾아서 보여주지만, 특정 단어에는 상품 또는 이미지를 보여주며, 문장을 입력하면 블로그와 PDF파일 등에서 좀 더 자세한 정보를 찾아 하이라이트를 표시한다.
검색엔진은 사용자가 무턱대고 입력하는 문장과 단어에 원하는 정보를 제공하기 위해 크롤링기술(ex. 구글Bot)과 OCR, 그리고 빅데이터 저장 기술과 이미지 AI를 적용하였으며 이젠 거대언어모델까지 활용 하고 있다.
사람들은 검색엔진에서 무엇을 찾으려고 하는 걸까?
몇달 전(23.3월) 국내 AI기업 솔트룩스에서 AI기반 검색엔진을 출시하였다. 주요기능으로는 ▲대화형 검색 ▲맥락 검색 ▲정답 검색 ▲의도 검색을 꼽았는데, 이러한 기능으로 인해 사용자가 검색어를 정확하게 입력하지 않아도 맥락을 이해하며 말귀를 알아듣고, 의도까지 알아낼 수 있다고 한다.(관련 기사)
AI를 활용하여 사용자가 무슨 의도 가지고 검색을 하는지 찾아내겠다는 것이다.
국내에는 많이 알려지지 않았지만 작년 말(22.12월) You.com이라는 대화기반 검색엔진이 서비스를 시작하였다. 이러한 방식에는 MS빙챗으로 이미 익숙하겠지만, You.com은 빙챗보다 먼저 검색엔진과 대화하듯이 정보를 찾아내는 UI를 적용하였다.
아직 이러한 방식의 검색엔진에 어색함을 느낄 수는 있지만, 대화를 이어나가면서 원하는 정보를 좁혀나가는 방식은 여러 번의 시행착오를 통해 적정 키워드를 찾는 방식보다 데이터 탐색에 효과적이다. 또한 AI가 관련 자료를 발췌하고 요약해서 보여주는 방식은 정보 가공에 대한 리소스를 줄여줄 뿐 아니라 자신의 의도에 맞는 정보가 실재하는지 빠르게 확인할 수 있다.
소비자들은 처음엔 웹사이트를 찾는 데 만족하였으나, 곧이어 문장을 이용해 정보를 직접 탐색하였으며 이제는 일상적인 대화를 통해 마치 질문을 하듯이 답변을 받기 원하고 있다.
이는 마치 도서관에서 책을 뒤지던 환경에서 전문가에게 직접 물어보는 것과 같은 변화로 검색엔진이 발전을 거듭하면서 이끌어낸 변화인지, 아니면 원래 사람들이 익숙하게 이용하던 방식을 검색엔진이 도입하려고 하는 건지는 알 수 없지만, 정보를 원하는 사용자에게는 훨씬 효율적인 방법이라는 것이다.
AI검색엔진 알고리즘
AI기반 검색엔진은 검색 AI와 생성형 AI(챗GPT 등)로 구성된다. 검색 AI는 흔히 우리가 보고 있는 검색엔진과 유사한 방식으로 동작하지만 다양한 컨텐츠를 보여주고 사용자가 선택하는 방식과는 달리 사용자 의도분석과 데이터 정확도에 좀 더 엄격함이 요구된다.
검색 AI에도 생성형 AI와 마찬가지로 Transformer알고리즘이 이용되지만, 다음 단어를 예측하는 게 목적인 생성형AI와는 달리 이전 단어를 예측(추정)하는 것에 특화된 인코더 부분이 주로 활용한다.
AI 학습에는 검색결과에 해당하는 Answer부분과 이를 찾아내기 위한 Question으로 구성된 QA데이터 세트가 주로 활용되며, 페이지에서 정보가 다른 문단을 분류해내거나 요청된 정보와 관련된 페이지를 빠르게 색인하는 기술이 병행 적용된다.
물론 이러한 부분 때문에 자연어를 활용한 텍스트 검색에서는 뛰어난 성능을 보여주지만, 상품과 이미지, 그리고 동영상 등을 찾아내는 데는 적합하지 않으며, 목적이 명확하지 않은 상태에서 키워드를 연상한 후 컨텐츠를 찾아가는 방식을 원하는 사용자에게는 답답하게 느껴질 수 있다.
'최신 데이터 동향 및 향후 전망' 카테고리의 다른 글
메타의 행보로 바라보는 플랫폼의 LLM(거대언어모델) 활용 전략 (59) | 2023.08.11 |
---|---|
앤드류 응 교수의 데이터 중심 AI(Data-centric AI) (83) | 2023.07.26 |
거대 플랫폼 기업들이 데이터를 모으는 방법과 규제 (52) | 2023.07.15 |
챗GPT 제멋대로 행동을 차단하는 오픈AI 슈퍼정렬팀 (56) | 2023.07.09 |
스레드 오픈, 소셜데이터는 어떻게 분석할까? (54) | 2023.07.08 |