用戶真正的需求是什么
搜索引擎用戶輸入的查詢請求非常簡短,查詢的平均長度是2.7個單詞。如何從如此短的查詢請求里獲知隱藏其后的真實用戶需求?這是搜索引擎首先需要解決的非常重要的問題。如果 不能獲取用戶真正的搜索意圖,搜索的準確性無從談起,即使后續(xù)內容匹配再精巧也無濟于事。
從另外一個角度看,即使是同一個查詢詞,不同用戶的搜索目的是不同的,如何識別這種差異?如果更進一步,即使是用一個用戶發(fā)出的同一個查詢詞,也可能因為用戶所處場景不同,其目的存在差異,又如何識別?所有這些都是搜索引擎需要解決的核心問題,即用戶在此時引地發(fā)出某個查詢,他的真實搜索意圖到底是什么。
哪些信息是和用戶需求真正相關的
上述第一個核心問題是從用戶需求角度出發(fā)的,另外兩個核心問題則是從數據角度考慮的。搜索引擎本質上是一個匹配過程,即從海量數據里面找到能夠匹配用戶需求的內容。所以,在明確用戶真實意圖這個前提條件做到后,如何找到能夠滿足用戶需求的信息則成為關鍵因素。
判斷內容和用戶查詢關鍵詞的相關性,一直是信息檢索領域的核心研究課題,不斷提出的信息檢索模型即在試圖解決這個問題,相關研究歷時近60年,盡管不斷有新方法提出,檢索效果總體而言也在逐步改進,但是這個領域的基本指導思想還是基于關鍵詞的匹配,包括現在所有搜索引擎的相關性計算部分,其基本計算思路和幾十年前相比 并無本質差異。
如何能夠在這個核心問題上有所突破?這個問題將會越來越重要,而從關鍵詞匹配到讓機器真正理解信息所代表的含義是解決這個問題必須邁過的門檻。從目前來看,盡管包括人工智能在內的很多相關研究領域對此有所進展,但是短期內還救治能看到解決這一問題的清晰技術思路。
哪些信息是用戶可以依賴的
搜索本質上是找到能夠滿足用戶需求的信息,盡管相關性是衡量信息是否滿足用戶需求的一個重要方面,但并非全部。信息是否值得信賴是另外一個重要的衡量標準。
搜索引擎需要處理的信息對象是互聯網上任意用戶發(fā)布的內容,但是內容發(fā)布者所發(fā)布內容是否可信并無明確判斷標準。這其間存在惡意的信息發(fā)布者故意歪曲事實的情況,也有信息發(fā)布者無心的錯誤。在同一個查詢的搜索結果內,完全可能存在相互矛盾的搜索答案,此時信息的可信性即成為突出問題。
比如用戶想到某一餐館就餐,在做出消費決定前,在網上搜索曾在此餐館就餐的用戶的過往評論,以此輔助決策。而搜索到的相關內容,完全有可能是餐館故意發(fā)布的一些好評信息,以此誤導消費者。但是如果信息 發(fā)布者是該用戶的朋友,那么信息的可能性就會大大增加。
從某種角度看,鏈接分析之所以能夠改善搜索結果,可以認為 是對信息的可信賴度做出的評判。即將網頁的重要性作為 是否可信賴的一個判斷標準,返回重要網頁即是返回可信賴網頁。