在搜索系統(tǒng)最終推出之前,一般都要對其性能 進行評測。除了時間和空間等運行效率方面的評測處,更重要的是對搜索結果質(zhì)量進行評測。研發(fā)人員可以根據(jù)測試結果選擇效果較好的搜索技術,或驗證搜索系統(tǒng)在真實環(huán)境中運行時的實際效果,以輔助系統(tǒng)不斷進行設計、研究和改進。因此搜索系統(tǒng)的評測對于系統(tǒng)的研制和發(fā)展是至關重要的。
如何評價搜索結果質(zhì)量呢?最廣為接受的評價標準是用精確率和召回率這兩個指標來評價搜索質(zhì)量
精確率和召回率
給定一個固定的用戶搜索請求,搜索系統(tǒng)將系統(tǒng)認為和用戶請求相關的文檔返回給用戶。對于這個搜索行為,可以根據(jù)兩個維度 來將所有文檔構成的集合劃分為4個互不相交的子集。一個維度是:“該文檔是否與用戶發(fā)出的搜索請求相關”,由此維度,可以將整個文檔集合劃分為相關與不相關兩種類型。
精確率和召回率是常見的評估檢索系統(tǒng)的指標,但是對于搜索引擎來說,精確率更為重要,因為搜索引擎處理海量數(shù)據(jù),一方面在這種環(huán)境下,對于某個查詢,找到與這個查詢相關的所有文檔難度很大,導致召回率很難準確計算;另外一方面由于數(shù)據(jù)量比較大,所以能夠滿足用戶需求的文檔量也很大,用戶很少需要看到所有相關文檔,往往是看到一部分即可滿足搜索需求,全部召回相關文檔對于滿足用戶需求意義也不是特別重要。而相對地,精確率在搜索引擎場景下就非常重要了,因為排在搜索列表前列的搜索結果如果有太多不相關的內(nèi)容,直接影響用戶體驗,所以對于搜索引擎質(zhì)量評估來說,往往更加關注精確率。