SEO做網(wǎng)站請注意百度的分詞技術

作者：創(chuàng)新互聯(lián) 文章來源：網(wǎng)絡推廣部點擊數(shù)：更新時間：2013-06-12
　　百度自稱是全球最大中文搜索引擎,最了解國內網(wǎng)民的搜索習慣,做為中國搜索引擎的老大,很多草根站長一直在研究的它的搜索技術和排名算法,還有不少站長兄弟姐姐還要靠它的流量吃飯,為此草根網(wǎng)站的站長們對它是又愛又恨,百度能帶來很大的流量,又會無情的K站或降權。

　　好的,那咱們說說百度的分詞技術,可能小弟有說的不對地方,請大家拍磚頭，希望大家共同進步。沒有研究百度分詞前不明白百度為什么比google強大.其實分詞也就是切詞，百度是否拿來一句中文字符串拿來隨便切一下呢，當然不會。那么怎么才滿足被切割的條件呢?通過下面的實驗就會發(fā)現(xiàn)如果字符串只包含小于等于3個中文字符的話，那就保留不動，比如："牽引器"這個詞,前提是一個完整的詞，百度是不會切分的,當字符串長度大于4個中文字符的時候，百度的分詞程序就會啟動了。例如"牽引器價格",看看返回結果中標為紅字的地方，不難看出來，查詢已經(jīng)被切割成“牽引器”，“價格”兩個單詞了,再試著換一個詞。例如:我們來看"衡水牽引器"，百度里提交查詢一下,發(fā)現(xiàn)標紅的關鍵字都是每一個是"牽引器","衡水",連續(xù)出現(xiàn)的情況，可以看到將"牽引器"與"衡水"切分成兩個詞,如果我們搜"衡水助康醫(yī)療器械"呢，發(fā)現(xiàn)標題是沒有,網(wǎng)頁內容比較完整是"衡水助康醫(yī)療器械可能是這個網(wǎng)站還沒收錄的原故,這個長尾詞被切成了"衡水"/"康醫(yī)療器械".

　　那現(xiàn)我們在來研究一下百度是分詞算法，通過幾年的發(fā)展,百度的分詞算法已經(jīng)算是相當成熟了,這其中也少不了SEOER 的功勞，有一位SEOER的前輩說過:"百度的算法有簡單的有復雜的，有正向最大匹配，反向最大匹配，雙向最大匹配，語言模型方法，最短路徑算法等等，有興趣的可以用GOOGLE去搜索一下以增加理解�！白屛覀兛偨Y一下吧，這里面也有我個人的猜測, 百度擁有一個強大的詞匯數(shù)據(jù)庫,里面有我們通用所用的各種詞語比如"人名,地名,產(chǎn)品的名稱",舉個例子"王元哲","衡水","牽引器",這些都是詞庫中有的,在切詞時將專有名稱切出,如"助康"這個詞,詞庫中沒有,下面的采用雙向最大匹配分詞算法,假如正向和反向匹配分詞結果一致當然最好，就可直接輸出即可;如果兩者不一致，正向匹配一種結果，反向匹配一種結果.

　　百度一直自稱是全球最大中文搜索引擎，但分詞技術也并無特殊，也許就是因為百度擁有一個超大的專用詞典，這個專用詞典登錄了人名(比如壓濾機)，廠家名稱(比如壓濾機生產(chǎn)廠)，部分地名(比如阜城等)，并且這個詞典在不斷的擴充一些新詞,一些新詞不斷的被收錄,這就比google強大的一個方面,google在于分詞來說,及詞庫明顯比不上百度,這正是google本身要加強的地方.
借用什么方法來網(wǎng)站內容原創(chuàng) :上一篇
到底哪些是網(wǎng)站創(chuàng)業(yè)的網(wǎng)站交易文章 :下一篇

国产又黄又粗又长又大的视频-色婷婷久久一区二区爽爽爽-欧美日本韩国国产在线观-尹人香蕉琪琪在现观看

營銷推廣

服務器租用

企業(yè)郵箱

虛擬主機

網(wǎng)站程序

網(wǎng)站建設

域名注冊

前端開發(fā)

網(wǎng)站備案

移動互聯(lián)網(wǎng)

SEO做網(wǎng)站請注意百度的分詞技術

SEO做網(wǎng)站請注意百度的分詞技術

seo優(yōu)化相關文章