互聯(lián)網(wǎng)如此發(fā)達(dá)的今天,同一個(gè)資料會(huì)在多個(gè)網(wǎng)站發(fā)布,同一新聞會(huì)被大部分媒體網(wǎng)站報(bào)道,再加上小站長和SEO人員孜孜不倦地網(wǎng)絡(luò)采集,造成了網(wǎng)絡(luò)上擁有大量的重復(fù)信息。然而當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí),搜索引擎肯定不想出現(xiàn)給用戶的搜索結(jié)果都是相同的內(nèi)容。抓取這些重復(fù)的網(wǎng)頁,一定水平上就是對(duì)搜索引擎自身資源的浪費(fèi),因此去除重復(fù)內(nèi)容的網(wǎng)站也成為了搜索引擎所面臨的一大問題。
一般的搜索引擎架構(gòu)中,網(wǎng)頁去重一般在Spider抓取部分就存在“去重”方法在整個(gè)搜索引擎架構(gòu)中實(shí)施得越早,越可以節(jié)約后續(xù)處置系統(tǒng)的資源使用。搜索引擎一般會(huì)對(duì)已經(jīng)抓取過的重復(fù)頁面進(jìn)行歸類處置,比方,判斷某個(gè)站點(diǎn)是否包含大量的重復(fù)頁面,或者該站點(diǎn)是否完全采集其他站點(diǎn)的內(nèi)容等,以決定以后對(duì)該站點(diǎn)的抓取情況或是否直接屏蔽抓取。
去重的工作一般會(huì)在分詞之后和索引之前進(jìn)行(也有可能在分詞之前)搜索引擎會(huì)在頁面已經(jīng)分出的關(guān)鍵詞中,提取局部具有代表性的關(guān)鍵詞,然后計(jì)算這些關(guān)鍵詞的指紋”每一個(gè)網(wǎng)頁都會(huì)有個(gè)這樣的特征指紋,當(dāng)新抓取的網(wǎng)頁的關(guān)鍵詞指紋和已索引網(wǎng)頁的關(guān)鍵詞指紋有重合時(shí),那么該新網(wǎng)頁就可能會(huì)被搜索引擎視為重復(fù)內(nèi)容而放棄索引。
實(shí)際工作中的搜索引擎,不只僅使用分詞方法所分出的有意義的關(guān)鍵詞,還會(huì)使用連續(xù)切割的方式提取關(guān)鍵詞,并進(jìn)行指紋計(jì)算。連續(xù)切割的方式提取關(guān)鍵詞,并進(jìn)行指紋計(jì)算,連切割就是以單個(gè)字向后移動(dòng)的方式進(jìn)行切割就是單個(gè)字向后移動(dòng)的方式進(jìn)行切詞,比方,百度開始打擊買賣鏈接”會(huì)被切成“百度開”度開始”開始打”始打擊”打擊買”擊買賣”買賣鏈”賣鏈接”然后從這些詞中提取局部關(guān)鍵詞進(jìn)行指紋計(jì)算,參與是否重復(fù)內(nèi)容的對(duì)比。這只是搜索引擎識(shí)別重復(fù)網(wǎng)頁的基本算法,還有很多其他對(duì)付重復(fù)網(wǎng)頁的算法。
因此網(wǎng)絡(luò)上流行的大部分偽原創(chuàng)工具,不是不能欺騙搜索引擎,就是把內(nèi)容做的鬼都讀不通,所以理論上使用普通偽原創(chuàng)工具不能得到搜索引擎的正常收錄和排名。但是由于百度并不是對(duì)所有的重復(fù)頁面都直接拋棄不索引,而是會(huì)根據(jù)重復(fù)網(wǎng)頁所在網(wǎng)站的權(quán)重適當(dāng)放寬索引規(guī)范,這樣使得局部作弊者有機(jī)可乘,利用網(wǎng)站的高權(quán)重,大量采集其他站點(diǎn)的內(nèi)容獲取搜索流量。不過自2012年6月份以來,百度搜索多次升級(jí)算法,對(duì)采集重復(fù)信息、垃圾頁面進(jìn)行了多次重復(fù)級(jí)的打擊。所以SEO面對(duì)網(wǎng)站內(nèi)容時(shí),不應(yīng)該再以偽原創(chuàng)的角度去建設(shè),而需要以對(duì)用戶有用的角度去建設(shè),雖然后者的內(nèi)容不一定全部是原創(chuàng),一般如果網(wǎng)站權(quán)重沒有大問題,都會(huì)得到健康的發(fā)展。
另外,不只僅是搜索引擎需要“網(wǎng)頁去重”自己做網(wǎng)站也需要對(duì)站內(nèi)頁面進(jìn)行去重。比方分類信息、B2B平臺(tái)等UGC類的網(wǎng)站,如果不加以限制,用戶所發(fā)布的信息必定會(huì)有大量的重復(fù),這樣不只在SEO方面表示不好,站內(nèi)用戶體驗(yàn)也會(huì)降低很多。有如SEO人員在設(shè)計(jì)流量產(chǎn)品罕見的一般為以“聚合”為基礎(chǔ)的索引頁、專題頁或目錄頁,聚合”就必需有核心詞,不加以過濾,海量核心詞所擴(kuò)展出來的頁面就可能會(huì)有大量重復(fù),從而導(dǎo)致該產(chǎn)品效果不佳,甚至?xí)虼吮凰阉饕娼禉?quán)。
去重”算法的大概原理一般就是如上所述,有興趣的朋友可以了解一下I-MatchShinglSimHash及余弦去重具體算法。搜索引擎在做“網(wǎng)頁去重”工作之前首先要分析網(wǎng)頁,內(nèi)容周圍的噪聲”對(duì)去重結(jié)果多少會(huì)有影響,做這部分工作時(shí)只對(duì)內(nèi)容局部操作就可以了相對(duì)來說會(huì)簡單很多,并且可以很有效地輔助產(chǎn)出高質(zhì)量的SEO產(chǎn)品”作為SEO人員只要了解實(shí)現(xiàn)原理就可以了具體在產(chǎn)品中的應(yīng)用,需要技術(shù)人員來實(shí)現(xiàn)。此外還涉及效率、資源需求等問題,并且根據(jù)實(shí)際情況“去重”工作也可以在多個(gè)環(huán)節(jié)進(jìn)行(比方對(duì)核心詞的分詞環(huán)節(jié))SEO人員只要稍微了解一些原理,能夠?yàn)榧夹g(shù)人員建議幾個(gè)方向就很不錯(cuò)了技術(shù)人員并不是萬能的也有不熟悉、不擅長的領(lǐng)域,特定時(shí)刻也需要他人提供思路)如果SEO人員能在這些方面和技術(shù)人員進(jìn)行深入的交流,技術(shù)人員也會(huì)對(duì)SEO另眼相看,至少不會(huì)再認(rèn)為“SEO人員就只會(huì)修改標(biāo)題、改鏈接、改文字之類‘無聊’需求”。