網(wǎng)頁去重原理

作者：創(chuàng)新互聯(lián) 文章來源：網(wǎng)絡(luò)營銷部點(diǎn)擊數(shù)：更新時(shí)間：2014-07-02
互聯(lián)網(wǎng)如此發(fā)達(dá)的今天，同一個(gè)資料會(huì)在多個(gè)網(wǎng)站發(fā)布，同一新聞會(huì)被大部分媒體網(wǎng)站報(bào)道，再加上小站長和SEO人員孜孜不倦地網(wǎng)絡(luò)采集，造成了網(wǎng)絡(luò)上擁有大量的重復(fù)信息。然而當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí)，搜索引擎肯定不想出現(xiàn)給用戶的搜索結(jié)果都是相同的內(nèi)容。抓取這些重復(fù)的網(wǎng)頁，一定水平上就是對(duì)搜索引擎自身資源的浪費(fèi)，因此去除重復(fù)內(nèi)容的網(wǎng)站也成為了搜索引擎所面臨的一大問題。

一般的搜索引擎架構(gòu)中，網(wǎng)頁去重一般在Spider抓取部分就存在“去重”方法在整個(gè)搜索引擎架構(gòu)中實(shí)施得越早，越可以節(jié)約后續(xù)處置系統(tǒng)的資源使用。搜索引擎一般會(huì)對(duì)已經(jīng)抓取過的重復(fù)頁面進(jìn)行歸類處置，比方，判斷某個(gè)站點(diǎn)是否包含大量的重復(fù)頁面，或者該站點(diǎn)是否完全采集其他站點(diǎn)的內(nèi)容等，以決定以后對(duì)該站點(diǎn)的抓取情況或是否直接屏蔽抓取。

去重的工作一般會(huì)在分詞之后和索引之前進(jìn)行(也有可能在分詞之前)搜索引擎會(huì)在頁面已經(jīng)分出的關(guān)鍵詞中，提取局部具有代表性的關(guān)鍵詞，然后計(jì)算這些關(guān)鍵詞的指紋”每一個(gè)網(wǎng)頁都會(huì)有個(gè)這樣的特征指紋，當(dāng)新抓取的網(wǎng)頁的關(guān)鍵詞指紋和已索引網(wǎng)頁的關(guān)鍵詞指紋有重合時(shí)，那么該新網(wǎng)頁就可能會(huì)被搜索引擎視為重復(fù)內(nèi)容而放棄索引。

實(shí)際工作中的搜索引擎，不只僅使用分詞方法所分出的有意義的關(guān)鍵詞，還會(huì)使用連續(xù)切割的方式提取關(guān)鍵詞，并進(jìn)行指紋計(jì)算。連續(xù)切割的方式提取關(guān)鍵詞，并進(jìn)行指紋計(jì)算，連切割就是以單個(gè)字向后移動(dòng)的方式進(jìn)行切割就是單個(gè)字向后移動(dòng)的方式進(jìn)行切詞，比方，百度開始打擊買賣鏈接”會(huì)被切成“百度開”度開始”開始打”始打擊”打擊買”擊買賣”買賣鏈”賣鏈接”然后從這些詞中提取局部關(guān)鍵詞進(jìn)行指紋計(jì)算，參與是否重復(fù)內(nèi)容的對(duì)比。這只是搜索引擎識(shí)別重復(fù)網(wǎng)頁的基本算法，還有很多其他對(duì)付重復(fù)網(wǎng)頁的算法。

因此網(wǎng)絡(luò)上流行的大部分偽原創(chuàng)工具，不是不能欺騙搜索引擎，就是把內(nèi)容做的鬼都讀不通，所以理論上使用普通偽原創(chuàng)工具不能得到搜索引擎的正常收錄和排名。但是由于百度并不是對(duì)所有的重復(fù)頁面都直接拋棄不索引，而是會(huì)根據(jù)重復(fù)網(wǎng)頁所在網(wǎng)站的權(quán)重適當(dāng)放寬索引規(guī)范，這樣使得局部作弊者有機(jī)可乘，利用網(wǎng)站的高權(quán)重，大量采集其他站點(diǎn)的內(nèi)容獲取搜索流量。不過自2012年6月份以來，百度搜索多次升級(jí)算法，對(duì)采集重復(fù)信息、垃圾頁面進(jìn)行了多次重復(fù)級(jí)的打擊。所以SEO面對(duì)網(wǎng)站內(nèi)容時(shí)，不應(yīng)該再以偽原創(chuàng)的角度去建設(shè)，而需要以對(duì)用戶有用的角度去建設(shè)，雖然后者的內(nèi)容不一定全部是原創(chuàng)，一般如果網(wǎng)站權(quán)重沒有大問題，都會(huì)得到健康的發(fā)展。

另外，不只僅是搜索引擎需要“網(wǎng)頁去重”自己做網(wǎng)站也需要對(duì)站內(nèi)頁面進(jìn)行去重。比方分類信息、B2B平臺(tái)等UGC類的網(wǎng)站，如果不加以限制，用戶所發(fā)布的信息必定會(huì)有大量的重復(fù)，這樣不只在SEO方面表示不好，站內(nèi)用戶體驗(yàn)也會(huì)降低很多。有如SEO人員在設(shè)計(jì)流量產(chǎn)品罕見的一般為以“聚合”為基礎(chǔ)的索引頁、專題頁或目錄頁，聚合”就必需有核心詞，不加以過濾，海量核心詞所擴(kuò)展出來的頁面就可能會(huì)有大量重復(fù)，從而導(dǎo)致該產(chǎn)品效果不佳，甚至?xí)虼吮凰阉饕娼禉?quán)。

去重”算法的大概原理一般就是如上所述，有興趣的朋友可以了解一下I-MatchShinglSimHash及余弦去重具體算法。搜索引擎在做“網(wǎng)頁去重”工作之前首先要分析網(wǎng)頁，內(nèi)容周圍的噪聲”對(duì)去重結(jié)果多少會(huì)有影響，做這部分工作時(shí)只對(duì)內(nèi)容局部操作就可以了相對(duì)來說會(huì)簡單很多，并且可以很有效地輔助產(chǎn)出高質(zhì)量的SEO產(chǎn)品”作為SEO人員只要了解實(shí)現(xiàn)原理就可以了具體在產(chǎn)品中的應(yīng)用，需要技術(shù)人員來實(shí)現(xiàn)。此外還涉及效率、資源需求等問題，并且根據(jù)實(shí)際情況“去重”工作也可以在多個(gè)環(huán)節(jié)進(jìn)行(比方對(duì)核心詞的分詞環(huán)節(jié))SEO人員只要稍微了解一些原理，能夠?yàn)榧夹g(shù)人員建議幾個(gè)方向就很不錯(cuò)了技術(shù)人員并不是萬能的也有不熟悉、不擅長的領(lǐng)域，特定時(shí)刻也需要他人提供思路)如果SEO人員能在這些方面和技術(shù)人員進(jìn)行深入的交流，技術(shù)人員也會(huì)對(duì)SEO另眼相看，至少不會(huì)再認(rèn)為“SEO人員就只會(huì)修改標(biāo)題、改鏈接、改文字之類‘無聊’需求”。
網(wǎng)站SEO優(yōu)化效果可以通過哪些考核標(biāo)準(zhǔn)來衡量 :上一篇
到底哪些是網(wǎng)站創(chuàng)業(yè)的網(wǎng)站交易文章 :下一篇

国产又黄又粗又长又大的视频-色婷婷久久一区二区爽爽爽-欧美日本韩国国产在线观-尹人香蕉琪琪在现观看

營銷推廣

服務(wù)器租用

企業(yè)郵箱

虛擬主機(jī)

網(wǎng)站程序

網(wǎng)站建設(shè)

域名注冊

前端開發(fā)

網(wǎng)站備案

移動(dòng)互聯(lián)網(wǎng)

網(wǎng)頁去重原理

網(wǎng)頁去重原理

seo優(yōu)化相關(guān)文章