原創(chuàng)一直是大問題,往大了說,互聯(lián)網(wǎng)生態(tài)環(huán)境日趨惡劣,采集偽原創(chuàng)低質(zhì)量?jī)?nèi)容泛濫,嚴(yán)重?cái)D占了優(yōu)質(zhì)原創(chuàng)資源的生存空間。導(dǎo)致互聯(lián)網(wǎng)資源整體質(zhì)量大幅下降,網(wǎng)民受損、優(yōu)質(zhì)站長(zhǎng)受損、搜索引擎亦受損。往小了說,很多站長(zhǎng)一直在進(jìn)行原創(chuàng)建設(shè),而得不到應(yīng)有的維護(hù)。如何加大對(duì)站點(diǎn)原創(chuàng)的維護(hù)以及如何衡量原創(chuàng)是否能滿足用戶需求是一個(gè)艱巨的任務(wù)。為此,百度一直在進(jìn)行原創(chuàng)維護(hù)和展現(xiàn)建設(shè),因?yàn)檫@是用戶的需求,盡管進(jìn)展緩慢,但客觀看來,確實(shí)有很大的進(jìn)步。那么百度是如何維護(hù)原創(chuàng)的?下面談?wù)劙俣仍瓌?chuàng)那點(diǎn)事。
本文內(nèi)容主要分為以下五個(gè)大點(diǎn):一、百度談原創(chuàng)項(xiàng)目那點(diǎn)事;二、百度原創(chuàng)保護(hù)的進(jìn)展;三、站長(zhǎng)對(duì)于原創(chuàng)保護(hù)的錯(cuò)誤認(rèn)知;四、用戶對(duì)于原創(chuàng)的態(tài)度;五、對(duì)于大型網(wǎng)站說維護(hù)原創(chuàng)更名副其實(shí),對(duì)小站,說維護(hù)高質(zhì)量?jī)?nèi)容更好。
一、百度談原創(chuàng)項(xiàng)目那點(diǎn)事
1、搜索引擎為什么要重視原創(chuàng)
采集泛濫化。來自百度的一項(xiàng)調(diào)查顯示,超越80%新聞和資訊等都在被人工轉(zhuǎn)載或機(jī)器采集,從傳統(tǒng)媒體的報(bào)紙到娛樂網(wǎng)站花邊消息、從游戲攻略到產(chǎn)品評(píng)測(cè),甚至高校圖書館發(fā)的催還通知都有站點(diǎn)在做機(jī)器采集?梢哉f,優(yōu)質(zhì)原創(chuàng)內(nèi)容是被包圍在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,既艱難又具有挑戰(zhàn)性的事情。
提高搜索用戶體驗(yàn)
數(shù)字化降低了傳達(dá)本錢,工具化降低了采集本錢,機(jī)器采集行為混淆內(nèi)容來源降低內(nèi)容質(zhì)量。采集過程中,出于無意或有意,導(dǎo)致采集網(wǎng)頁內(nèi)容完整不全,格式錯(cuò)亂或附加垃圾等問題屢見不鮮,這已經(jīng)嚴(yán)重影響了搜索結(jié)果的質(zhì)量和用戶體驗(yàn)。搜索引擎重視原創(chuàng)的根本原因是為了提高用戶體驗(yàn),這里講的原創(chuàng)為優(yōu)質(zhì)原創(chuàng)內(nèi)容。
鼓勵(lì)原創(chuàng)作者和文章
轉(zhuǎn)載和采集,分流了優(yōu)質(zhì)原創(chuàng)站點(diǎn)的流量,不再具屬原創(chuàng)作者的名稱,會(huì)直接影響到優(yōu)質(zhì)原創(chuàng)站長(zhǎng)和作者的收益。臨時(shí)看會(huì)影響原創(chuàng)者的積極性,有利于創(chuàng)新,有利于新的優(yōu)質(zhì)內(nèi)容發(fā)生。鼓勵(lì)優(yōu)質(zhì)原創(chuàng),鼓勵(lì)創(chuàng)新,給予原創(chuàng)站點(diǎn)和作者合理的流量,從而促進(jìn)互聯(lián)網(wǎng)內(nèi)容的繁榮,理應(yīng)是搜索引擎的一個(gè)重要任務(wù)。
2、采集很狡詐,識(shí)別原創(chuàng)很艱難
采集冒充原創(chuàng),篡改關(guān)鍵信息。當(dāng)前,大量的網(wǎng)站批量采集原創(chuàng)內(nèi)容后,用人工或機(jī)器的方法,篡改作者、發(fā)布時(shí)間和來源等關(guān)鍵信息,冒充原創(chuàng)。此類冒充原創(chuàng)是需要搜索引擎識(shí)別進(jìn)去予以適當(dāng)調(diào)整的
內(nèi)容生成器,制造偽原創(chuàng)
利用自動(dòng)文章生成器等工具,獨(dú)創(chuàng)”一篇文章,然后安一個(gè)吸引眼球的titl現(xiàn)在本錢也低得很,而且一定具有獨(dú)創(chuàng)性。然而,原創(chuàng)是要具有社會(huì)共識(shí)價(jià)值的而不是胡亂制造一篇根本不通的垃圾就能算做有價(jià)值的優(yōu)質(zhì)原創(chuàng)內(nèi)容。內(nèi)容雖然獨(dú)特,但是不具社會(huì)共識(shí)價(jià)值,此類偽原創(chuàng)是搜索引擎需要重點(diǎn)識(shí)別進(jìn)去并予以打擊的。
網(wǎng)頁差別化,結(jié)構(gòu)化信息提取困難
不同的站點(diǎn)結(jié)構(gòu)化差別比擬大,html標(biāo)簽的含義和分布也不同,因此提取關(guān)鍵信息如標(biāo)題、作者和時(shí)間的難易水平差異也比較大。做到既提得全,又提得準(zhǔn),還要最及時(shí),當(dāng)前的中文互聯(lián)網(wǎng)規(guī)模下實(shí)屬不易,這部分將需要搜索引擎與站長(zhǎng)配合好才會(huì)更順暢的運(yùn)行,站長(zhǎng)們?nèi)绻酶逦慕Y(jié)構(gòu)告知搜索引擎網(wǎng)頁的布局,將使搜索引擎高效地提取原創(chuàng)相關(guān)的信息。
3、百度識(shí)別原創(chuàng)之路如何走?
成立原創(chuàng)項(xiàng)目組,打持久戰(zhàn)。面對(duì)挑戰(zhàn),為了提高搜索引擎用戶體驗(yàn)、為了使優(yōu)質(zhì)原創(chuàng)者原創(chuàng)網(wǎng)站得到應(yīng)有的收益、為了推動(dòng)中文互聯(lián)網(wǎng)的前進(jìn),抽調(diào)大量人員組成原創(chuàng)項(xiàng)目組:技術(shù)、產(chǎn)品、運(yùn)營(yíng)、法務(wù)等等,這不是臨時(shí)組織不是1個(gè)月2個(gè)月的項(xiàng)目,做好了打持久戰(zhàn)的準(zhǔn)備。原創(chuàng)識(shí)別“起源”算法。
互聯(lián)網(wǎng)動(dòng)輒上百億、上千億的網(wǎng)頁,從中挖掘原創(chuàng)內(nèi)容,可以說是大海撈針,千頭萬緒。原創(chuàng)識(shí)別系統(tǒng),百度大數(shù)據(jù)的云計(jì)算平臺(tái)上開展,能夠快速實(shí)現(xiàn)對(duì)全部中文互聯(lián)網(wǎng)網(wǎng)頁的重復(fù)聚合和鏈接指向關(guān)系分析。首先,通過內(nèi)容相似水平來聚合采集和原創(chuàng),將相似網(wǎng)頁聚合在一起作為原創(chuàng)識(shí)別的候選集合;其次,對(duì)原創(chuàng)候選集合,通過作者、發(fā)布時(shí)間、鏈接指向、用戶評(píng)論、作者和站點(diǎn)的歷史原創(chuàng)情況、轉(zhuǎn)發(fā)軌跡等上百種因素來識(shí)別判斷出原創(chuàng)網(wǎng)頁;最后,通過價(jià)值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價(jià)值高低進(jìn)而適當(dāng)?shù)闹笇?dǎo)最終排序。
目前,通過我實(shí)驗(yàn)以及真實(shí)線上數(shù)據(jù),起源”算法已經(jīng)取得了一定的進(jìn)展,新聞、資訊等領(lǐng)域解決了絕大部分問題。當(dāng)然,其他領(lǐng)域還有更多的原創(chuàng)問題等待“起源”去解決,堅(jiān)定的走著。
原創(chuàng)星火計(jì)劃
一直致力于原創(chuàng)內(nèi)容的識(shí)別和排序算法調(diào)整,但在當(dāng)前互聯(lián)網(wǎng)環(huán)境下,快速識(shí)別原創(chuàng)解決原創(chuàng)問題確實(shí)面臨著很大的挑戰(zhàn),計(jì)算數(shù)據(jù)規(guī)模龐大,面對(duì)的采集方式屢見不鮮,不同站點(diǎn)的建站方式和模版差異巨大,內(nèi)容提取復(fù)雜等等問題。這些因素都會(huì)影響原創(chuàng)算法識(shí)別,甚至導(dǎo)致判斷出錯(cuò)。這時(shí)候就需要百度和站長(zhǎng)共同努力來維護(hù)互聯(lián)網(wǎng)的生態(tài)環(huán)境,站長(zhǎng)推薦原創(chuàng)內(nèi)容,搜索引擎通過一定的判斷后優(yōu)待原創(chuàng)內(nèi)容,共同推進(jìn)生態(tài)的改善,鼓勵(lì)原創(chuàng),這就是原創(chuàng)星火計(jì)劃”旨在快速解決當(dāng)前面臨的嚴(yán)重問題。另外,站長(zhǎng)對(duì)原創(chuàng)內(nèi)容的推薦,將應(yīng)用于“起源”算法,進(jìn)而協(xié)助百度發(fā)現(xiàn)算法的缺乏,不時(shí)改進(jìn),用更加智能的識(shí)別算法自動(dòng)識(shí)別原創(chuàng)內(nèi)容。
二、百度原創(chuàng)保護(hù)的進(jìn)展
原創(chuàng)星火計(jì)劃一期和起源算法進(jìn)去都有段時(shí)間了目前主要覆蓋的都是一些大型的新聞?lì)愓军c(diǎn),目前,原創(chuàng)星火計(jì)劃取得了初步的效果,一期對(duì)局部重點(diǎn)原創(chuàng)新聞?wù)军c(diǎn)的原創(chuàng)內(nèi)容在百度搜索結(jié)果中給予了原創(chuàng)標(biāo)記、作者展示等等,并且在排序及流量上也取得了合理的提升。百度LEE也表示原創(chuàng)起源算法,也讓這些優(yōu)質(zhì)的網(wǎng)站有了一個(gè)比較好的收益。
1原創(chuàng)星火計(jì)劃上線前后的同期流量對(duì)比顯示,原創(chuàng)url流量增長(zhǎng)明顯。
2原創(chuàng)星火計(jì)劃上線后一段時(shí)間內(nèi)原創(chuàng)url流量增長(zhǎng)明顯并逐漸趨于平穩(wěn)。
這個(gè)是一個(gè)小范圍的數(shù)據(jù),來宏觀的看看。2013年,中國(guó)低質(zhì)網(wǎng)站泛濫,低質(zhì)網(wǎng)站中采集及作弊站點(diǎn)泛濫兩種共占比高達(dá)80%惡劣采集站占到40%之多,采集站、作弊站點(diǎn)、垃圾無價(jià)值站點(diǎn)在整個(gè)互聯(lián)網(wǎng)資源環(huán)境中的比例越來越高,且有主導(dǎo)趨勢(shì),優(yōu)質(zhì)資源的空間在不時(shí)減小。優(yōu)質(zhì)站長(zhǎng)受損,原創(chuàng)內(nèi)容受到很大的阻礙。2014年,作弊站和采集站占比35%有所遏制,采集站下降了16%百度對(duì)于原創(chuàng)的宣傳維護(hù)起到很大的效果,然而無價(jià)值站點(diǎn)越來越多,一定水平上也是原創(chuàng)”惹的禍,后面細(xì)說。
三、站長(zhǎng)對(duì)于原創(chuàng)保護(hù)的錯(cuò)誤認(rèn)知
1、原創(chuàng)內(nèi)容不等于高質(zhì)量?jī)?nèi)容
網(wǎng)頁主體內(nèi)容是網(wǎng)頁的價(jià)值所在百度主要從以下角度評(píng)價(jià)網(wǎng)頁內(nèi)容質(zhì)量:內(nèi)容制作本錢高低;內(nèi)容是否有效、完整豐富;否原創(chuàng);信息是否真實(shí)有效;否權(quán)威或投入較多專業(yè)的知識(shí)和經(jīng)驗(yàn);否存在作弊行為。對(duì)于頁面的主體內(nèi)容價(jià)值,原創(chuàng)二字并沒有怎么突出。什么內(nèi)容算質(zhì)量高?內(nèi)容質(zhì)量高:內(nèi)容質(zhì)量好的網(wǎng)頁,花費(fèi)了較多時(shí)間和精力編輯,傾注了大量經(jīng)驗(yàn)和專業(yè)知識(shí),內(nèi)容清晰、有效、完整且豐富。例如:專業(yè)醫(yī)療網(wǎng)站發(fā)布的內(nèi)容豐富的醫(yī)療專題頁面、資深工程師發(fā)布的完整解決某