問題:我如何在 Sitemaps 中表示網(wǎng)址?
對于所有 XML 文件,任何數(shù)據(jù)數(shù)值(包括網(wǎng)址)都應(yīng)使用以下字符實體轉(zhuǎn)義碼:& 符號 (&)、單引號 (')、雙引號 (")、小于 (<) 和大于 (>)。還應(yīng)確保所有網(wǎng)址遵循 RFC-3986 URI 標(biāo)準(zhǔn)、RFC-3987 IRI 標(biāo)準(zhǔn)以及 XML 標(biāo)準(zhǔn)。如果您要使用腳本來生成網(wǎng)址,通常可以使用網(wǎng)址轉(zhuǎn)義的方式將其轉(zhuǎn)義為該腳本的一部分。并且您仍然需要對它們進(jìn)行實體轉(zhuǎn)義。例如,以下 Python 腳本實體轉(zhuǎn)義 http://www.example.com/view?widget=3&count>2
以下是引用片段:
$ python
Python 2.2.2 (#1, Feb 24 2003, 19:13:11)
>>> import xml.sax.saxutils
>>> xml.sax.saxutils.escape(http://www.example.com/view?widget=3&count>2)
以上示例所得網(wǎng)址為:http://www.example.com/view?widget=3&count>2 問題:使用哪種字符編碼方法生成 Sitemaps 文件有關(guān)系嗎? 是的。您的 Sitemaps 文件應(yīng)該使用 UTF-8 編碼。
問題:如何指定時間?
對此協(xié)議中的 lastmod 時間戳以及所有其他日期和時間,請使用 W3C Datetime 編碼。例如,2004-09-22T14:12:14+00:00。
此編碼允許您省去 ISO8601 格式的時間部分,例如:2004-09-22 也是有效的。然而,如果您的網(wǎng)站頻繁更改,則鼓勵您使用時間部分,以便抓取工具可獲取關(guān)于您網(wǎng)站的更全面的信息。
問題:如何計算 lastmod 日期?
對于靜態(tài)文件,這是實際的文件更新日期?梢允褂 UNIX 日期命令獲取此日期:
以下是引用片段:
$ date --iso-8601=seconds -u -r /home/foo/www/bar.html
>> 2004-10-26T08:56:39+00:00
對于許多動態(tài)網(wǎng)址,您可以根據(jù)基本數(shù)據(jù)的更改時間或使用一些基于定期更新(如果可行的話)的近似值輕松地計算 lastmod 日期。使用一個近似日期或時間戳就可以幫助抓取工具避免抓取還未更改的網(wǎng)址。這將降低 Web 服務(wù)器的帶寬和 CPU 要求。
問題:我將 Sitemaps 放在哪里?
強(qiáng)烈建議將 Sitemaps 放置在 HTML 服務(wù)器的根目錄中,即,將其放置在 http://example.com/sitemap.xml.gz。
在某些情況下,您或許會希望在網(wǎng)站上針對不同的路徑創(chuàng)建對應(yīng)的 Sitemaps — 例如,如果在您的組織中,安全許可對應(yīng)不同目錄劃分上傳權(quán)限。
我們認(rèn)為如果您有上傳 http://example.com/path/sitemap.xml.gz 的許可,那么您也可以通過 http://example.com/path/ 報告元數(shù)據(jù)。
問題:我的 Sitemaps 可以有多大?
Sitemaps 在壓縮時不應(yīng)超過 10MB(10,485,760 字節(jié)),且最多可以包含 50,000 個網(wǎng)址。也就是說,如果您的網(wǎng)站包含的網(wǎng)址超過 50,000 個或 Sitemaps 大于 10MB,您需要創(chuàng)建多個 Sitemaps 文件,并使用 Sitemaps 索引文件。即使您的網(wǎng)站較小,但計劃的網(wǎng)址數(shù)量超出 50,000 個或文件大小超過 10MB,也應(yīng)使用 Sitemaps 索引文件。
問題:我的網(wǎng)站擁有數(shù)千萬個網(wǎng)址;我可以采用某種方式只提交最近更改過的網(wǎng)址嗎?
您可以在少數(shù)頻繁更改的 Sitemaps 中列出已更新的網(wǎng)址,然后使用 Sitemaps 索引文件中的 lastmod 標(biāo)記驗證這些 Sitemaps 文件。隨后,搜索引擎即可逐步抓。ㄖ蛔ト。┻@些已更改的 Sitemaps。
問題:創(chuàng)建 Sitemaps 后會發(fā)生什么?
在創(chuàng)建 Sitemaps 后,您需要通知搜索引擎 Sitemaps 的位置。得到通知的搜索引擎就可以檢索您的 Sitemaps 并使網(wǎng)址可以由抓取工具抓取。
問題:需要完整地指定 Sitemaps 中的網(wǎng)址嗎?
是的。您需要在網(wǎng)址中提供協(xié)議(例如,http)。如果 Web 服務(wù)器有要求,您還需要提供尾隨斜線。例如,http://www.google.com/ 是有效的 Sitemaps 網(wǎng)址,而 www.google.com 則不是。
問題:我的網(wǎng)站有“http”和“https”兩個網(wǎng)址版本。需要把它們都列出來嗎?
否。請在您的 Sitemaps 中只列出一種版本的網(wǎng)址。包含多個版本的網(wǎng)址可能導(dǎo)致抓取工具無法完整抓取您的網(wǎng)站。
問題:我網(wǎng)站上的網(wǎng)址中包含會話 ID 號。需要將其刪除嗎?
是的。網(wǎng)址中包含會話 ID 號可能導(dǎo)致網(wǎng)站抓取不完整以及重復(fù)抓取。
問題:Sitemaps 中網(wǎng)址的位置是否會影響它的使用?
否。網(wǎng)址在 Sitemaps 中的位置不會影響搜索引擎對它的使用或識別方式。
問題:我們網(wǎng)站上的一些網(wǎng)頁使用框架。我們應(yīng)該提供框架組網(wǎng)址或框架內(nèi)容的網(wǎng)址嗎?請將兩種網(wǎng)址都包括進(jìn)來。
問題:可以壓縮 Sitemaps 嗎?或者需要以 gzip 壓縮嗎?
請使用 gzip 壓縮您的 Sitemaps。
問題:XML Sitemaps 中的“priority”提示會改變我的網(wǎng)頁在搜索結(jié)果中的排名碼?
否。Sitemaps 中的“priority”提示只表示在您網(wǎng)站上,某一特定網(wǎng)址與其他網(wǎng)址的相對重要性。
問題:有可以用作 XML Sitemaps 驗證依據(jù)的 XML 架構(gòu)嗎?
位于 http://www.google.com/schemas/sitemap/0.84/sitemap.xsd 上的 XML 構(gòu)架適用于 Sitemaps 文件,在 http://www.google.com/schemas/sitemap/0.84/siteindex.xsd 上可以找到對應(yīng) Sitemaps 索引文件的構(gòu)架?梢栽诖颂庨喿x有關(guān)驗證網(wǎng)站地圖的詳細(xì)信息。