域名注冊(cè)

中文域名
英文域名
通用網(wǎng)址
域名解析
域名轉(zhuǎn)入\轉(zhuǎn)出

虛擬主機(jī)

主機(jī)購(gòu)買
管理主機(jī)
FTP上傳
數(shù)據(jù)庫(kù)管理1）注冊(cè)競(jìng)價(jià)服務(wù)賬號(hào)
2）繳納競(jìng)價(jià)服務(wù)推廣費(fèi)用
3）開通服務(wù)
4）開始推廣
主機(jī)續(xù)費(fèi)升級(jí)

網(wǎng)站建設(shè)

建站流程介紹
網(wǎng)站設(shè)計(jì)
網(wǎng)站改版
網(wǎng)站維護(hù)
網(wǎng)站推廣

企業(yè)郵局

郵箱使用
管理郵箱
郵箱續(xù)費(fèi)升級(jí)
全球郵局

網(wǎng)站優(yōu)化

seo優(yōu)化
seo技巧
收索引擎優(yōu)化
關(guān)鍵詞優(yōu)化

網(wǎng)站備案

備案流程指南
修改備案
備案資料下載
備案小技巧

服務(wù)器租用

服務(wù)器租用
服務(wù)器托管

其它服務(wù)

400電話
在線客服
財(cái)務(wù)常見問題
會(huì)員常見問題

您的位置：創(chuàng)新互聯(lián) >> 網(wǎng)站優(yōu)化 >> 網(wǎng)站優(yōu)化基礎(chǔ)知識(shí) >> 什么是中文分詞？對(duì)SEO優(yōu)化有什么幫助？

什么是中文分詞？對(duì)SEO優(yōu)化有什么幫助？

王虎文章來源：網(wǎng)站化化點(diǎn)擊數(shù)：879 更新時(shí)間：2009-01-27
　什么是中文分詞?
眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個(gè)意思。例如，英文句子I am a student，用中文則為：“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過空格知道student是一個(gè)單詞，但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。
目前主流的中文分詞算法有以下3種：
1、基于字符串匹配的分詞方法
這種方法又叫做機(jī)械分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況，可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下：
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數(shù)最小)。
還可以將上述各種方法相互組合，例如，可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn)，正向最小匹配和逆向最小匹配一般很少使用。一般說來，逆向匹配的切分精度略高于正向匹配，遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明，單純使用正向最大匹配的錯(cuò)誤率為1/169，單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng)，都是把機(jī)械分詞作為一種初分手段，還需通過利用各種其它的語(yǔ)言信息來進(jìn)一步提高切分的準(zhǔn)確率。
一種方法是改進(jìn)掃描方式，稱為特征掃描或標(biāo)志切分，優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞，以這些詞作為斷點(diǎn)，可將原字符串分為較小的串再來進(jìn)機(jī)械分詞，從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來，利用豐富的詞類信息對(duì)分詞決策提供幫助，并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整，從而極大地提高切分的準(zhǔn)確率。
2、基于理解的分詞方法
這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解，達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析，利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分：分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來對(duì)分詞歧義進(jìn)行判斷，即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語(yǔ)言知識(shí)和信息。由于漢語(yǔ)語(yǔ)言知識(shí)的籠統(tǒng)、復(fù)雜性，難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。
3、基于統(tǒng)計(jì)的分詞方法
　　從形式上看，詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時(shí)出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度�？梢詫�(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息，計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率�；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí)，便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語(yǔ)料中的字組頻度進(jìn)行統(tǒng)計(jì)，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性，會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組，例如“這一”、“之一”、“有的”、“我的”、“許多的”等，并且對(duì)常用詞的識(shí)別精度差，時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞，同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞，即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn)，又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。
那分詞技術(shù)再SEO優(yōu)化中有什么幫助呢?
SEO優(yōu)化過程中是絕對(duì)離不開分詞的技術(shù)作為輔助!
上一篇文章：網(wǎng)站需要SEO,基本的SEO建站要點(diǎn)
下一篇文章： CNNIC推出“復(fù)合通用網(wǎng)址”

国产又黄又粗又长又大的视频-色婷婷久久一区二区爽爽爽-欧美日本韩国国产在线观-尹人香蕉琪琪在现观看

域名注冊(cè)

虛擬主機(jī)

網(wǎng)站建設(shè)

企業(yè)郵局

網(wǎng)站優(yōu)化

網(wǎng)站備案

服務(wù)器租用

其它服務(wù)

什么是中文分詞？對(duì)SEO優(yōu)化有什么幫助？

什么是中文分詞？對(duì)SEO優(yōu)化有什么幫助？