最近有客戶問(wèn)飛揚(yáng)動(dòng)力的站點(diǎn)除了把“太原網(wǎng)站制作、太原網(wǎng)站建設(shè)”等詞做上首頁(yè),如何也把“山西網(wǎng)站建設(shè)、山西網(wǎng)絡(luò)公司”也排在百度首頁(yè)或第二頁(yè)的。所以借著這個(gè)契機(jī),跟大家聊聊百度的中文分詞技術(shù),也都是自己的一些理解,有更多的想法歡迎交流。
做優(yōu)化的都知道,搜索引擎工作原理中有一步預(yù)處理,將抓取的頁(yè)面進(jìn)行幾道工序處理下,為之后的排名機(jī)制做好初步準(zhǔn)備。在預(yù)處理過(guò)程中,就有分詞這一道技術(shù)工序。英文是以一個(gè)單詞作為基本單位,單詞之間用空格分割連成一句話,中文是以字為單位中間沒(méi)有連接符成為一句話。所以,中文分詞與英文分詞差別很大。而從現(xiàn)有的搜索引擎特別是百度的中文分詞研究表明,主要是基于詞典匹配和基于統(tǒng)計(jì)。
1、基于詞典匹配是指將目標(biāo)詞或句與已有的詞典中的詞條進(jìn)行匹配處理,掃描之后匹配成句、詞、字形式。
(1)按照掃描方向不同,可分為正向匹配和逆向匹配。
(2)按照匹配長(zhǎng)度優(yōu)先級(jí)不同,可分為最大匹配和最小匹配。
(3)按照掃描方向和長(zhǎng)度優(yōu)先混合匹配,可分為正向最大匹配和逆向最大匹配等。
2、基于統(tǒng)計(jì)是指分析大量數(shù)據(jù)樣本,掃描計(jì)算出字或詞或句出現(xiàn)的統(tǒng)計(jì)概率,幾個(gè)字鄉(xiāng)鄰出現(xiàn)越多,就越能形成一個(gè)詞,同樣的可以形成句。
基于詞典匹配準(zhǔn)確性是取決于詞典的完整性和時(shí)效性,速度很快;诮y(tǒng)計(jì)的分詞方法更為靈活,同時(shí)有利于消除歧義,但速度較慢。搜索引擎的中文分詞往往是將這兩種分詞技術(shù)糅合在一起使用,以提高速度和準(zhǔn)確性。這是我們所說(shuō)的中文分詞技術(shù),那么同樣的基于這些中文分詞技術(shù),我們要最大化利用,回歸太原網(wǎng)站建設(shè)上,談?wù)?A href="http://m.mikata-bengoshi.com/news_view.asp?newsid=428">飛揚(yáng)動(dòng)力對(duì)中文分詞技術(shù)的應(yīng)用和揣測(cè)。
1、舉例:從關(guān)鍵詞“太原建站”會(huì)被拆分為“太原”+“建站”,“太原網(wǎng)站推廣”會(huì)被拆分“太原”+“網(wǎng)站”+“推廣”或者“太原”+“網(wǎng)站推廣”或者“太原網(wǎng)站”+“推廣”等形式。這種分詞可以很好的理解,并在我們的站點(diǎn)中得到廣泛的應(yīng)用。百度搜索“太原建站”前20個(gè)結(jié)果頁(yè)中只有一個(gè)不是完全匹配,“太原網(wǎng)站推廣”前20個(gè)結(jié)果只有四個(gè)不是完全匹配
2、從關(guān)鍵詞“山西SEO”可以拆分為“山西”+“太原”+“SEO”或“山西太原”+“SEO”或“山西”+“太原SEO”,但是這里可以基于統(tǒng)計(jì)拆分為“山西SEO”+“太原”。依此,飛揚(yáng)動(dòng)力的標(biāo)題就能拆分為“山西”+“網(wǎng)站推廣”、“山西”+“網(wǎng)站優(yōu)化”。從效果上看,有這幾點(diǎn)因素:
(1)有個(gè)主次之分,將競(jìng)爭(zhēng)力大的詞放一起,競(jìng)爭(zhēng)力小的詞進(jìn)行組合拆分。飛揚(yáng)動(dòng)力主做“太原SEO”,分詞“山西SEO”
(2)站點(diǎn)中要出現(xiàn)拆分過(guò)的詞,如“山西SEO”等,這是在提醒搜索引擎是這樣的分詞,還可以將它們加粗、反顯、錨文本等突出分詞效果。
(3)在外部鏈接或友情鏈接建設(shè)過(guò)程中,除了主做關(guān)鍵詞外,還要做拆分的詞。
3、現(xiàn)在還有一種觀點(diǎn)就是搜索引擎逐漸做到去模擬中文語(yǔ)法,去理解句子!吧轿魈璖EO-太原網(wǎng)站推廣-太原網(wǎng)站優(yōu)化”完全可以拆分為“山西SEO”+“太原SEO”+“山西網(wǎng)站推廣”+“太原網(wǎng)站推廣”+“山西網(wǎng)站優(yōu)化”+“太原網(wǎng)站優(yōu)化”。當(dāng)然漢語(yǔ)的博大精深,目前的機(jī)器語(yǔ)言還是很難做到基于理解的分詞技術(shù)。