新手必读,有效利用统计数据定位SEO方向

SEO专题 发表评论 »

导读:

    搜索引擎优化,又称SEO。是通过了解搜索引擎如何抓取网站页面、以及对某一关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量。SEO涉及网站的各个方面,今天我将教大家如何通过网站的统计来对流量进行分析,从而达到网站优化的目的。

    SEO技术是一个漫长,循序渐进的过程。马克思同志说的好,实践是检验真理的唯一标准。SEO需要在长期的实践中摸索规律与经验。一些新手们往往耐不住性子,搞一些自己认为不错而常常被搜索引擎当作作弊的优化。例如非常典型的关键字堆砌,虽然成效快,但是被搜索引擎降低权重甚至是在搜索引擎中被删除也是见效非常的快。

    具体如何进行优化才能够达到一个比较好的效果呢?今天我们从最基础的地方说起,网站流量统计分析SEO定位。 这里我们以YAHOO的统计的“功能演示”为例。地址为:http://tongji.cn.yahoo.com/

    打开页面后首先看到的是最近IP的统计。我们先来看左边的时段分析,YAHOO统计中加入了任意的天与天之间同一时段IP量、PV量、UV量对比,图象化对比更加直观的表现。这一点相对于其他网站数据统计功能中是没有的。下面的每日分析,不仅包括当天IP分析的曲线图还包括有最近30天,上月,本月,上周,本周流量的统计。通过时段IP量的对比和每日分析可以让我们更清楚了解,网站的来访者在哪个时段,哪段时期访问我们网站的人数最多。更远一层的来说,通过较长时间的对比,我们能够发现什么?网站受众的年龄,教育程度的不同,网站的访问者会在季节变化中影响到上网习惯的变化。

    通过以上两点,又能够反馈我们怎样信息?时段分析告诉我们,我们对于站点的更新应该在IP量上升的时段之前开始。而季节变化导致的习惯变化也会对每天IP上升下降时段有一定的影响。为什么我们要在IP量上升的时段之前开始更新?理由很简单,给经常访问站点的访问者留下一个很好的印象:这个站长很勤奋,网站更新的很快。打个比方,你经常去两到三个小说站或者电影站,而在这两到三个站点中,你是喜欢上线就看到新内容的站,还是喜欢到快下线的时候才发现这站点开始更新了。这对于提高网站访问者对于我们站点依赖度以及在同种类别的站点中的对比是很重要的一点。

    下面让我们来看下重点部分:关键词
    YAHOO的统计中关键词的分析是非常的优秀。乍看上去好象与其他统计没有多大的区别。但是在饼图下边的关键词数据统计上,有一个细节的地方不知道大家注意到了没有。就是右边的总趋势。ALT注释为:指定关键词流量趋势。随后我会说明这个总趋势会在我们分析关键词中起到怎样的一个作用。

    通过YAHOO的搜索引擎关键词分析统计告诉我们,网站访问者通过搜索怎样的关键字来到我们的网站。我们可以通过搜索引擎搜索来到网站的那些关键词,在搜索引擎中排到什么位置。说到在搜索引擎中位置的排列又引了出另一个关键:权重。比如:我们在搜索某一关键字时,这个关键字在搜索引擎里排到第一页第一的位置(当然除了部分搜索引擎的推广),说明搜索引擎对这个词给出的权重是高于其他网站的。但权重并不是永久不变的,特别是一些高手对页面关键词结构的SEO,很容易就会把你好不容易上到第一页的词挤下去。这就需要去更新一些此类关键词相关的词语来保持原来那个关键词权重。

    如何来进行关键词权重的分析?除了看关键词带来流量的变化,我们可以更直观。对,就是上边提到的YAHOO统计里的“总趋势”。点击小柱型图,我们进入另一个页面。上面部分有最近30天的单独关键词带来IP量的线型图,一目了然。这里还要劝一下心浮气燥在站长们,关键词的波动会比较大,不要认为短期内的上升就是权重的提高,文章的开始我就讲了,SEO是一个循序渐进的过程。操之过急的话对于网站是很不利的。所以大家在分析关键词的时候,要把目光放的长远一些,就好象炒股时的心态一样,时常保持一颗平常心。(《士兵突击》中吴哲的口头禅。)切误头脑发热,选择了错误的道路而使得前面的努力统统白费,一切前功尽弃。对于关键词,向大家透漏点小技巧。做比较热门的关键词可能我们做不上去,但是一些比较偏的关键词呢?可能有人就要说了,偏门的关键词一次才能带几个流量啊。是啊,一个偏门的关键词可能只能带50,100个流量,但如果你做10个,100个这样的关键词呢?而且在你做这10个,100个偏门的关键词的时候,很有可能会意想不到做出一个,两个热门的词出来。这点还得大家自己去发觉。

    我们继续往下看,被访页面分析。其实这个与上边的关键词分析的联系是非常紧密的。因为你的网站上被访问页面次数高的一定是通过关键词过来的。当然一些比较被人们所熟知的站点除外。

    访问入口分析,访问出口分析,两个功能也是YAHOO统计的一个特点。这两个功能可以对PV量进行一个分析。入口分析,就是访问者从其他地方首先进入网站的第一个页面是什么。并不一定是首页,而是IP流量比较大的一些页面。说到这里,聪明的读者就会想到上面提到的关键字。流量大的页面也就是被访问页面次数高的页面。象上面讲的被访页面分析,是同一道理。在我们进行SEO的时候,PV的优化往往被忽略。而PV在搜索引擎评估页面内的连接质量的时候是一个非常重要的考察点。所以当我们在进行PV的优化时,最直观的表现就是通过YAHOO统计的这个功能了。访问出口分析与上面的入口分析其实一样,只是一个离开时的页面,这里不再赘述。

    客户段分析,主要是对访问者的系统,分辨率,使用的浏览器进行一个分析。这个功能对页面进行设计的时候是非常重要的。怎样使访问者减缓视觉疲劳,使用什么样的颜色搭配使使用者心情更加舒畅。我们在做站的时候,服务的对象是人,而不是那些搜索引擎的蜘蛛们。所以首先要为我们的受众营造怎样的一种环境,这个是值得考虑的问题。只有做好了我们受众感官上的舒畅,我们才能在这个基础上进行SEO。

    最后我们来看看访问地区分析。访问地区分析,罗列出了站点大部分访问者来自世界的哪些地方。关于地区性分析,目前本人还没有太好的点子来做这个的SEO。不过可以分析下在这个地区的访问者比较了解的当地的站点。比如,南京地区。在南京地区非常火的就是XICI。武汉地区,当数MOP了。我们可以到这些站点经常逛逛。挂一些AD类的签名进去。有更好想法的webmaster们可以来找我讨论。

    相信大家看完本篇文章后,对SEO又有了一定的认识。如何选择适合自己网站发展的SEO一个方向?大家应该心中有数了吧。还是文章开始时的那句话,SEO是一个循序渐进的过程。切误心浮起燥。希望大家看完本文后能对你有所帮助。

    如果你有什么更好的想法可以加我的QQ来讨论。我的QQ:13713492     

    创世

    作者声明:此文章任意转载,但著作权及与之相关的所有权利,均由站长网及其合作方中国雅虎享有。
    作者承诺:此作品不侵犯任何第三方的版权或其他任何权利。

固定链接: 新手必读,有效利用统计数据定位SEO方向

赚钱研究:如何让您的网站赚更多的钱?

网赚研究 发表评论 »

IT类(特别是站长类的)包含论坛类的。
实例分析:网页吧(避免有人所我AD,网站地址省略)一个站长类网站,日IP超过1.4W.估计在中国站长类网站有这个流量的不多了。但是放GG的广告效果非常不好.特别是关于网络赚钱这块的文章,看的人多.点广告的基本没有。我通过渠道测试了的。这样的站,GG价格会高点。但是点的人实在是少.200个有一个人点你的你就不错了。另外论坛类的网站也不合适放,都是那几个人。别人一看就绝对不会再来了。

理由: 访问IT类网站的人。都是上网老鸟,有很多还是对网站方面非常精通的,什么是广告,什么不是广告,他们一看就知道,要他们点你的广告,除非他们不注意点到了,并且这种不注意的比例非常少。所以大家谈的如何让广告看起来不是广告基本是没用的。因为他们一看就知道啊。你的广告做给你自己看。其实我自己也是,做IT相关工作。我去网站,别人什么是广告,什么是内容我一看就知道了。既然知道是广告了,也就没必要点你的广告了。

比较合适的广告:阿里妈妈找你买包月广告,另外昨天出了个亿告网,运做模式和阿里妈妈一样,都才开始搞,IT类网站可以找他们,要他们买你的广告.价格还算比较合适,不高也不是很低.上次阿里妈妈,这次亿告网都是主动联系我买我的广告位的,可能因为网页吧是站长类网站吧,他们能够找到有针对性的客户.

医药类,股票类等等
实例分析:乙肝网yigan5.com  这类网站放GOOGLE ADSENSE 比放阿里妈妈好.
因为阿里妈妈不会买你这样的广告.你这样的广告对于他们来讲根本没用。因为你这样的站基本不会给他们带客户的,他们需要的是网站主.但是你放GOOGLE ADSENSE  或者 百度的广告非常不错.绝对不要放 阿里妈妈。他们不会买你的广告。

理由:因为医药类的竞价广告本身就是暴力.所以你的点的价格也高。最重要的访问这类网站的人对IT基本不怎么懂,也不知道什么广告,只要融合的好,点的比例是比较高的。

比较合适的广告:百度,googleadsense.
另外百度有个特点,一到晚上8点后基本都是公益广告,也就是你放的广告基本是没钱的,另外GOOGLE ADSENSE 在下午3点开始到晚上12点单价是最高的,道理我就不说了。很多人都知道。所以最好的办法是做一个JS调用来增加收入。通过这样的方式来增加收入。下午3点开始到晚上12点你放GOOGLEADSENSE的广告,晚上12点到第二天下午3点你放百度的广告。这样的投放方式我保证你赚钱。

下面给两个在不同的时间显示不同的广告的代码,提供给大家参考.
付ASP里实现不同时间显示不同广告的代码:<%a=hour(now()) %>
<% if a>15 then %>
你在15点到24点显示的广告(放GOOGLE ADSENSE)
<%else%>
你在晚上0–15点显示的广告(放百度联盟)
<%end if%>
付JSSCRIPT里实现不同时间显示不同广告的代码:
<script language=”JavaScript”>
var mess1=”";
document.write(”<font color=’#0000ff’>”)
day = new Date( )
hr = day.getHours( )
if (( hr >= 15 ) && (hr <= 24 ))
mess1=”你在15点到24点显示的广告(放GOOGLE ADSENSE)”
if (( hr >= 0 ) && (hr < 15))
mess1=”你在晚上0–15点显示的广告(放百度联盟)”
document.write(mess1)
document.write(”</font>”)
</script>
本人对PHP  .net都不熟悉,所以那两种语言我就不会写了。但是你们都可以用这javascript实现的。
网页吧wangyeba.com 边缘人   原创作品,转载请保留本信息。

固定链接: 赚钱研究:如何让您的网站赚更多的钱?

GoDaddy域名主机优惠券/优惠码/Coupon大全

空间主机 发表评论 »

优惠码:gdm0934h
整体优惠:虚拟主机优惠幅度达到35%特别推荐。

优惠券: cjchost20
购买所有主机产品优惠20%.
有效期: 无限制

优惠券:cjc20off75
购买75美元及以上可以优惠20美元
有效期:无限制

优惠码: cjctenoff
购买50美元及以上商品使用此优惠码可以优惠10美元
有效期:无限制

优惠码: cjc695dom
说明: $6.95 .COM 注册,续费,转移
有效期: N/A

$10 off $50+
Coupon Code: cjcdeal76
Expires: 10/1/07

15% off $75+
Coupon Code: cjcdeal78
Expires: 10/1/07

$20 off a $75+ order
Coupon Code: CATALOG1
Expires: Unknown

10% off
Coupon Code: gdbb776
Expires: Unknown

10% off
Coupon Code: cjcdeal71
Expires: 10/1/07

$6.95 .com domain
Coupon Code: cjcdeal72
Expires: 10/1/07

20% off on Shared Hosting
Coupon Code: cjcdeal73
Expires: 10/1/07

$1 off on any order
Coupon Code: cjcdeal74
Expires: 10/1/07

$5 off $30+
Coupon Code: cjcdeal75
Expires: 10/1/07

固定链接: GoDaddy域名主机优惠券/优惠码/Coupon大全

Godaddy 注册域名节省20%优惠券

空间主机 发表评论 »

优惠券内容:购买 .com .net .us等域名节省20%
优惠码:gdm1008b
有效期:10月13日临晨零点

固定链接: Godaddy 注册域名节省20%优惠券

翻译《The Art of the Content Site》第五波

SEO专题 发表评论 »

现在,让我们来讨论一下页面之外优化的因素

导入链接的数量
导入链接的PR
导入链接的文本内容
导入链接网页的内容相关性
Whois的信息
其他各种各样的因素
页面之外的优化不像页面内的HTML优化可以看得清楚,它还有很多我们不知道的因素在影响着。外链是多多少少我们能控制的,Whois就是我们的信息,还有其他的因素我们是真的不知道,除非SE内部的人透露(可能吗?)。

外链的数量

很明显,你的外链越多,你的网站就越重要。增加单向链接或双向链接,都能有助于你在三大搜索引擎的排名。

外链的PR值

PR值是表示网站重要程度的一种测量方式(近期有人说Google要把PR撤掉,个人认为不太可能。soz注)。很客观的说,网站的重要性很大程度上取决于外链的多少,还有这些链接的网站的权威度。三大搜索引擎都用了差不多的衡量方法,尽管只有Google官方公开了他们的PR概念。所以,让PR值高的网站链接你比跟PR值低的链接要受益很多。

看网站的PR值可以用Google的Toolbar。

外链的文本

另一种提高你排名的因素就是外链连向你时的锚文字里包含你网站的关键字。

不过这里你要注意,如果很多网站链接到你网站的链接文本都是一样的话,你是很可能被处罚的。如果可以,你可以改变这些文本的顺序。尽量把相同的外链文本控制在70%一下。我通常的做法是1/3。

外链网站的内容相关性

很明显,如果相关性高的网站给你做链接,好处不言自明。如果相关性为0,就没有必要做这个链接了。

Whois信息

Whois也是排名的因素。因为Whois信息里面有许多影响排名的因素。一个是域名的所有人(检查外链的时候就可以知道是否是作弊了),另一个就是域名的年龄。特别是Yahoo,对域名的年龄特别关心。这些数据就作为SE的第一次对网站的数据。

Whois的另外一个作用是记录了域名被注册的时间长短。很简单,SE可以根据你注册域名的时间长短来判定你是否先要长期使用这个网站。如果你一下子注册了10年,你会被认为是个大网站。如果这真的有用,注册一个长时间的域名是十分的有必要的!

还有,域名注册人所在的国家同样有所影响。

其他未知因素

还有其他的许多因素对排名有着很重要的影响。一些我们很难知道,另一些要不很难知道,要不很难去衡量。

单页面的SEO到此结束。

至此,这本书关于SEO的内容已经结束,之后是用户友好度的讨论了。

固定链接: 翻译《The Art of the Content Site》第五波

翻译《The Art of the Content Site》第四波

SEO专题 发表评论 »

页面标题

当SEO时,你的页面的标题是另外一个非常重要的部分。因为搜索引擎列出网站的时候,会把标题列出来的,也因此,标题的权重是很大的。标题最开头的权重最大。所以,标题的最好写法是用尽量短的短语去描述你的内容。也就是说,标题第一个出现的单词必须是你这个页面要优化的第一关键词,其次第二关键词。

Meta Tags

不管是不是一些自称SEO专家的人告诉你说Meta Tages在三大搜索引擎中还是继续有用的还是没用的。我们都要注意标签的写法。因为如果你写好了,对搜索引擎还是有一定的影响的。

最好的办法就是不要可以去堆砌关键字,自然就好。

关键标签是一些词组,而描述标签是一段短语。

可读文档

这也是一个非常重要的因素。篇幅相对比较多的似乎多排名有好处,因此,长一点的文章可能要比短的文章有好处。

很多SEOer讨论到关键词的密度。我是不太关注,不过如果你关注,2.5%-3%对于三大搜索引擎比较友好(现在权威的说法是2%-8%,Soz注)。如果你是自然的写一篇文章,而里面的关键词密度超出了这个范围,也是没有问题的,这里强调的是自然,而不是刻意。

当写文章的时候,注意,首段和末段的权重要比中间段要高。所以,把重要的东西放在首段和末段才是明智的。

HTML代码

在HTML里面,你可以制造出许多欺骗SE(Search Engine)去提高排名的方法。其中有极大多数都只是短暂的得到好处。所以,我不建议这样做,但是我会提到这些方法。

H1标签现在已经不起作用了,相反,Yahoo可能会处罚过度试用H1的网站。
图片的 alt 标签是为了照顾弱群体而设置的,是为了说明图片的大意而存在的。现在是为了那些视觉有障碍的人使用。但是,不要滥用它,说明图片即可,不要堆砌关键字。

更新度,成长度,话题度

在SE中,有多种标准的技术去衡量网页的更新频率。我可不能不考虑这些,因为如果一个网页有几个月没有更新了,排名是会下滑的。也有一些证据证明,经常更新有利于排名的上升,所以,频繁的更新吧。

还有一个重要的因素,网站的成长度。经常有新页面加入的网站会得到SE的青睐。

话题度,这里所说的话题度是SE认为你网页所讨论的话题,它会记住这个网页的话题,然后如果你改变的话题,SE就会降低你的排名。所以,不要轻易改变话题!

好了,下一次翻译这个网站的优化。

固定链接: 翻译《The Art of the Content Site》第四波

翻译《The Art of the Content Site》第三波

SEO专题 发表评论 »

现在,让我们来看看单页SEO的因素

域名和 URL
页面的 title
meta 标签
页面的可读文档内容
页面的 HTML 代码
内容的新鲜度,讨论的话题等
对于上面这个清单,当你使用了诸如CMS系统的时候,会稍微变得简单一点。当你在使用了CMS系统的时候,除了第五点,其他的你都要关注。很显然,HTML是模板上面的,而在用CMS的时候,你只要注意你的title ,meta 等等就可以了,同时对于这些标签,你要确保他们对这个页面的内容是适当的。

域名和URL

当你要SEO的时候,域名是十分重要的。如果别人在搜索引擎上搜索鞋子的时候,而这是你的网站的域名恰好包含了shoes,那么,搜索结果就很有可能把你的网站放在前面。所以说,你的域名包含你的网站内容的关键字是很有好处的。如果有更好的事情,那就是搜索者搜索的关键字恰好就是你的域名。

搜索引擎可以认出你域名的意义出来,举个例子,如果你的域名是www.theshoesplace.com,搜索引擎就可以知道是 the shoes place ,所以你不必注册 the-shoes-place.com 这样的域名(但是soz听到更多的是把词分开是很有好处的)。域名跟着连词符号反而会轻微的降权。(SOZ怀疑中。)

当说到顶级域名的时候,我们指的是.com .net .org .us .info .cn这样的域名。举个例子,google比较偏爱.com,而Yahoo,则比较平均,MSN跟Yahoo差不多,但是会对.com有轻微的降权,而偏爱.org .net这类的域名。我偏向于选择.com域名,因为我们要优先考虑google,因为google也是用户优先考虑的。

页面的URL包含了域名,也包含了文件夹和文件名。所以,在URL中能包含你的关键字或者关键短语,可以起到一定的作用,但是,现在是越来越不明显了。

还有,有时URL中可以不包含文件名。因为浏览器知道去寻找服务器默认的索引文件(当然,这个默认的索引文件是服务器告诉浏览器的。soz注)。

固定链接: 翻译《The Art of the Content Site》第三波

翻译《The Art of the Content Site》第二波

SEO专题 发表评论 »

如果前面没有看,可以看看翻译《The Art of the Content Site》第一波。

现在接着翻译。

值得注意的一点是,我们作为互联网上的商人(我想站长也算是。Soz注),我们要注意几点

这些文本内容(HTML)是我自己写还是雇别人来写
别人可不可以免费帮我写
很显然,我们应该做到第2点。

所以,在我们准备为一项计划而筹备网站时,我们应该还要考虑最基本的SEO。(可能是写内容的编辑员不懂SEO,需要你去指导)毕竟,搜索引擎过来的流量才是这个模型(SEO)的目的,它的针对性很强,还有最棒的一点,就是免费的。

如果你对SEO已经有很深的造诣了,那就跳过这部分吧。但是如果你对SEO知道的不算多,那就花点时间和精力去理解一下这些内容吧。我知道……我知道……它是非常的枯燥和无聊。但是本书我会探讨一些话题,所以你需要掌握一些术语。

好了,下一章要讲单个页面的优化了。

固定链接: 翻译《The Art of the Content Site》第二波

翻译《The Art of the Content Site》第一波

SEO专题 发表评论 »

版权声明:如果有任何侵权的地方,请跟Soz联系。如果不愿看Soz的翻译,可以去资料区下载英文原版。

现在开始翻译。

许多人都没有意识到SEO是需要对特定关键字的调查和安排的,就只简单的认为是内容的原创。许多有名的SEO公司,除了对关键字的研究,内容的原创,连接的进行,就没有再多做些什么了。实际上,许多把关键词的研究和连接的进行这些任务交给了别的公司去做。

很多SEOer对自己的内容创作能力相当的自豪,并把这种能力提升至“艺术”的高度,他们称之为SEO作品,为的是让别人觉得他们(SEOer)非常的重要……其实,任何懂得英文的人,都可以做得和他们一样好!

平静的坐在家里,很多的互联网企业家都是很舒服的通过网络在赚钱。他们正是通过正确的The Art of the Content Site在赚钱的。

跟你说实话,对于这个游戏来说,我也算是个新手。我是从97年开始在网络卖东西的,直到2000年才开始大规模的网络营销的。

但情况是,很多人在90年代初就在互联网上写了很多内容。很多人是处于利他目的的……也有更多的是为了提高自己的名声,这也影响到了他们在互联网上做生意。(想当初,鱼不就是这样的吗?Soz注)

不管是出于什么动机,搜索引擎的搜索结果都是会排得满满的。

很明显,网站内容的样式会严重的影响搜索引擎。尽管它确实还不尽善尽美。

典型的内容网站会耗尽我们无数的时间去创造内容。在过去,流量很难转化为金钱,特别是在错综复杂的网络营销中,对于那些不是专家级别的人来说,简直是不可能。

对于第一个问题——耗尽很多时间去创造这样的一个虚拟ATM(难道不是ATM吗^_^Soz注)。这几年已经有了很大的进步了(很明显,DedeCMS就是一个例子)。

很多的自动网站创作软件已经进入了市场,其中就有非常有影响力和易用的CMS。这些软件使得建立网站这样单调乏味的任务变容易许多。站长和管理者可以就只是写一些内容,其他的重复性的东西统统都交给了CMS完成。

一些非常先进的软件,其实就是把重复的代码自动完成,以此作为用户的资源。然后使得用户更早的去获得搜索引擎流量。这种内容可以作为企业联合文章,新闻订阅,或者是优化搜索结果的形式。

在我们能够更深入的了解“内容”这个概念的时候,让我们先看看到底什么是“内容”。(搜索引擎的本质正是在研究这种平常的“内容”,从而准确的判定网页的内容。Soz注)

内容,简单的说,是互联网上的“原料”。内容能被搜索引擎很好的收录是基于规则的HTML文档形式。内容也包括图形,照片,视频和音频。因此,一个“内容网站”就是一个主题,文章是关于这个主题的,图片是关于这个主题的,音乐,视频,都是关于这个主题的。最重要的,网站是紧紧的集中在单独的专一的话题中的(163,sina的我们不要看.Soz注)。

到目前为止,最重要的内容形式,能够出现在搜索引擎的排名之中,都是HTML文档。

关于HTML的简单介绍……(略过)

固定链接: 翻译《The Art of the Content Site》第一波

百度中文分词技术读书笔记

SEO专题 发表评论 »

读了一篇百度中文分词的文章,很有感触,特将其精华部分摘录下来和大家共享:
百度的分词
u       首先根据分割符号将查询分开。“信息检索 理论 工具”  分词后  <信息检索,理论,工具>
u       然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个。“理论 工具理论”分词后<工具理论>,GOOGLE不考虑这个并归计算
u       接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。查询”电影BT下载”分词后<电影,BT,下载>

u       如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉。

分词算法类型正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

u       百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名、地名、新词等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。

u       百度用分词算法类型采用的是双向最大匹配算法
例子:查询“毛泽东北京华烟云”,百度的分词结果:”毛泽东/北/京华烟云”
百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能

u       首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者(正向最大匹配,反向最大匹配)切分结果相同,说明没有歧义,直接输出分词结果。
u       如果不一致,则输出最短路径的那个结果,也就是切分的片断越少越好,比如<古巴,比,伦理>和<古巴比伦,理>相比选择后者,<北京,华,烟云>和<北,京华烟云>相比选择后者。
u       如果长度相同,则选择单字词少的那一组切分结果。“遥远古古巴比伦”,这个查询被百度切分为<遥远,古古,巴比伦>,而不是切分为”遥/远古/古巴比伦”
u       如果单字也相同,则选择正向分词结果。查询“王强大小:”,百度将其切分为“王/强大/小”,而不是反向切分为“王/强/大小”

百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典。
Spelling Checker拼写检查错误提示(以及拼音提示功能)

固定链接: 百度中文分词技术读书笔记