·设为首页
·收藏本站
·网站地图
当前位置:精诚首页 > 行业资讯 >
行业资讯

搜索引擎的HITS算法在SEO中的应用

时间:2012-09-14 09:46 编辑:admin 点击:

搜索引擎的HITS算法在SEO中的应用,首先介绍一下什么叫HITS算法吧,首先我们知道,搜索引擎的工作分为,收集,预处理,服务,这三个大块儿的。在这些过程当中,当然是有各种各样的算法的,搜索引擎为了更好的服务搜索用户,当然要不断的弄好算法,提高用户体验了,HITS算法也是搜索引擎的算法之一,而且运用的比较普遍。

HITS(Hyperlink-InducedTopicSearch)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。描述两种类型的网页:“权威型(Authority)网页”:对于一个特定的检索,该网页提供最好的相关信息;“目录型(Hub)网页”:该网页提供很多指向其它高质量权威型网页的超链。由此,我们可以在每个网页上定义“目录型权值”和“权威型权值”两个参数。

1:Hits算法的基本思想

1.好的Hub型网页指向好的Authority网页

2.好的Authority网页是由好的Hub型网页所指向的网页。

2:Hits算法

HITS(Hyperlink–InducedTopicSearch)算法是利用HubPAuthority的搜索方法,具体算法如下:

将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(rootset),记为S,则S满足:

1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S中加入被S引用的网页和引用S的网页,将S扩展成一个更大的集合T.以T中的Hub网页为顶点集V1,以权威网页为顶点集V2。

V1中的网页到V2中的网页的超链接为边集E,形成一个二分有向图.对V1中的任一个顶点v,用h(v)表示网页v的Hub值,且h(v)收敛;对V2中的顶点u,用a(u)表示网页的Authority值。

开始时h(v)=a(u)=1,对u执行I操作,修改它的a(u),对v执行O操作,修改它的h(v),然后规范化a(u)Ph(v),如此不断的重复计算下面的I操作和O操作,直到a(u)。

其中I操作:a(u)=Σh(v);O操作:h(v)=Σa(u)。每次迭代对a(u)、h(v)进行规范化处理:a(u)=a(u)PΣ[a(q)]2;h(v)=h(v)PΣ[h(q)]2。

HITS算法可以获得比较好的查全率,输出一组具有较大Hub值的网页和具有较大权威值的网页.但在实际应用中,HITS算法有以下几个问题:

由S生成T的时间开销是很昂贵的,由T生成有向图也很耗时,需要分别计算网页的APH值,计算量大;网页中广告等无关链接影响A、H值的计算,降低HITS算法的精度;HITS算法只计算主特征向量,处理不好主题漂移问题;进行窄主题查询时,可能产生主题泛化问题。

相关分析算法大体可以分为4类:基于随机漫游模型的算法,比如PageRank,Repution算法;基于Hub和Authority相互加强模型的算法,如HITS及其变种;基于概率模型的算法,如SALSA,PHITS;基于贝叶斯模型的算法,如贝叶斯算法.所有的算法在实际应用中都结合传统的内容分析技术进行优化。AllanBorodin也指出没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差.将S扩展为基本集合(baseset)T,T包含由S指出或指向S的网页。可以设定一个上限如1000—5000个网页。

开始权重传播。在集合T中计算每个网页的目录型权值和权威型权值。Clever的做法是采用目录型网页和权威型网页相互评价的办法进行递归计算。对于一个网页p,用xp来表示网页p的权威型权值,用yp来表示它的目录型权值,并且用如下公式进行计算:

1.计算各节点的Hub和Authority:

2.赋予每个节点的hub值和authority值都为1。

3.运行Authority更新规则。

4.运行Hub更新规则。

5.Normalize数值,沧州网站优化即每个节点的Hub值除所有Hub值之和,每个Authority值除所有Authority值之和。

6.必要时从第二步开始重复。

简单的说,就是页面分为权威页(Authority页面)和枢纽页(Hub页面),搜索引擎认为,页面应该分为页面权威度和链接权威度来分开判断,这样搜索引擎就可以通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority页面。

那么,这样的算法如何在SEO中运用呢?武汉seo胡小易认为。搜索引擎算法我们SEOer可以不全部都懂,但是还是要了解滴。

在SEO操作中,我们运用HITS算法可以这样来运用,页面权威度的优化呢,可以从模版质量,内容质量,这样就牵扯到一个内容专业度的问题,意思就是你的排名页面是否在所有用户检索词涉及到的页面中属于专业的。我曾经在这篇文章:《如何撰写高质量网站内容》谈到过如何撰写网站文案的一些要素。读者可以参考!

在链接方面,不要觉得链接向别人的网站就是对自己不好,事实上链接向同行业的高权重网站,搜索引擎有一定认识的网站会让你有好处,这里说的好处就是指的链接权威,千万不要为了PR,和一些不是同行业的并且做的很差的网站互相链接。当内容权威不了,就可以尝试链接权威。

除非注明,武汉seo文章均为原创,转载请以链接形式标明本文地址

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线---------------------------
声明:精诚网络网站内容中凡注明“来源:XXX(非精诚网络)”的作品,均转载自其它媒体,转载目的在于传递更多信息,其中涉及的网站优化,百度关键词优化,谷歌优化等技术细节并不代表精诚网络赞同支持其观点,并不对其真实性负责。对于署名“精诚网络”的作品系本站版权所有,欢迎站长朋友在转载同时署名来源。