现在的位置:首页 > 所有2012年04月文章
0

搜索引擎的排序算法(5)

作者:南京SEO  发表于:2012年04月20日 12:28  分类:SEO杂谈  1,018 浏览数 
搜索引擎的排序算法(5)

在提取内容时,搜索引擎就可以记录所有版式信息,包括:哪些词在标题中出现,哪些词在正文中出现,哪些词的字体比其他的字体大,哪些词加粗过,哪些词用KeyWord 标识过的等。这样在搜索过程中就可以根据这些信息来确定所搜索的结果和搜索词的相关程度。 对于排序算法的真正实现细节,Google 等搜索引擎不会透露,但是我们能掌握一些原则。Matt Cutts 是一位Google的雇员,他在其博客上说“SEO工作中最明智的选择就是从下面这个问题得来的:对用户最有用的是什么?”而Danny...

阅读全文...Tags:

0

搜索引擎的排序算法(4)

作者:南京SEO  发表于:2012年04月20日 12:27  分类:SEO杂谈  974 浏览数 
搜索引擎的排序算法(4)

(2)锚文本(Anchor Text)。锚文本就是链接文本。锚文本可以作为其所在页面内容的评估。正常来讲,页面中增加的链接都会和页面本身的内容有一定关系。如服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接。另一方面,锚文本能作为所指向页面的评估。锚文本能精确地描述所指向页面的内容,如个人网站上增加Google 的链接,则锚文本显示为“搜索引擎”。这样通过锚文本本身就能知道,Google 是搜索引擎。 由此可见,在网页中选择合适的锚文本,则可...

阅读全文...Tags:

0

搜索引擎的排序算法(3)

作者:南京SEO  发表于:2012年04月20日 12:26  分类:SEO杂谈  1,036 浏览数 
搜索引擎的排序算法(3)

国内的百度是全球最重要的中文搜索引擎之一,其创始人李彦宏在1996年申请了名为“超链分析”的专利,“超链分析”的原理和 PageRank的原理类似。所以在搜索引擎的算法上,两种搜索引擎的主体很相近。 除了用 PageRank 衡量网页的重要程度以外,还有上百种因素参与排序。现在常用的算法有如下3种。 (1)HillTop 算法。HillTop 是搜索引擎结果排序算法,由 Google的工程师 Bharat 在2001年提出并获得专利。Google自诞生之日起,其排序规则就经常变化,但变化最大的一次就是基...

阅读全文...Tags:

0

搜索引擎的排序算法(2)

作者:南京SEO  发表于:2012年04月20日 12:25  分类:SEO杂谈  1,132 浏览数 
搜索引擎的排序算法(2)

接指向A的网页越多,A的级别越高。即A的级别和指向A的网页个数成正比,在公式中表示,N越大,A的级别越高。 接指向A的网页,其网页级别越高,A的级别也越高。即A的级别和指向A的网页的级别成正比,在公式中表示,网页N级别越高,A的级别也越高。 接指向A的网页,其链出的个数越多,A的级别越低。即A的级别和指向A的网页的链出个数成反比,在公式中表示,网页N链出个数越多,A的级别越低。 通俗地讲,从网页A导向网页B的链接,可以看做是页面A对页面 B 的支持投票,Google...

阅读全文...Tags:

0

搜索引擎的排序算法

作者:南京SEO  发表于:2012年04月20日 12:23  分类:SEO杂谈  1,013 浏览数 
搜索引擎的排序算法

搜索引擎的排序算法 排序算法是对蜘蛛抓取到的页面进行排序的算法。理论上,我们可以根据任意的规则对搜索结果进行排序,比如按照时间排序、按照访问量排序等,然而在Google使用的排序算法问世后,上述的排序方式都被证明并不适合于互联网。 Google 是到目前为止最流行的一个通用搜索引擎,最初只是两个斯坦福大学学生的研究项目,Sergey Brin 和 Larry Page 希望让绝大部分使用搜索引擎的人都能在搜索结果的第一页找到他想要的结果。为了达到这个目的,他们发明了开创时...

阅读全文...Tags:

0

更新周期

作者:南京SEO  发表于:2012年04月19日 13:01  分类:SEO杂谈  999 浏览数 
更新周期

2.1.4  更新周期 由于网站的内容经常变化,因此蜘蛛也需要不断地更新其抓取网页的内容,这就需要蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。 更新周期对搜索引擎的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术上存在一定难度,而且会造成带宽、服务器的资源的浪费。目前一般的做法是:蜘蛛并不对所有的网站采用同一个周期进行更新——对于一些重要的、更...

阅读全文...Tags:

0

内容提取

作者:南京SEO  发表于:2012年04月19日 13:00  分类:SEO杂谈  1,032 浏览数 
内容提取

2.1.3  内容提取 对蜘蛛抓取的内容,搜索引擎需要进行一些处理,以便于索引,这个过程被称为内容提取。 搜索引擎能处理的信息主要是文本,但是蜘蛛抓取的内容除了文本之外,还包括图片、doc、pdf、多媒体、动态网页及其他格式等。在内容提取阶段,则需从这些不同类型的信息中提取文本。 1.对于HTML文档 HTML 的语法通过不同的标签来表示网页的结构和界面,在提取文本信息时,需要处理这些标签。要去除这些标签并非难事,用正则表达式就能轻松实现,然而这些标签实际上并...

阅读全文...Tags:

0

蜘蛛访问限制规则

作者:南京SEO  发表于:2012年04月19日 12:59  分类:SEO杂谈  1,103 浏览数 
蜘蛛访问限制规则

3.蜘蛛访问限制规则 现在的网站都希望搜索引擎能更全面地抓取自己网站的网页,因为图 2-1,这意味着更多的访问者能通过搜索引擎找到此网站。为了让网页更全面被抓取到,网站管理员可以建立一个站点地图文件(Site Map,把网站内部所有网页的链接放在这个文件里面)。许多蜘蛛会把 sitemap.htm 文件作为网页抓取的入口,很方便地把整个网站抓取下来,不仅可以避免遗漏某些网页,也会减少网站服务器的负荷。 有时,站长可能希望蜘蛛只抓取某些特定部分,而另一些内容则不...

阅读全文...Tags:

0

网络蜘蛛抓取规则(2)

作者:南京SEO  发表于:2012年04月19日 12:57  分类:SEO杂谈  1,080 浏览数 
网络蜘蛛抓取规则(2)

2.搜索引擎容量 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的。 从目前公布的数据来看,容量最大的搜索引擎也只能抓取整个互联网中40%左右的网页,主要原因如下: 现有的抓取技术无法遍历所有的网页,有许多网页无法从其他网页的链接中找到。 信息的存储技术存在瓶颈,如果按照每个页面的平均大小为20KB计算,100亿网页的容量是100×2000G字节。如此庞大的信息量,以目前的存储技术很难实现。 数据量太大时,搜索过程会受到搜索效率的影响。 因此,搜索引...

阅读全文...Tags:

0

网络蜘蛛抓取规则

作者:南京SEO  发表于:2012年04月19日 12:56  分类:SEO杂谈  1,113 浏览数 
网络蜘蛛抓取规则

网络蜘蛛抓取规则 1.广度优先和深度优先 在抓取的过程中可以采用两种方式:广度优先和深度优先。 (1)广度优先是指先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,以图 2-1所示的网页链接结构为例,蜘蛛的抓取顺序如下:   从A页面出发,首先抓取BCDEF页面。   从E页面出发,抓取H页面。   从F页面出发,抓取G页面。   从H页面出发,抓取I页面。  没有发现更多可抓取的页面,抓取过程结束。 广度优先是目前最常用...

阅读全文...Tags:

友情链接