第一章 搜索引擎基础

上一章 目录 下一章
第一节 什么是搜索引擎
一、搜索引擎的作用
如果非要列举出搜索引擎能做什么,恐怕没有人可以给出完整的答案。那么搜索引擎到底在我们的生活中扮演着怎样的角色呢?以下是一些普通网民使用搜索引擎的过程,从中我们不难看出搜索引擎正在发挥着怎样的做用。
小张喜欢和朋友聊天,却经常被朋友口中冒出的一些新名词搞得头晕,又不太好意思经常问。昨天几个朋友闲聊,有人提到“导弹打卫星”,却是一带而过,小张有些犯迷糊了。晚上一回到家中,小张就打开电脑,上百度,搜索一下“导弹打卫星”,来龙去脉就一清二楚了。
重装了电脑,常用的 MP3 播放软件没有了。搜索一下“MP3 播放软件”,找到了一个叫“千千静听”的,好像和以前用的不一样啊。再搜索一下“千千静听”,发现大家对这个软件的评价挺高的,而且知道了这个 MP3播放软件还能自动下载歌词、显示歌词。搜索“千千静听官方网站”,去下载最新版本的软件了。
周五照例要和朋友小聚一下,可是每周聚会,吃来吃去就是那几个餐馆,都腻 味了。打开 Google,试试看本搜索。搜索“南京川菜”,一下子出来几百个结果, 好多都是没有听说过的餐馆。本搜索还有图,把查找范围缩小到家附近,这样吃完饭回家就方便了。
小李是个旅游爱好者,每年五一长假都要和朋友们一起出游。可是随着黄金周旅游越来越火爆,一般景点五一期间简直是人头碰人头,根本不能去。春节一过,小李就开始琢磨今年的五一计划了,一定要着一个风景不错,又不是那么商业化的方。往边远区找吧。搜索“贵州户外旅游”,找到当一家不错的户外俱乐部网站,上他们的论坛泡泡,再咨询咨询,很快,小李就确定了一条位于黔东南的背包游线路。在制定具体计划的过程中,一些交通衔接的问题有点麻烦。小李又在百度知道和新浪爱问提了一些问题,很快就得到了满意的回答。
老吴是个摄影爱好者,最近一直想买一个新的数码单反相机。那天咖啡馆取阅的杂志上看到一款佳能新型号相机的广告,漂亮的外观和看上去不错的功能参数让老吴有点心动了。老吴用记下了这款产品的型号,回家直接用百度搜索一下,再阅读了几百篇关于这款相机的使用心得和测评文章后,老吴终于决定出手了。不过老吴可没有直奔商店,而是通过比价搜索引擎找到了最便宜的网上商店购买,比商场卖了便宜了将近 1000元。
小王今年高考,填报志愿的事情让父母犯了愁。小王平时成绩算是中等,而且 他一定要去北京读大学。虽然清华北大大家都很熟悉,却不是小王的成绩能达到的,而其他学校大家就都不熟悉了。父母想知道北京其它高校的教学水平、学习风气以及生活条件,说要专门去趟北京考察考察。小王劝住了父母,打开电脑,搜索“北京 大学”,一下子北京各大高校的网站出现在面前。小王和父母把这些网站的内容仔仔细细的看了一遍,还分析了一些感兴趣的学校往年的考分情况,基本上心中有数了。
小赵所在的公司原来提供某个配件的供应商出了一些问题,不能继续提供配件了,老板急得团团转。小赵通过搜索引擎找到了十多家具有生产这种配件能力厂家,很快就落实了新的供应商。
搜索引擎已经成为广大网民日常生活中不可缺少的重要部分。中国互联网信息中心 (CNNIC)2007 年第二十次调查报告显示:搜索引擎以74.8%的比率已经成为中国网民最常使用的网络服务之一。详细数据见下表:
表 1-1-1 网民使用网络的功能及其所占比例
互联网功能 使用者占网民的比例
浏览新闻 77.3%
获取信息 76.3%
搜索引擎 74.8%
即时通信 69.8%
网络音乐 68.5%
网络影视 61.1%
收发邮件 55.4%
网络游戏 47.0%
网络购物 25.5%
网络教育 24.0%
网上银行 20.9%
博客 19.1%
网络求职 15.2%
网上炒股 14.1%
网络销售 4.3%
网上旅行预订 3.9%
二、搜索引擎的定义
给搜索引擎下一个定义是非常困难的。一千个人就有一千个搜索引擎:有人认为搜索引擎就是百度,有人认为搜索引擎就是Google,有人认为搜索引擎就是Yahoo 。
如果非要给个定义,就让我们来看看微软大百科全书(MSN Encarta)是怎么定义搜索
引擎的吧:
Search Engine, software program that helps users find information stored on a personal
computer, or a network of computers, such as the Internet. A user enters search terms,
typically by typing a keyword or phrase, and the search engine retrieves a list of World
Wide Web (WWW )sites, personal computer files, or documents, either by scanning
the content stored on the computers or computer networks being searched or by parsing
(analyzing) an index of their stored data.
搜索引擎是帮助用户查找存储在个人电脑、计算机网络如互联网上的信息的软 件序。用户输入搜索项目,通常是通过录入一个关键词或短语,搜索引擎通过扫描被搜索的计算机和计算机网络,或者分解(分析)它们数据的索引,返回万维网站点、个人电脑文件或文档的列表。
这个定义可能越看越模糊,那么以下章节的内容将会让你清晰认识搜索引擎。
第二节 搜索引擎的基本工作原理
现在互联网上存在的网页数量是数以百亿千亿计的,这些网站存储在不同的服务器上,
分布在世界各的数据中心和机房。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。一方面原因是抓取技术存在瓶颈,无法遍历所有网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面平均大小 20K 计算(包含图片),100亿网页的容量是 100×2000G 字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K 计算,需要 340 台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而评价重要性的主要依据是某个网页的链接深度。
有人会认为搜索引擎在接收到搜索请求时,会实时从全球所有的服务器上查询信息, 并把查询结果展示在用户面前,这其实是一种误解。如果搜索引擎是这样工作的,那么查询 一条信息可能要等上好几年才能得到搜索结果,这还不包括期间网页发生的变化。
实际上,搜索引擎会预先去拜访大量的网站,并把这些网页的部分信息预先存储在自己的服务器上,这样,当用户搜索的时候,其实是在搜索引擎自己的服务器中进行查询,就像我们在自己的电脑中查询文件一样。
搜索引擎是非常复杂的技术,但是其基本原理并不复杂,其基本技术包括抓取、索引、
排序。
一、抓取
搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。
二、索引
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在
URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页
的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字
中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
三、排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由检索器将搜索结果的链接址和页面内容摘要等内容组织起来,返回给用户。 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.xiaoshuodaquan.com
第三节 搜索引擎的分类
按照不同的技术特点,可以把搜索引擎分为网页级搜索、垂直搜索、元搜索引擎、目录搜索和集成搜索等五类。
一、网页级搜索
网页级搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Yahoo、MSN Live
Search、Ask,国内著名的有百度、搜狗等。它们都是通过从互联网上提取的各个网站的信
息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定
的排列顺序将结果返回给用户。网页级搜索引擎也是目前常规意义上的搜索引擎。
二、垂直搜索 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸。它将网页库中某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理,然后再以某种形式返回给用户。
垂直搜索引擎与普通网页搜索引擎的最大区别是对网页信息进行了结构化抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引,再以搜索的方式满足用户的需求。可以这样说,网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。
各大搜索引擎都有自身的垂直搜索功能,比如 MP3 搜索、图片搜索、新闻搜索、Blog
搜索等。独立的垂直搜索网站也受到有相关兴趣的用户的青睐,比如旅游搜索引擎、商业搜
索引擎、比价搜索引擎等。
三、元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。元搜索引擎并不直接抓取网页,而是抓取多个搜索引擎的索引数据库,并根据自己的算法对抓取结果重新筛选排序。
虽然说元搜索引擎综合了多个搜索引擎的结果,但由于是建立在其他搜索引擎基础之
上,自身的排序算法也难以得到认可,所以一直没有特别的影响力。
比较知名的元搜索引擎有Dogpile (www.xiaoshuodaquan.com )、Vivisimo (www.xiaoshuodaquan.com )、比比猫(www.xiaoshuodaquan.com )等。
四、目录搜索
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分
类的网站链接列表,并提供站内搜索而已。用户完全可以不用进行关键词查询,仅靠分类目
录也可找到需要的信息。
Yahoo 和搜狐都提供分类目录功能,其它知名的目录还有 DMOZ (www.xiaoshuodaquan.com )、Looksmart (www.xiaoshuodaquan.com )等。
五、集成搜索
集成搜索算不上是搜索引擎,只是运用了一定的网页技术,把多个搜索引擎的搜索功能整合在一个搜索页面,并对各个搜索引擎的功能进行分类,方便用户在多个搜索引擎的搜索结果中进行比较和选择。部分集成搜索甚至没有对用户的搜索请求做出任何记录。所以,集成搜索更像一个在线的、集合了多个搜索引擎入口的软件,而不是搜索引擎。
国内有很多集成搜索的网站,如优客搜索(www.xiaoshuodaquan.com )。
第四节 搜索引擎的未来
随着计算机和互联网应用的普及,大众对搜索的要求也越来越高,人们期望搜索引擎的速度更快、返回结果更准确、可以搜索的内容更丰富、更加智能化和个性化。
一、快速化
速度的提高是现在各个搜索引擎都在努力达到的目标。快不仅仅是指搜索引擎返回结果的速度,更是指搜索引擎获取新信息的速度。现在博客和论坛已经成为信息最重要的来源, 一条爆炸性的新闻很可能来自某个人博客,而不是知名媒体。
二、多样化
多样化主要包括两个方面:内容多样化和搜索途径多样化。
内容多样化 除文字之外还包括图片、音频、视频内容的搜索。
搜索途径多样化 可以通过语音指令、动作指令、甚至是思维指令进行搜索。
三、智能化
语义输入 可以通过输入自然语言来查找结果,就像在问朋友问题。比方说,“第一个
登上太空的中国宇航员是谁?”这是很多搜索引擎研究的防线。虽然如www.xiaoshuodaquan.com 一直宣称自己是提问式搜索,但实际上并不能完全做到和用户的自然对话。
互动功能 逐层缩小搜索范围,使用户更快更准找到所需信息。目前有些搜索引擎已实现了部分互动性。
相关搜索 在用户搜索过程中结合大量其他用户的搜索习惯统计,给出可能用户要查找的内容,引导和启发搜索者找到想要找的内容。
四、社会化
有人把社会化搜索称作“搜索人脑”。搜索引擎借助对大量用户的粘性,提供用户提问
的功能,而这一提问的回答者不是搜索引擎本身,而是其他所有看到这一问题的用户。通过
大量用户的群策群力,以及对应的专业人士的帮助,这些问题往往能得到比较好的解答。比 如新浪的爱问、百度知道等都属于社会化搜索的范畴。
目前,社会化搜索的不足是还不能对回答内容的准确性进行评价,只能依靠提问者自己的判断。另外问题不能及时得到解答也会影响用户的耐心。
五、个性化
因为每个用户的喜好、目的不同,对搜索结果的期待就有很大差异。比如同样是搜索“绿茶”,有人希望查找“绿茶”的商品信息,有人则是要找一部叫《绿茶》的电影。
所以现在很多搜索引擎开始建议用户注册登录,比如 Google 和 Yahoo,这样用户的搜索习惯就会被搜索引擎记录和分析。如果你经常查询电影的相关资料,那你下次输入“绿茶”的时候,返回结果中《绿茶》电影的信息就会出现在靠前的位置了。
个性化搜索对用户搜索习惯的数据收集有很高的要求,不过在某种程度上,又涉及到用户的**问题。
第五节 主要搜索引擎介绍
一、Google
1、关于Google
“Google”来源于“Googol”,这是一个数学名词,表示一个 “1” 后面跟着 100 个
“0”。这个词是由美国数学家Edward Kasner 的外甥Milton Sirotta 创造的,随后通过Kasner
和James Newman 合著的“Mathematics and the Imagination”(《数学与想象力》)一书广为
流传。Google 使用这一术语体现了公司整合网上海量信息的远大目标。
Google 的使命是整合全球信息,使人人皆可访问并从中受益。完成该使命的第一步始于 Google 创始人 Larry Page 和 Sergey Brin,他们在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,然后迅速传播给全球的信息搜索者。目前 Google 被公认为全球规模最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间得到相关的搜索结果。
访问 www.xiaoshuodaquan.com 或众多 Google 域之一时,用户可以使用多种语言查找信息,查看股价、图和要闻,查找美国境内所有城市的电话簿名单,搜索数十亿计的图片并详读全球最大的Usenet 信息存档——超过十亿条帖子,发布日期可以追溯到 1981 年。
用户甚至不必特意访问Google 主页,也可以访问所有这些信息。使用Google 工具栏,
用户可以从网上的任何位置执行 Google 搜索,而 Google 桌面栏(测试版)将 Google 搜索框放在 Windows 任务栏中,这样用户可以从任何正在使用的应用程序中执行搜索,而不必打开浏览器。即使身边没有PC 机时,用户也可以通过WAP 和i-mode 手机等无线平台使用Google。Google 的实用性及便利性赢得了众多用户的青睐,它几乎完全是在用户的交口称颂下成为全球最知名的品牌之一的。
作为一个企业,Google 通过提供广告服务来获取收入,使广告客户能够刊登与特定网页内容相关、重要而又经济实效的在线广告。这不仅为用户提供了实用的广告信息,同时也给刊登广告的客户带来了好处。Google 认为,搜索用户应该知晓在他们面前展示的讯息是自然排名还是付费信息,因此始终在搜索结果或网页上将广告与其他内容区分开来。Google不出售搜索结果中的排名,也不允许有人通过付费来提高在搜索结果中的排名。
成千上万的广告客户加入了Google AdWords 计划,利用定位广告在网上推广他们的产品和服务,可以相信 AdWords 是同类计划中规模最大的一个。此外,成千上万的网站管理人员利用Google AdSense 计划刊登与其网站内容相关的广告,增加收入并改善用户体验。
Google 是全球最大的搜索引擎,借助和America Online、Netscape 及其他公司的合作伙伴关系,它所回应的查询远远多于其他在线服务商。
www.xiaoshuodaquan.com 是互联网上5 大最受欢迎的网站之一,在全球范围内拥有无数的用户。
Google 是阿根挺、澳大利亚、比利时、巴西、加拿大、丹麦、法国、德国、印度、意大利、墨西哥、西班牙、瑞典、瑞士、英国和美国的头号搜索引擎(根据 Nielsen//NetRatings
05 年 6 月调查报告唯一身份访问者总数结果)。
每月全球唯一身份用户:3 亿 8000 万(Nielsen/NetRatings,05 年 8 月调查报告)。
全球受众:超过百分之五十的点击量来自美国境外。
Google 在硅谷和全球各拥有最顶尖的技术人员和业务专家。截止到 2005 年 12 月31日,共有5,680 名全职员工,其中许多是技术人员或工程师。
2、Google 技术
Google 秉持着开发“完美的搜索引擎”的信念,在业界独树一帜。所谓完美的搜索引擎,就如公司创始人之一Larry Page 所定义的那样,可以“确解用户之意,切返用户之需”。为了实现这一目标,Google 坚持不懈追求创新,而不受现有模型的限制。为此,Google开发了自己的服务基础结构和具有突破性的PageRank(TM)技术,使得搜索方式发生了根本性变化。

Google 的开发人员从一开始就意识到,要以最快的速度提供最精确的搜索结果,就需要一种全新的服务器设置。大多数的搜索引擎依靠少量大型服务器,这样,在访问高峰期速度就会减慢,而 Google 却利用相互链接的 PC 来快速查找每个搜索的答案。这一创新技术成功缩短了响应时间,提高了可扩展性,并降低了成本。这也是其他公司一直在效仿的技术。与此同时,Google 从未停止过对其后端技术的改进,以使其技术效率更高。
Google 搜索技术所依托的软件可以同时进行一系列的运算,且只需片刻即可完成所有
运算,而传统的搜索引擎在很大程度上取决于文字在网页上出现的频率。Google 使用PageRank(TM)技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 可以将最相关最可靠的搜索结果放在首位。
PageRank 技术 通过对由超过 5 亿个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性作出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页A 对网页 B 所投的一票。这样,PageRank 会根据网页B 所收到的投票数量来评估该页的重要性。
此外,PageRank 还会评估每个投票网页的重要性,某些网页的投票被认为具有较高的价值,它所链接的网页就能获得较高的价值。重要网页获得的PageRank 值较高,从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性,搜索结果没有人工干预或操纵,不受付费排名影响。这也是 Google 成为一个公正客观、并且广受用户信赖的信息来源的重要原因。
超文本匹配分析 Google 的搜索引擎同时也分析网页内容。然而,Google 的技术并不采用单纯扫描基于网页的文本这一方式(网站发布商可以通过元标记控制这类文本),而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。Google 同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。
Google 的创新并不限于台式机 为了确保通过便携式设备访问网络的用户能够快速获得精确的搜索结果,Google 还率先推出了业界第一款无线搜索技术,将 HTML 即时转换为针对WAP、i-mode、J-SKY 和EZWeb 优化的格式。
3、Google 的搜索过程
Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,
然后才能将搜索结果交付给搜索信息的用户。
4、Google AdWords
Google AdWords 是Google 提供的搜索引擎关键词广告,采用按点击付费方式的网络广告模式,只有当用户点击广告时广告主才支付广告费用。 搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.xiaoshuodaquan.com
Google AdWords 的表现形式是这样的:当用户用某个关键词在Google 进行检索时(例
如“鲜花”),在搜索结果页面右侧会出现与鲜花这一关键词相关的广告(如果有公司购买这
一关键词广告的话)。广告的显示顺序取决于广告主愿意为每次点击支付的价格,比如广告
主A 愿意为每次点击支付 1 元,而广告主 B 愿意支付 1.2 元,那么广告主 B 就会排在广告主A 的前面。
当然,出价并不是影响Google AdWords 排名的唯一因素,广告点击率等也会对广告排名产生影响,但是总体还是以单次点击的出价为主。
Google 关键词广告出现在搜索结果的右侧,并明显标注有“赞助商链接”字样,在每页搜索结果中最多显示 8 条Google AdWords 关键词广告信息。
Google 严格区分自然排名和广告,一般用户能一目了然分辨,这也是Google 能吸引如此众多用户的原因之一。
Google AdWords 是Google 最主要的收入来源,虽然每次点击带来的收入可能只有几个美分,每个客户带来的价值可能只是几百美金,但是不容忽视的是,Google AdWords 的全球客户数量是相当可观的。
5、Google AdSence
Google AdSense 是一种获取收入的快速简便的方法,适合于各种规模的网站发布商。
它可以在网站的内容网页上展示相关性较高的 Google 广告,并且这些广告不会过分夸张醒
目。由于所展示的广告同用户在你的网站上查找的内容相关,因此,最终你的内容网页不仅会为你带来经济效益,还能够得以充实。
另外,网站发布商还可以利用AdSense 向自己的网站用户提供Google 搜索功能,并通过在搜索结果页展示Google 广告获得收入。
这一免费计划将按点击次数付费的广告和按展示次数付费的广告相结合——也就是说,网站上或搜索结果页中广告的有效点击次数,以及内容网页上的展示次数都会为你带来收入。你只需填写在线申请,并在AdSense for content 和AdSense for search 中选择一种,或两种都选。申请一个产品即可获得AdSense 和AdSense for search 这两者的批准,可在自己的网页上使用这些产品的任意组合。
6、谷歌:Google 中国
Google 全球中文名称为“谷歌”,2006 年 4 月 12 日由Google 公司 CEO Eric Schmidt在中国北京发布。根据新闻发布,“谷歌”的意思解作“山谷之歌”(亦解作“丰盛之歌”),另外,该公司也希望能够获得五谷丰登般的成就。
易观国际对中国搜索引擎市场2007 年第2 季度的最近监测研究表明,不计渠道收入,
2007 年第2 季度,搜索引擎厂商收入为 6.575 亿元,其中谷歌的市场份额从上季度的 18.7% 上升到22.8%。总结Google2006 年下半年至今的举措可以看到Google 本土化的努力。
技术产品改进 Google 陆续推出包括图书搜索、谷歌图、热榜、谷歌金融、导航等产品,推出搜索提示、翻译功能等中文网业。这些都属于 Google “整合搜索”战略的一部分(谷歌的“整合搜索”战略是力图利用自己的技术,通过智能分析和导航系统,把信息、新闻、图等不同搜索领域结合起来,呈现给用户)。
渠道布局 谷歌在中国市场,不再坚持全国总代模式,开始发展区域代理,经过一年多的时间,谷歌在全国近20 个城市发展了20 多家授权经销商,销售能力提高。
多方面的本合作 谷歌正通过资本并购、合作捆绑、结盟门户网站等形式来提升在华综合实力,包括与中国移动、中国电信、腾迅、新浪、Flashget、暴风影音合作,以及对迅雷、天涯等战略投资。通过合作,谷歌吸纳了异业资源,为开展新业务打基础。
通过上述本化措施,谷歌在中国搜索引擎市场的份额逐渐提高,根据易观国际的研究,谷歌的市场份额从06 年 1 季度的 13.2%提高到目前的22.8%,增加9.6 个百分点。
二、Yahoo
1、关于Yahoo
90 年代初,搜索引擎的应用起源于少数高校和科研机构中对研究论文的查找。1994 年
4 月,美国斯坦福大学电机工程系的博士生大卫•费罗(David Filo )和杨致远(Jerry Yang )
建立了自己的网络指南信息库,将其作为记录他们个人对互联网的兴趣的一种方式。这就是
Yahoo 的前身。
但是不久,他们就发现他们自己编写的列表变得很长,不便于处理。于是他们开始在
Yahoo 身上花费越来越多的时间。
随后,他们将Yahoo 变成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户的需要。他们开发了可定制的软件,帮助他们有效查找、识别和编辑互联网上存储的资料。
不久后,David Filo 和杨致远共同创办了雅虎,通过著名的雅虎目录为用户提供导航服务。雅虎目录有近 100 万个分类页面,14 个国家和区当语言的专门目录,包括英语、
汉语、丹麦语、法语、德语、日语、韩文、西班牙语等。雅虎目录已成为最常用的在线检索
工具之一,并成功使搜索引擎的概念深入人心。
随着网页数量的增长和用户对关键词查询的需要,从 1996 年到2004 年,雅虎先后选用AltaVista、Inktomi、Google 等第三方的搜索引擎作为自己网页搜索的后台服务提供商。
YST 是雅虎搜索技术(Yahoo ! Search Technology)的简称。2003 年,雅虎公司斥资近20 亿美金收购 Inktomi、Overture、Alta Vista、Fast 四家国际知名搜索服务商,经过数百名工程师一年的开发打磨,于 2004 年 2 月正式推出了国际领先的搜索引擎。雅虎 2004 年 2 月宣布中断与Google 的合作,在全球范围内转而采用YST 。
进入 2005 年后,雅虎搜索逐步确立了社区化搜索(Social Search)的策略,将积极发挥全球庞大的注册用户群来积累大批高质量内容和元数据(Meta Data),从而改善用户的搜索体验。在这种策略下,雅虎不断推出新的社区化搜索服务,例如:“知识堂”、“收藏+”等,并收购了著名的照片共享网站Flickr 和社会书签网站 www.xiaoshuodaquan.com,进行产品上的优势互补。雅虎搜索以人为本的理念(Better Search Through People )开始引领新的潮流。
2、YST 技术
YST 是一个涵盖全球 100 多亿网页的强大资料库,是拥有数十项技术专利和近万台服务器的分布式集群架构,支持38 种语言,服务全球 50%以上网友的搜索需求。

雅虎网页搜索引擎的基本技术原理如下:
首先,搜索引擎会建立一个网页图(Webmap ),记录互联网的链接结构,再使用网页抓取程序(Robot )根据网页图来抓取(Crawl)质量好的网页,存储到网页快照数据库中。
接下来,索引程序(Indexer)会将快照数据库中的网页编号存储到网页索引数据库中,在这个过程中,会利用相关技术去掉作弊网页(Spam)。
当用户输入一个查询词搜索时,查询程序会使用这个查询词到索引数据库中比较,经过相关性计算后,按照相关程度对网页进行排序,相关性越高的排得越靠前。相关性的计算是包括各种因素的综合结果,例如:网站标题或网页内容对查询词的匹配、网页被链接的次数等。
3、雅虎中国
雅虎在全球共有24 个网站,12 种语言版本,其中雅虎中国网站(www.xiaoshuodaquan.com.cn )
于 1999 年9 月正式开通,它是雅虎在全球的第20 个网站。
2003 年 11 月21 日,雅虎中国收购3721 公司,获得了网络实名的相关技术和巨大的分销渠道。随后,雅虎中国推出了独立域名的搜索引擎“一搜”(www.xiaoshuodaquan.com )。
2005 年 8 月 11 日,阿里巴巴收购雅虎中国,并整合原先的产品,推出了“雅虎百业窗”。
2007 年3 月底,雅虎中国重新推出了www.xiaoshuodaquan.com 并改名“易搜”。
三、百度
1、关于百度
百度,2000 年 1 月创立于北京中关村,是全球最大的中文搜索引擎。
2000 年 1 月 1 日,公司创始人李彦宏、徐勇携120 万美元风险投资,从美国硅谷回国,创建了百度公司。创立之初,百度就将自己的目标定位于打造中国人自己的中文搜索引擎,并愿为此目标不懈努力奋斗。
2000 年 5 月,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001 年 8 月,发布 www.xiaoshuodaquan.com 搜索引擎 Beta 版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年 10 月22 日正式发布Baidu 搜索引擎。
2005 年 8 月5 日,百度在美国纳斯达克上市,成为2005 年全球资本市场上最为引人注目的上市公司,百度由此进入一个崭新的发展阶段。
七年来,百度一直孜孜不倦追求技术创新,依托于博大精深的中文智慧,致力于为用户提供“简单,可依赖”的互联网搜索服务。
百度每天响应来自 138 个国家超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过 10 亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。
同时,用户不必访问百度主页,也可以搜索信息。超过3 万个搜索联盟会员,通过各种方式将百度搜索结合到自己的网站,使用户在上网的任何时候都能进行百度搜索。百度还提供WAP 与PDA 搜索服务,即使身边没有PC 机,用户也可以通过手机或掌上电脑等无线平台进行百度搜索。
百度一直致力于倾听、挖掘与满足中国网民的需求,秉承“用户体验至上”的理念,除网页搜索外,还提供 MP3、文档、图、传情、影视等多样化的搜索服务,率先创造了以贴吧、知道、百科、空间为代表的搜索社区,将无数网民头脑中的智慧融入了搜索。“百度一下”已经成为了人们进行搜索的新动词。
百度还为各类企业提供竞价排名以及关联广告服务。每个月,有超过5 千家的企业通过百度获得商机,5 万家企业使用百度竞价排名服务,超过300 家大型企业使用百度搜索广告服务。
2、关于李彦宏
1991 年毕业于北京大学信息管理专业,随后赴美国布法罗纽约州立大学完成计算机科学硕士学位。在美国的 8 年间,李彦宏先生先后担任了道•琼斯公司高级顾问,《华尔街日报》网络版实时金融信息系统设计者,以及国际知名互联网企业 INFOSEEK 资深工程师,是新一代互联网技术领域的权威专家。他为道*琼斯公司设计的实时金融系统,迄今仍被广泛应用于华尔街各大公司的网站,其中包括《华尔街日报》的网络版。
李彦宏最先创建了ESP 技术,并将它成功的应用于INFOSEEK/www.xiaoshuodaquan.com 的搜索引擎中。www.xiaoshuodaquan.com 的图像搜索引擎是他的另一项极其具有应用价值的技术创新。
1996 年,他首先解决了如何将基于网页质量的排序与基于相关性排序完美结合的问题,并因此获得了美国专利。
1998 年,根据在硅谷工作以及生活的经验,在大陆出版了《硅谷商战》一书,获得了各界的好评。
1999 年底,携风险投资回国与好友徐勇先生共同创建百度。
2001 年被评选为“中国十大创业新锐”之一。
2002 年、2003 年荣获首届、第二届“IT 十大风云人物”称号。
2004 年 1 月 15 日,当选第二届“京城十三新锐”。
2004 年4 月,当选第二届“中国软件十大杰出青年”。
2005 年 1 月,当选全国青联委员。
2005 年 8 月23 日,荣获第十二届“东盟青年奖”。
2005 年 12 月28 日,荣获“CCTV2005 中国经济年度人物”。
2006 年 12 月 10 日,当选美国《商业周刊》2006 年全球“最佳商业领袖”。
四、搜狗
搜狗是搜狐公司于2004 年 8 月3 日推出的全球首个第三代互动式中文搜索引擎,域名为www.xiaoshuodaquan.com。搜狗以搜索技术为核心,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。
搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、图片、新闻、图领域提供垂直搜索服务,通过“说吧”建立用户间的搜索型社区;桌面应用则旨在提升用户的使用体验:搜狗工具条帮助用户快速启动搜索,拼音输入法帮助用户更快速输入,PXP 加速引擎帮助用户更流畅享受在线音视频直播、点播服务。
搜狗网页搜索作为搜狗最核心的产品,经过两年半持续不断的优化改进,于 2007 年 1月 1 日正式推出3.0 版本。全面升级的搜狗网页搜索 3.0 凭借自主研发的服务器集群并行抓取技术,成为全球首个中文网页收录量达到 100 亿的搜索引擎;加上每天 5 亿网页的更新速度、独一无二的搜狗网页评级体系,这些确保了搜狗网页搜索在海量、及时、精准三大基本指标上的全面领先。
搜狗的其他搜索产品也各有特色。音乐搜索小于 2%的死链率,图片搜索独特的组图浏览功能,新闻搜索及时反映互联网热点事件的看热闹首页,图搜索的全国无缝漫游功能, 使得搜狗的搜索产品线极大满足了用户的需求,体现了搜狗强大的研发能力。
搜狗在产品研发的过程中追求技术创新。尤其值得一提的是,搜狗以一种人工智能的新算法,分析和理解用户可能的查询意图,对不同的搜索结果进行分类,对相同的搜索结果进行聚类,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容。该技术全面应用到了搜狗网页搜索、音乐搜索、图片搜索、新闻搜索、图搜索等服务中,帮助用户快速找到所需的搜索结果。这一技术也使得搜狗的问世标志了全球首个第三代互动式中文搜索引擎诞生,是搜索技术发展史上的重要里程碑。
基于搜索技术,搜狗还推出了若干桌面应用产品。搜狗工具条是用户快速执行搜索的入口,同时集成了RSS 订阅、文件下载加速、广告拦截、网页评级显示等丰富的功能。拼音输入法利用先进的搜索引擎技术,通过对海量互联网页面的统计和对互联网上新词热词的分析,使得首选词准确率领先于其他输入法。PXP 加速引擎是一套基于 PXP 技术的互联网音视频直播和点播解决方案,能够支持内容和服务提供方以很少的带宽同时为上万用户提供流畅的视频服务。
设想一个用户在搜狗的使用体验:
通过拼音输入法,大幅提升了输入速度;
通过网址导航和工具条,直达目标网站或快速启动搜索;
通过网页搜索,从百亿中文网页中找到最相关的信息;
通过音乐搜索、图片搜索、新闻搜索、图搜索等专项搜索,满足特定的查找需求;
通过说吧平台,和天南海北的用户交流信息;
通过PXP 加速引擎,更快下载文件,更流畅享受在线音视频直播、点播服务。
可见,搜狗的全线产品,针对用户访问互联网过程中信息获取不畅的情况,在多个环节提供服务,把新、快、全、准的优质信息提供给用户,提升了用户访问互联网的体验。可以说,搜狗——更懂网络。
五、中文搜索引擎列表
表 1-5-1 中文搜索引擎列表
名 称 网 址 所用技术
百 度 www.xiaoshuodaquan.com 百 度
谷 歌 www.xiaoshuodaquan.com Google
雅虎中文 www.xiaoshuodaquan.com Yahoo
易 搜 www.xiaoshuodaquan.com Yahoo
有 道 www.xiaoshuodaquan.com 网 易
SOSO www.xiaoshuodaquan.com Google
爱 问 www.xiaoshuodaquan.com Google
搜 狗 www.xiaoshuodaquan.com 搜 狗
书书网手机版 m.1pwx.com