几乎任何有抱负的通用搜索引擎,都怀揣着一个共同梦想:整合人类所有信息,并让大家以最便捷的方式获取所需。
对此,百度宣称:“让人们最便捷地获取信息,找到所求”;谷歌则表示:“整合全球信息,使人人皆可访问并从中受益”。二者表达的,实际上是同一个愿景。
然而,这注定是一项难以完成的任务。科学家估测,人类信息中大概只有0.2%实现了web化,且这一比例很可能持续降低。更严峻的是,即便在已web化的信息中,搜索引擎蜘蛛能抓取到的和不能抓取到的比例为1:500。
万里长征的第一步,便是应对“暗网”。所谓“暗网”,简言之,就是“搜索引擎抓取不到的网页数据”。点亮“暗网”早已被各大搜索引擎提上日程,显然,这将是一场持久战。
**“暗网”之谜**
1994年,学者Jill Ellsworth提出了“Invisible Web”(不可见网络,即暗网)这一新词汇,并给出定义:这些网站可能设计合理,但未被任何搜索引擎索引,以至于实际上无人能找到它们。
从信息量来看,与现在能够索引的数据相比,“暗网”要庞大得多。Bright Planet公司发布的《The Deep Web Surfacing The Hidden Value》(深层次网络,隐藏的价值)白皮书数据显示,“暗网”包含100亿个不重复的表单,其信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000到2000倍。更棘手的是,Bright Planet发现,无数网站越来越像孤立系统,似乎无意与其他网站共享信息。如此一来,“暗网”已成为互联网新信息增长的最大来源,也就是说,互联网正“越来越暗”。
当然,所谓“暗网”并非真的“不可见”,对于知道如何访问这些内容的人来说,它们是可见的。
**迎战“暗网”**
针对庞大的“暗网”,目前搜索业界通行两种策略:其一,构建更具针对性的“暗网”爬虫,以获取后台数据库;其二,与“暗网”网站合作,实现信息对接和上浮。
第一种策略贯穿搜索引擎的发展过程。百度产品部相关人士称,目前搜索引擎的升级和更新,大部分与“暗网”问题有关,只是普通用户难以察觉。
第二种策略似乎更有成效。无论是国外的谷歌、雅虎,还是国内的百度,都有针对性计划,用户也已体验到这些计划带来的变化。
**巨头的较劲**
股民刘先生最近在百度搜索股票代码时,发现搜索结果第一项便是该股票的K线图,以及当日成交量等信息。切换到谷歌,结果类似。这一技术,在百度被称为“阿拉丁”,在谷歌则叫“onebox”。
除股票外,在百度搜索英文单词、人民币汇率、天气预报、电视节目表等,网民都会有意外收获。在这方面,网民在百度的体验比谷歌更深。例如,在百度和谷歌中分别输入“天气”,百度会根据用户IP判断其所处位置,直接给出当地天气情况,而谷歌则在第一个结果中提供一个搜索框,让用户进一步查询。
显然,在用户体验上,百度占据上风。这得益于其上线不久的“搜索开放平台”,该平台是“阿拉丁”计划的一部分。其运作逻辑是:百度开放API接口,各大网站提交已结构化的数据,设定关键词、展示方式和位置,经百度审核后,当网民检索设定关键词时,自动触发机制,展示最直接的信息。
对比百度搜索开放平台和谷歌onebox,两者最大区别在于与网站的互动,前者更为充分。换言之,onebox更多是谷歌独自发力,而搜索开放平台则是百度与站长共同努力。据百度阿拉丁项目负责人透露,平台上线两个月以来,站长提交的资源数量超过3000个。
**搜索的变革**
在应对“暗网”的过程中,搜索引擎正在实现蜕变,无论是后台还是前台,这才是这场战役的真正意义。“搜索引擎越来越聪明了,它能看穿我的心思。”90后网民小龚说。他是球迷,平时最爱看意甲,一天在百度搜索“意甲射手榜”,“居然结果中直接就是榜单,让人意外。”
一位业内人士表示,搜索引擎试图让人们以最小成本获得最直接的信息,“哪怕少一次鼠标点击,也是巨大进步。”
有意思的是,随着百度搜索开放平台、谷歌onebox、雅虎Search Monkey等计划的推进,搜索结果变得“乱糟糟”——网页链接结果中总会夹杂着图片、新闻、视频,或图形、表格等信息。这种变革极大地提升了网民体验。
评论人士指出,这些计划将搜索引擎从“只读时代”带入了“可写时代”。或许未来,每个网站、每个用户,都有资格改变搜索引擎。