那么谷歌评测搜索质量的系统如何呢?又是如何提高中国的搜索质量的呢?
【CSDN 专访】随着企业规模不断扩大,谷歌开始向多个领域进军,包括网络地图、数字图书馆、视频共享以及桌面软件等等。但是,谷歌赖以成名的及其战略中的重中之重仍然是搜索引擎。
谷歌从全球搜索80亿张网页,并从中“提取”用户需要的内容,正因为有了出色的搜索,谷歌在网络搜索市场遥遥领先于雅虎和微软等竞争对手,成为了访问量最大、利润最为丰厚、甚至最为强大的互联网公司。那么谷歌评测搜索质量的系统如何呢?又是如何提高中国的搜索质量的呢?记者采访了Google中国的工程师周健。周健是上海交通大学的硕士毕业生,曾经在2002年的全球ACM大赛中与其队友一起获得过大赛冠军。现在他主要负责Google搜索质量系统的完善和改进。
周健表示,Google的搜索索引分多层,加上服务器的配置、网宽等因素,某些搜索内容的更新是不可能同一时间完成的。因而谷歌根据索引规模的大小,更新时间从两三天到十天不等。
但这样的更新频率对中国用户来讲存在一些问题。类似“C++”关键词的搜索,可能三两天更新并不会影响太多,但是实时新闻类的搜索对及时性和搜索质量的要求很高。原来google主要通过两种方法来解决这个问题:一是比较简单和直接的从最新的新闻搜索中提取内容,提供给搜索用户。二是,一套复杂的算法来确保及时更新。
但对于并没有发生在主流媒体中的最新信息,如活跃社区中的某些热点事件,Google的搜索结果显得并不是特别及时。Google内部很早就有一套评测搜索质量的系统。因此,周健对原有的质量评测系统提出了一些修改意见,尤其是在更新率(fresh rate)上。因此,使用算法针对国内的情况,在“快速索引网站池”中又添加了很多社区网站,使得用户的搜索获得的结果更加有效。
周健告诉记者,某些网站的内容后面有“时间戳”,这样谷歌的算法也记录它们的页面更新时间,然后“总结”规律。依循这个规律,下一次地搜索既及时又不会浪费服务器的“探访”。
谷歌之前在中文网页方面的搜索质量和及时性一直不是很高,主要原因在于谷歌的顶级搜索技术专家多是国外的,且建立的全球搜索系统基本是基于英文的,很多习惯和技术细节方面不符合中文搜索。拿摘要中的高亮显示来说,英文的缩写多为首字母,而中文却非如此:中国银行的简称和缩写就是中行。
谷歌中国研发部为提高中文搜索质量做了少工作。如果单从质量方面来说,影响搜索质量最大的因素是算法的排序,所以谷歌中国对此做了一些改进。并在“搜索池”中加入很多中文网站以提高搜索速度。同样地,在谷歌原来搜索技术的基础上也在其他方面做了很多补充和完善,同时又保证不影响谷歌全球搜索系统的质量。
目前,谷歌在完善搜索技术的同时,也正通过算法和其他方法来提高用户的搜索体验,给用户更多的方便。如“sitelink”(谷歌内部称法),如果搜索的内容是常用网站,那么在最终返回的搜索页面中不但有这个网站和摘要,而且会有详细的分栏,如“科技”、“体育”等。
2007.06.04 来自:CSDN 王玉磊