刘建国这位与李彦宏一起创立百度的“技术新官僚”,对搜索引擎技术运用的思考,在一定程度上体现了这个新上市公司的商业方向及这个团队的技术想象力。
采访中,刘建国不断接到要求解封的“作弊网站”的电话,大多是熟人才会直接将电话打到他这里,或是打给李彦宏。采访由此而展开。
反作弊是我们的技术
《21世纪》:李彦宏选择搜索引擎作为百度的主业,当时是怎么确定的?
刘建国:2000年之前,中国有许多搜索引擎公司,Goyoyo是香港一个公司做的;科学院有一个网站,还有北大天网。当时创立公司时搜索引擎已经很多了。我们机会在哪里?在当时我和李彦宏的通信中,他说要做就做最好的。当时已有的搜索引擎速度慢,索引小,用户体验很差。我们都认为做一个中文搜索引擎有很大前景,所以我就从北大出来,跟李彦宏一起创业了。
《21世纪》:现在来看,当时搜索的核心技术是什么?
刘建国:分成好几块,一块是网页抓取,由蜘蛛程序选择、抓取互联网中的网页,还要持续不断地更新网页,将过期的网页剔除掉;二是超链分析和内容分析;三是针对用户的搜索服务:如何处理海量数据和大规模的用户访问?如何提供稳定的服务?有很多技术问题需要解决。
《21世纪》:你们是一帮人在做?
刘建国:好多个组,重点是相关性的评价。哪些网页是用户想要的?后面就有好多技术;比如超链分析;这里有李彦宏的专利。超链在Infoseek之前就有成熟的技术,李彦宏在那儿工作时就研究得很细,但我们没有仅用这套方法,而是根据当时搜索引擎全球的发展做了改进。
《21世纪》:百度在相关性方面有什么特色?
刘建国:有两个基本方面:超链分析和内容分析。我们这帮技术人员,包括李彦宏,根据搜索引擎当时的技术发展,做出了一套百度自己的超链分析系统。另外还得分析网页内容,比如中文处理就很重要,要理解中文的语法和特定文字意义,因为中文与英文还是不一样的,只有判断文字是什么意思,才能给用户提供搜索结果。
《21世纪》:“欺骗搜索”是什么意思?你们有什么独特的技术来对付它?
刘建国:就是所谓的网络优化,比如SEO之类,链接一些域名,好象链接很多,但实际上是人为做出来的。还有一些链接,就是专门帮别人做链接,这也是超链分析。你不是链接分析吗?专门针对你。还有一些网站,专门给别人做,相关度也高,我们必须发现哪些是LINKFORM,然后分析出来。
《21世纪》:这如何看得出来?有简单工具吗?
刘建国:我们已经可以通过技术手段及时发现这种欺骗或者叫作弊。是否作弊,有一个很简单的标准:用户看到的内容和搜索引擎看到的内容是否一致?前一段搜索“芙蓉姐姐”,进去之后很多是买手机的,买其他信息,这就是作弊。我们就分析,他们是通过什么方法来“欺骗搜索”。比如LINKFARM,我们靠技术发现出来,它已经“堆砌关键词”了,我们看出它是作弊的,我就不要它。这就是为何后来反弹这么大,有了“反百度联盟”的原因。有“反百度联盟”成员说,你为什么屏蔽我?前一段搜狐网的一个峰会,一个医药网的说我们很好啊,你为什么把我给封了?它的“堆砌”是作弊的,如果我们把它放开,对用户是一种欺骗。
《21世纪》:比如在百度搜“芙蓉姐姐”,你们把有些“芙蓉姐姐”链接给屏蔽了,那就不能给用户提供更多的结果了?
刘建国:是更准确,比如用户到这里来搜,得到的是真正的“芙蓉姐姐”而不是手机铃声。这样做的目的是给用户很好的用户体验。
《21世纪》:在反作弊技术里,有什么可以明确识别作弊?
刘建国:比如,来回互相链接、堆砌关键词等。还有前景色和背景色完全一致,在HTML里面,用户看不见,可以骗搜索引擎,就这样骗用户。
《21世纪》:仅仅背景色也可以用来作弊?
刘建国:背景是黑色的,搜索看见的仅仅是内容,是看不到背景的。前景与后景一样,机器看不着,人能看出来,景色也是识别的因素。其中的文字就是有些网站想欺骗的东西。有很多方法作弊,层出不穷的。搜索与作弊网站是永远不会结束的战争。
《21世纪》:有没有可以“招安”的作弊网站?
刘建国:不会的。他们的利益很大,骗一点是一点,不会到这里来做。
《21世纪》:有多少这样的网站?
刘建国:每天碰到成千这样的网站。
《21世纪》:他们到哪里拉客户?
刘建国:不一定拉客户,他们可以自己做铃声、短信,SEO会拉企业,给钱,我给你排位。
另一个“敌人”是Google吗?
《21世纪》:与Google的反作弊比,你们有什么优势?
刘建国:说Google的技术比我们好,我不认同,他们主要是不够集中。比如反作弊的,Google中文就做不过我们,这有技术问题,还有人力,要知道作弊惯用的手法,而Google不知道。这个模式我们比Google发展得更快,我们更接近用户。我们中文的理解做得比他们好,比如像分词、切词,中文是一个一个字,放一块儿,那些字和词是不一样的。我做得比Google好。他们没有专门研究中文。
《21世纪》:你们是用自己的技术?
刘建国:是的。我们中文分词,这个技术里面没有英文,中文本身的处理我们已经到位,还有语法的应用,我们做得很好。语法是主谓宾,如何用,老外不理解。
《21世纪》:你们用以前的文字识别技术吗?
刘建国:对中文我们有一套独特的做法,现在成熟的技术都不太适合我们。
《21世纪》:有没有用哪个平台?比如大的软件?
刘建国:这个软件是我们自己做的。
《21世纪》:是应用软件?
刘建国:不是一套。我们直接用自己的东西。比如说词典、分词、词汇。这不是释义的词典,可能有很多资源。比如我们用人民日报的语料库,我们购买这样的资料。更多的平台是我们自己的搜索引擎。我们有日志,总结新的词汇。我们对10亿计的网页也能分析。这是Google中文做不到的。至少没有聚焦。另外从中文用户体验来说,我们也做得比他们好,比如用户体验是什么、习惯是什么。比如相关搜索,在中文里面,用户心里想的一个事情,比如“软件”这个词,用户心里想的是软件下载,但搜索的是“软件”这个词,他输入“软件”,与搜索不符。百度会提示得更加精细化,到底是软件下载还是加密,全自动服务,这样用户会觉得很好。类似的工作我们下了很多功夫。其他像拼音检索,错别字纠正,我们也能正确提示。现在有些搜索正在抄我们。我认为不能崇洋。
从竞价排名平衡用户体验
《21世纪》:从用户体验来看,曾经一度Google要比你们好些,比如竞价排名不是他们主要标准,信息的直接有效很重要。
刘建国:这是另外一个误区。搜索结果的首页我们有多少竞价排名呢?没多少,最多不超过20%,我们的原则是用户体验是第一位的,而且是真正相关的。现在20%是被人定制的,其他是免费体现的,是有用的。实际上,20%的竞价排名也是在严格的人工审核下去通过的。
《21世纪》:人工审核能不能有一个例子?
刘建国:我们有一个30人的组,比如用户提一个词,看是不是真正跟商品有关的。第二,链接的这个网站,是不是做商品的。即使是客户定制的竞价,竞的是某个关键词,我们也要看是不是商品、是不是服务。
《21世纪》:如何决定?
刘建国:人工能查出来,当然也有很多调整。比如IBM,我们考虑把IBM放在最前,后来还是把IBM中国放在前面。虽然阿里商城(IT销售商)交钱了,但第一个仍是IBM中国,我们也是考虑到用户的体验。
《21世纪》:就是说要在用户与客户之间平衡?在网页上还有哪些直接体现?
刘建国:收费的内容均有标志,比如“百度快照”不是收费的。
《21世纪》:你们卖得最好的关键词是哪些?
刘建国:比如“鲜花”,就有很多人买。第一条是买的,是实时变化的,谁的价高就买到最前面去了。
百度不再用“插件”营销
《21世纪》:你们的营销方式曾经是以“一个插件”(业界通称为“流氓软件”)来解决?
刘建国:这不是最关键的。当时主要是与3721打,竞争太激烈了,这是环境所致的。
《21世纪》:现在“插件”还用吗?
刘建国:我们插件装得挺少的。与有的搜索比,百度这种“流氓软件”最少,插件不是主流的,现在都已经走向正规了。插件只是推广手段,今后变成用户自己主动。百度的插件是可以卸掉的,比如搜霸。但有些搜索,没有点就生成了,这种推广手段我们以前做过,但后来停了。如果用户要觉得好,可以自主选择,我们可以保证,用户不会被动选择、不遵从他的意愿——被动强制性的。
《21世纪》:你们去掉了哪些“插件”呢?
刘建国:我们的不会自动弹出来,也不会误装。
《21世纪》:我们可不可以说,百度以前用过“插件”,现在不用了?
刘建国:现在都不用了。我们就是一个搜霸,百度联盟,而且推广方式不是强制性的。搜霸确实也有好处,节省了用户时间,一步到位。我们不会用以前的推广方式。但有些网站点进去就是网络实名,就是靠弹出,非意愿的。我们原来也用得很少,也是百度联盟成员自己用的因为装上后有收益。现在谁利用这种方式装,就不让加入联盟了。
《21世纪》:有多少个联盟成员?
刘建国:现在有好几万。如何管理这些联盟也是一个大问题。
技术与人工、谁排第一?
《21世纪》:刚才提到相关性、超链分析、反作弊,结合起来形成了你们的核心价值吗?
刘建国:是。但如何调节这些东西,各家都不一样。超链分析是共用的。大家都在用。没有一个公司去公布搜索技术,因为这是一个商业秘密。我们是经过5年多积累才出来这样好的结果。这些都是核心技术,一定得积累。
《21世纪》:共享的经验有哪些?
刘建国:各个公司不一样,不能公布细节。
《21世纪》:你们重要在分析用户还是客户?
刘建国:重要的是分析网页,网页与网页之间的分析。WEB的方式,是由HTML组成的。网页与网页之间的是URL,最大好处是网页与网页之间可以用超链来指,叫HYPERLINK,指向另外一个网页是做什么的。比如“中国人民银行”会指向很多东西,每个都是链。他们指向他,LINK有一个叫评价,U1对U2的评价。第一是指向,第二是评价。这是一个网页,“中国人民银行”就是超链,他指向另外一个——有说明中国银行是做什么的,指向后,另一个是指向的U2,另外还有U3。很相关的排前面,找到最权威的。最后综合加权,中国人民银行大,其他商业银行小,那么就加权,算出来结果谁排前面。
《21世纪》:你们做这些,有没有编辑?
刘建国:有的网站有,我们没有,但我们有人工。网站不需要编辑,我们是靠技术,要把这些东西都拿过来。刚才说的抓取、分析是否相关,生成抓取的排名。抓取要分析,之后建立索引,把内容到URL的一个检索,之后提供服务。抓取,分析、检索、服务四个环节。
《21世纪》:你们的技术部门是按四个环节来分的?
刘建国:我们有很多组,做不同工作。
《21世纪》:你们的生产环节与通常的产品定义不一样。
刘建国:是有些怪。比如说我们是如何攻关:要分析、提出问题,每个部门都提,李彦宏也会参与。
《21世纪》:你们最近提过什么问题?
刘建国:我还不想透露太多的细节,比如抓取。我最近要提出一个问题:网站的覆盖率。要研究中国所有的网站。我们平常与Google比较,我们来看交集,相同的内容是多少?各自抓多少?我们发现交集不多,我们独自的较多,这是所有搜索的共性。我提出说,要去调研,为什么会有这种差距,这种差别是如何产生的,没抓的是什么特性?Google抓的是什么特性?Google是海外的吗?这都是一种猜想。我们要去调查,然后去做方案,方案再讨论是不是可行。这样持续不断地做,技术的含量很高。效果都是很客观的,都是真刀真枪的。
《21世纪》:技术队伍如何分工?
刘建国:除了研发还有测试的,另外还有运营的,给我们提供服务是在中国电信或网通,另外要管机器,硬盘坏了,负责换,系统要上线,数据有哪些问题,都得分析。研发、运营、测试还有客服(有面向用户及企业的)。有问题可以直接发到电子邮件,我们暂时没有呼叫中心。为用户解决问题,先整理一些问题,再传到其他部门。