搜索引擎向人工智能进化

最近上映的《超能查派》和《复联2》都取得了骄人的票房，二者都提到了人工智能。科幻电影不是空穴来风，搜索引擎是我们的主动意识与互联网世界之间最重要的连接方式，并且在长期数据积累、存储技术、云服务、超级计算和机器学习等方面具有独特优势，或许它们将成为最接近人工智能的互联网应用。

那么搜索引擎向人工智能进化的必要因素有哪些呢？

1、重视战略数据而非“大数据”

如果把将要实现的人工智能比作大脑的话，那互联网就是人体头部的血管，一个抵达各部位的网状系统，而数据和信息便是最重要的、能够为大脑活动提供能量的血液，它们也是进行机器学习所必需的的输入量和研究基础。百度“大数据引擎”结构中最底层的 “开放云”服务就是在实现这个功能。

在数据获取方面，不能漫无目的追求大而全的数据，搜索引擎应该更加重视筛选过的、有价值的战略数据。例如，不久前的MIT大数据挑战就是以波士顿交通为主题；谷歌的大数据功能是从预测流感开始；而百度的“大数据引擎”也首先选择了医疗、交通和金融领域为大数据战略的具体应用方向。搜索引擎在PC端已经有了足够的积累，随着手机和其他可穿戴智能设备的爆发，搜索引擎将获得更多有战略意义的、细分化和情景化的数据。“百度迁徙”、“景点舒适度预测”和“城市旅游预测”就是百度以细分化的战略数据为切入点的成功案例。

人工智能

2、搜索引擎的数据挖掘优势

当信息爆炸时代来临，是否拥有信息已经不再重要，重要的是如何能够快速的找到所需信息，而搜索引擎在这方面有着天然优势，也是解决信息数量和信息（有价值的）获取效率之间矛盾的唯一途径，而搜索引擎的数据挖掘将产生更加明显的效果。

互联网搜索的惊人效率与传统的信息搜索方式形成了鲜明对比，因此每个理性的人在获取信息时都会优先使用互联网搜索工具，在享受搜索带来的高效率时贡献出个人信息，促使搜索工具对我们更加了解，从而在下次为我们提供更有效率、更准确、更个性化的搜索服务，随着信息获取速度和准确率的提高，我们也将更加频繁的使用搜索工具从而贡献出更多的个人数据……这个良性循环为搜索工具带来了持续增长的用户习惯和数据量，更重要的是当数据积累到一定程度，搜索引擎将掌握足够多的用户个人标签和行业标签，在多维度的信息整合后对用户和行业形成准确定义，从而通过自身的数据积累和挖掘为用户和行业提供更加智能的信息服务。

因此，搜索引擎在数据挖掘方面的优势不仅体现在自身算法和计算能力，更是体现在对用户信息的量化分析和数据挖掘，并以此基础上提供的更加智能的信息服务。值得一提的是，这些有价值的标签只有经过长时间积累和长期用户沉淀才能取得，就像人与人只有在长期交流沟通后才能深入了解对方，机器对用户的了解也是建立在长期的、无数次交互的基础之上，而对用户的了解程度又决定了机器学习的核心算法。因此，已经在市场上占据领导地位的搜索引擎在这方面的优势会较为明显。

3、技术奇点的出现

在搜索引擎收集战略数据并进行数据挖掘之后，接下来将是实现人工智能的最后一个阶段——机器深度学习。搜索引擎实现从传统搜索到人工智能的过渡，不仅是因为自身积累的数据量达到了质变的水平，还因为硬件存储、云计算、超级计算、模拟神经网络等相关技术的成熟。

搜索引擎可以凭借自身的独特优势成为此次技术变革中的领导者，并且他们也已经开始了相关的准备工作。谷歌很早就通过自主研发和收购的方式来汇集实现人工智能的必要技术，包括利用1.6万个处理器构建的模拟人脑神经系统的且具备学习功能的Google Brain。而百度也是国内第一家提出机器学习（百度大脑）和组建相关研究机构（IDL，百度深度学习研究院）的互联网公司；提出“少帅计划”招揽青年科学家；拥有了超越天河二号的超级计算能力；组建起了世界上最大的拥有200亿个参数的深度神经网络。这些技术都将与搜索引擎自身积累的数据优势一起成为他们率先进入人工智能领域的重要推动力。

4、正确的机器学习之路

通往终极人工智能有两条道路，一是从理论研究出发，在完全掌握人类的智力原理后再通过技术进行复制；二是从基础技术和具体应用出发，结合人脑各阶段的研究成果来得到相应水平的人工智能，再通过漫长的技术进化提高智能水平。

如果采取第一种途径，在没有完全弄清大脑原理之前，只对大脑结构进行模拟是没有任何实际意义的。因此，这种方式不适合要向用户持续提供服务的搜索引擎公司。加利福尼亚斯坦福大学的Andrew Ng完成了世界上最大的拥有110亿神经连接的人工大脑，但谷歌大脑工程的两位研究者指出这个神经网络计算机甚至都没达到老鼠的智力水平。

长达十年且耗资数十亿欧元的欧盟人脑计划也没有把目标定为完全掌握人脑原理并对其进行模拟，而是一直在强调每个阶段的研究成果都要付诸实践，通过模仿部分人脑原理来创造出一些类人脑功能（Human-like）的智能系统或应用。而对于一直面向用户的搜索引擎来说更是如此，它们应该选择第二种自下而上的、分布式的智力实现方式，每一次技术的智能化革新都是从用户的实际需求出发，每一次技术进步都代表着机器智能的进一步发展。谷歌在收购Deepmind之后明确表示不会首先将其应用在机器人部门，而是先从基础的语义识别开始。而百度也是将深度学习技术应用在了具体的用户服务方面，比如说降低语音技术的相对错误率，提高中文语音识别率、完善图像识别能力、全球首个全网人脸搜索引擎等。

5、基于人脑神经网络的机器学习

人脑与计算机最大的区别就在于它是一种双向联系，可以不停地把新信息反馈回去，加固已有东西，这就是我们的学习功能。我们大脑的层级并非生而有之，与生俱来的是毫无关联的模块，相互之间没有形成任何模式，所有模块之间的连接和增强都是通过后天学习来实现的。

我们大脑的学习和推理能力符合贝叶斯数学原则，推理是基于由经验而来的概率，我们在遇到新情况时，总是要追溯自己的已有记忆和经验，然后再根据新情况进行调整，最后得出一个概率相对较高的应对策略，所以我们才学会了如何应对这个或然的世界。我们在执行“贝叶斯原则”进行学习时，首先将遇到的新情况在此前的记忆和经验库中进行搜索和匹配，找到成功概率较高的决策付诸实践，然后再根据现实反馈进行调整，再重复上述过程，直到找到最佳方案。经过这样一次次的贝叶斯行动，我们构成了特定的自我，也形成了那种重要的学习能力。

而搜索引擎的那种“关键词输入、数据库搜索、信息匹配、多次调整、返回结果”不恰恰也是完全符合贝叶斯学习原则吗？所以，我们有理由相信，搜索引擎通过构建模拟神经网络已经可以获得人类一定程度上的学习能力，例如，目前“百度大脑”已经达到2岁儿童的智力水平。美国儿科学会的《育儿百科》中将儿童称为“恐怖的2岁”，他的词汇量开始丰富；能够在心里想象出事物、行为和概念的图像；他开始理解物体之间的关系；他开始将不同的活动串联在一起形成一个逻辑关系；当他意识到社会希望他遵循某些规则后，他会开始培养起一定程度的自控能力。虽然“百度大脑”可能无法与这些智力表现形式一一匹配，但我们还是从中感觉出机器智能的巨大进步。

结语

看电影，人工智能芯片创造出的查派自己写代码将意识输出，就能维持自己和他人的“长生不老”；复联中人工智能“孵化”出的人与金属结合的生物代替了超能的复仇者联盟，最后打败了大BOSS，人工智能的时代是否已经不远了，我不确定，但是广泛使用的搜索引擎，可被看成是未来高级脑机界面的雏形，需要多久才能进化成人工智能，我们拭目以待。