谷歌联手麻省理工学院，要将人类的多重感官赋予人工智能系统

在人工智能的世界中，还有很多不足之处有待解决。大多数 AI 解决方案并不能处理多种类型的输入。具体来说，大多数人工智能工具只能专注一个方向，比如声音、视觉或文字。目前，还鲜有人去尝试将三方面结合起来去构建一套 AI 解决方案，为什么？因为以目前的技术水平，我们离创建一套完整 AI 系统还差很远。

但现在，有人终于开始尝试，谷歌和麻省理工学院一个新项目正在向一个多功能完整AI方案迈出第一步。更具体地说，双方将合作开发出能同时处理声音、文本和图像的AI解决方案。可以想象，一旦研究项目有所突破，将赋予人工智能以类似人类的多重感官，这将是一个极具野心的研究项目。

对于我们人类来说，在任何给定的时间，我们几乎都不可能只使用一种感官。另一方面，而人工智能却完全不具备这种能力。将所见所闻相匹配是人类的第二天赋，但对机器来说，能够实现一种“感官”已经非常难了。

所以，仅仅是在感官方面，让AI具备人类的某些功能其实已经是一项看上去不可能完成的任务，更不必说机器的智能水平了。

不论以何种方式，创建一个能够像人类一样学习和适应的算法并不容易。麻省理工学院和谷歌发布的全新研究报告则为这一尝试指明了道路，让人们看到了赋予AI系统多重“感官”的可能性。新的论文概述了如何AI如何调节自己听到和看到的东西，并将其同步，这非常类似人脑的运作方式。

展开全文

图丨麻省理工学院博士后研究员Yusuf Aytar

论文的联合作者、麻省理工学院博士后Yusuf Aytar表示：“不管你是听见了了引擎声，还是看到了汽车，这都无所谓，因为你马上能识别出这是同一概念。这些信息已经在你的大脑中被统一起来。”

这里的关键词就是协调与统一。研究人员并没有教会算法新的东西，而是创造了一种方式让算法将一种感官与另一种感官连接统一起来。Aytar举了一个例子来说明：当一辆自动驾驶汽车听见救护车的声音时，就能将其与救护车的样子联系在一起，即便因为视线受阻没有看见救护车，也能提前做出避让。

为了训练这套AI系统，麻省理工学院的研究人员首先向神经网络展示了一些带有音频的视频文件，当神经网络接收到这些视频和音频后，就会开始尝试预测物体与声音之间的联系。然后，研究人员开始同一算法中输入带有文字说明的图像，让神经网络将图片中的物体与其文字说明联系起来。以此类推，这样就完成了视频、声音、图像、文字间的相互转换与识别。

图丨将声音、图像、文字输入同一神经网络

培训这个系统将需要大量的工作，尽管已经证明了几个测试已经相当成功。现在，算法只是提供“简单”的信息，但没有理由认为它不能处理更复杂的事情。使用这种开创性的技术将在未来几年为人类发展世界带来新的生命。

尽管已经进行过的测试都非常成功，但训练这个系统还有很多额工作要做。目前，研究人员只为算法提供了相对简单的信息，以后的训练数据将会越来越复杂。为AI系统赋予多重感官，这种开创性的研究方向势必将在未来几年内为人工智能领域的研究带来新的突破。

-End-

参考：

https://arxiv.org/pdf/1706.00932.pdf

《麻省理工科技评论》

2017年“全球50大最聪明的公司”榜单发布会

时间：6月27日

地点：北京· 国贸大酒店

报名方式：查看“阅读原文”返回搜狐，查看更多

责任编辑：