人类看影片学语言,GoogleAI看万部电影学会人类行为!

人类看影片学语言,GoogleAI看万部电影学会人类行为!

上週,AlphaGo「终极版」AlphaGo Zero 再次让世人惊讶,自学 3 天完胜李世乭,40 天登顶「世界围棋冠军」。

但这并不意味着人工智慧有能力取代人类,套用机器人界的一句话:

五岁以上的人类能够做的事情,机器人都能轻鬆胜任,但学会走路,办不到。

简单来说,要 AI 识别人类的行为动作至今仍是一个难题,而四个月大的婴儿就能识别各种脸部表情了。

Google 正在让自家的 AI 克服这个难题,最近 Google 发表了新的人类动作数据库集体 AVA,可以精準标注影片中的多人动作,而其学习的对象则是来自 YouTube 的海量影片。

据 Google Research Blog 介绍,AVA 的分析样本主要是 YouTube 中 的影视类影片。Google 先从这些影片中收集大量不同的长序列内容,并从每个影片中截取 15 分钟,并将这些 15 分钟片段再平均分成 300 个不重叠的 3 秒片段,同时在採样时让动作顺序和时间顺序保持一致。

接下来则需要手动标记每个 3 秒片段中间帧边界框中的每个人,从 80 个原子动作中选择合适的标籤给这些人物行为进行标注。

Google 把这些行为分成了三组,分别是姿势/移动动作、人物交互和人与人互动。目前 AVA 已经分析了 570000 个影片片段,标记了 96000 个人类动作,并生成了 21000 个动作标籤。

在 AVA 的数据分析中,会对每个影片片段的每个人物动作进行识别,也发现了人类的的行为往往不是单一的。

统计至少带有两个动作标籤的人物数据,就可以分析人类不同动作一起出现的频率,在 AVA 的文档中称之为共现模式。

从 AVA 的数据可以看到,打架和武术、亲吻和拥抱、唱歌和弹奏乐器,这些都是比较常见的共现模式。

同时为了尽可能覆盖更大範围的人类行为, AVA 的所分析的电影或剧集,採用了不同国家和类型的影片,这也可能是为了避免出现性别歧视和种族歧视。早在 2015 年,Google

Google 还将对外开放这一数据库,最终目的是提高 AI 系统的「社群视觉智慧」,从而了解人类正在做什幺,甚至预测人类下一步要做什幺。

当然目前距离这个目标还很遥远,正如 Google 软体工程师 Chunhui Gu 和 David Ross 在介绍 AVA 的文章中写道:

教会机器去识别影片中的人类行为是发展电脑视觉的一大基本难题,但这对于个人影片搜索和发现、体育分析和手势界面等应用至关重要。

儘管过去几年在图像分类和查找物体方面取得了令人激动的突破,但识别人类行为仍然是一个巨大的挑战。

虽然柯洁称「对于 AlphaGo 的自我进步来说人类太多余了」,可人脑有 800 亿个神经元细胞、100 万亿个连接,AI 神经网络要想达到大脑的认知水平也绝非易事。

目前电脑视觉技术的发展也主要集中在静态图像领域。

Google 从 2006 年开始用深度学习算法代替人工识别,Google

Google 的人工智慧实验室 DeepMind 正在利用人工智慧将 Google 街景图製作成专业的摄影作品,其水準甚至已经可以媲美专业摄影师。

而 iPhone X 上的 Face ID 技术,也许会让脸部辨识技术在智慧手机上变得更为普及。就连全球最大的色情网站 Pornhub ,也宣布将引入人工智慧技术对网站上成人影片的内容和表演者进行自主检测,让 AI 算法为成人影片的内容和演员进行标籤分类。

相比而言,电脑对于人类动态行为的识别则要困难得多。最近在《纽约客》新一期的封面在美国的社群媒体火了起来,封面文章《黑暗工厂:欢迎来到未来机器人帝国》描述了越来越多人类的工作逐渐被机器人取代。

虽然机器人能做的事越来越多,但在该文中也可以看到机器人对很多看起来简单的工作依然无能为力,比如打开一个盒子和解开一个结,美国布朗大学人机实验室的 Winnie 机器人前不久才刚刚学会了摘花瓣。

而 Google 这次的人类动作数据库集体 AVA,目前最直接的作用可能就是帮助旗下的 YouTube 处理和审核每天上传的大量影片,同时也能更好地服务广告主。

过去 Google 就曾因为无法对影片内容精準识别而吃过大亏,《连线》杂誌的一篇文章曾披露, Google 在影片中植入广告的自动系统,将一些广告放置在了宣传仇恨和恐怖主义的影片旁边,已经让沃尔玛和百事可乐等大客户放弃了 Google 的广告平台。

对于 90 % 收入来自广告业务的 Google 来说,这个问题当然不能怠慢,此前 Google 主要通过聘请一大群临时工去监测和标记各种影片内容,并以此作为 AI 的训练数据。

这样的做法除了需要高昂的人力成本,也有观点认为这些临时工不稳定的工作状态和与 Google 的缺乏沟通,将会影响到 AI 识别的精确度。

由此可见,如果 Google 这个 AI 的学习能力足够强,那不久的将来,这些临时工也将通通失业,而将来这项技术的应用当然也不局限于此。

随着 AI 对人类认知越来越深,对于人工智慧伦理的讨论也许会变得更加激烈。