搜狐首页 科技 法医秦明

手机搜狐

SOHU.COM

MIT对抗学习和无监督学习新进展:机器会创作视频,预测人类行为

MIT计算机科学和人工智能实验室(CSAIL)的研究员开发了一个深度学习算法,能够自动生成视频,并预测出接下来的视频内容。

研究成果论文将在下周在巴塞罗那举行的NIPS(ConferenceonNeuralInformationProcessingSystems)上发表。CSAIL 的研究团队让该算法观看了200万条视频,这些视频加起来如果要回放的话,需要2年的时间才能播完。

视频包含了日常生活的常见场景,以让机器更好地适应正常的人类交流行为。更重要的是,这些视频是“野生”的,也就是说,它们都是非标签的。简单地说,就是研究员不会给算法提供理解视频内容的任何线索。

在这一视频数据集的基础上,算法将基于200万条视频中获得的观察,尝试从零开始生成视频,这和人类创作视频的步骤是一样的 。随后,生成的视频会被填入另一个深度学习算法中,新的算法负责判断哪些视频是机器生成的,哪些是“真实”的。这种训练机器的方法叫对抗式学习(adversarial learning)。

研究使用的工作原理

计算机视觉研究领域中,许多研究者都在攻克类似的问题,其中就包括MIT的教授 Bill Freeman,他在”视觉动态“(visual dynamics)领域的工作也能提前创造出视频中下一帧。但是,他的模型聚焦于推断性的视频,Torralba 的视频能够生成全新的视频,这些视频内容此前是从未讲过的。

图来自 : Carl Vondrick, MIT CSAIL

此前的系统都是一帧一帧地创建场景,这会带来巨大的失误概率,这项研究聚焦于一次处理整个场景,算法每秒生成32帧图像。”一帧一帧地创建场景,意味着信息是被分成很多块的“,Vondrick 说,”我们采用同时预测所有帧的方法。“

当然,一次生成所有的帧也有缺点:在变得更精确的同时,长视频中的计算机模型会变得更加复杂。

为了创建出多帧的效果,研究者教会模型在不受背景的影响下生成前景,然后,把对象放到场景中,让模型学习哪一个物体是移动的,哪一个不动。团队使用了”对抗学习“的方法,在多次尝试后,生成器学会如何”欺骗“区分器(discriminator)。

“双流架构”,生成视频更逼真

”在这一模型的早期原型中,我们的发现是,生成器(也就是神经网络)会改变背景或者在背景中加入异常的动态图片,来尝试欺骗其他的网络“,CSAIL 博士候选人、论文第一作者Carl Vondrick说,”我们需要告诉模型一个概念,那就是现实世界在大多数情况下都是静态的。“

精选