首页 >人工智能 > 内容

建立可以推理日常行为的机器学习模型

人工智能 2021-02-20 11:06:04

事件发生时抽象地推理的能力是人类智能的定义特征。我们本能地知道,哭泣和书写是交流的手段,从树上掉下来的熊猫和飞机降落是下降时的变异。将世界组织成抽象的类别对计算机来说并不容易,但是近年来,研究人员通过训练机器学习模型来学习单词和图像,并注入有关世界的结构信息以及物体,动物和动作之间的关系,从而使这一过程更加紧密。

在本月举行的欧洲计算机视觉会议上的一项新研究中,研究人员推出了一种混合语言视觉模型,该模型可以比较和对比在视频上捕获的一组动态事件,以阐明连接它们的高级概念。

他们的模型在两种类型的视觉推理任务上的表现均优于或优于人类-选择在概念上最能完善场景的视频,以及选择不合适的视频。例如,在显示狗吠叫和一个人在狗旁边his叫的视频时,该模型通过从五个视频集中挑选哭泣的婴儿来完成了整个场景。研究人员将其结果复制到两个用于训练动作识别的AI系统的数据集上:MIT的 Time-Moments 和DeepMind的 Kinetics。

这项研究的资深作者,麻省理工学院寻求情报的共同主任,麻省理工学院高级研究科学家奥德·奥利瓦(Aude Oliva)说:“我们证明,您可以将抽象构建到AI系统中,以执行接近人类水平的普通视觉推理任务。” 以及MIT-IBM Watson AI Lab的MIT总监。“可以识别抽象事件的模型将提供更准确,逻辑上的预测,并且对决策制定更加有用。”

随着深度神经网络成为识别照片和视频中的对象和动作的专家,研究人员将目光投向了下一个里程碑:抽象和训练模型以推断出所看到的东西。在 一种方法中,研究人员将深网的模式匹配功能与符号程序的逻辑相结合,以教授一种模型来解释场景中的复杂对象关系。在这里,研究人员利用另一种方法,利用嵌入词义中的关系来赋予模型可视的推理能力。

研究合著者,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究科学家Mathew Monfort说:“语言表示使我们能够将从文本数据库中学习到的上下文信息集成到我们的视觉模型中 。” “诸如“跑步”,“举重”和“拳击”之类的词语具有一些共同的特征,这使它们与“锻炼”的概念比“驾驶”更紧密地相关。”

研究人员使用WordNet(一个词义数据库),将Moments and Kinetics中每个动作类标签的关系映射到两个数据集中的其他标签。例如,“雕刻”,“雕刻”和“切割”等词与“工艺”,“制作艺术”和“烹饪”等高级概念相关。现在,当模型识别出雕刻等活动时,它可以从数据集中挑选出概念上相似的活动。

这个抽象类的关系图用于训练模型执行两个基本任务。给定一组视频,该模型为每个视频创建一个数字表示,该数字表示与视频中显示的动作的单词表示相一致。然后,抽象模块组合为集合中的每个视频生成的表示,以创建新的集合表示,该新的集合表示用于标识集合中所有视频共享的抽象。

为了了解该模型与人类相比的表现,研究人员要求人类受试者在线执行相同的视觉推理任务。令他们感到惊讶的是,该模型在许多情况下的表现都与人类一样好,有时还会产生意外的结果。 在设定完成任务的一种变体中,在观看了某人包裹礼物并用胶带覆盖物品的视频后,该模型提出了某人在海边将某人埋在沙子中的视频。

麻省理工学院的博士生 卡米洛·福斯科(Camilo Fosco)说:“它实际上是'覆盖'的,但是与其他片段的视觉特征却 大不相同。” “从概念上讲,它是合适的,但我必须考虑一下。”

该模型的局限性包括过分强调某些功能的趋势。在一个案例中,它建议用一组婴儿和一个球的视频来完成一组体育视频,显然是将球与运动和比赛相关联。

研究人员说,可以训练以更抽象地“思考”的深度学习模型可以用更少的数据进行学习。抽象也为更高层次,更像人类的推理铺平了道路。

Oliva说:“人类认知的一个标志就是我们有能力描述与其他事物相关的事物-进行比较和对比。” “这是一种丰富而有效的学习方式,最终会导致机器学习模型能够理解类比,并且更接近于与我们进行智能交流。”

该研究的其他作者是麻省理工学院的Allen Lee,IBM的Rogerio Feris和哥伦比亚大学的Carl Vondrick。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。