分析印度杂志
现在读
IBM研究创建了衡量人工智能常识的新基准
分析印度杂志

IBM研究创建了衡量人工智能常识的新基准

  • 这篇论文是在2021年ICML上发表的,由麻省理工- ibm沃森人工智能实验室的研究人员制作,这是他们与美国国防部高级研究计划局合作的一部分。

随着孩子的成长,他们区分事物的能力也在增长,他们学会归纳周围的新事物和情况,并对外界刺激做出反应。人工智能必须了解人类,并从可观察的活动中推断出我们的精神状态,以便在现实世界中与人类互动。人类很容易理解这样的概念。agent可以与对象区分开来,我们可以期望它们遵守物理限制,并在这些限制下有效地行动以实现目标。

为此,IBM创建了一个新的基准——代理(行动、目标、效率、约束、效用)——评估人工智能模型的核心心理推理能力。其目标是缓慢地构建能够推断精神状态、预测下一步并与人类合作的人工智能代理。

这篇论文是在ICML 2021年发表的,由研究人员作为他们与美国国防部高级研究计划局合作的一部分。

AGENT由大规模的数据集组成3 d动画一个在各种物理约束下移动并与各种物体相互作用的agent。这些动画被组织成四类试验,旨在探索机器学习模型对揭示婴儿直觉心理的关键情况的理解。

  • 测试他们的目标偏好归因,
  • 为了测试动作效率,
  • 未被注意的约束和
  • cost-reward权衡。

下面展示了四种场景的试验类型概览。

图片:IBM的研究

所有试验分为两个阶段:

  • 第一个是熟悉阶段,展示一个或多个视频的典型行为的一个特定的代理,和
  • 第二个包括测试阶段显示一个视频相同的代理在一个新的物理情况(目标偏好,操作效率和Cost-Reward权衡场景)或相同的视频熟悉但暴露部分原先闭塞的现场(未被遵守的约束)。

设置AGENT基线

研究人员采用了两个基线,包括贝叶斯逆规划和核心知识(BIPaCK)和ToMnet-G,即心智理论神经网络扩展图神经网络)。

另请参阅

第一个——BIPaCK是一个生成模型,它结合了一个使用贝叶斯推理来理解动作的计算框架和由仿真驱动的物理核心知识。研究人员从一个场景中提取实体(agent、物体和障碍)及其粗略状态信息(3D边界框和颜色代码),这要么是基于agent提供的地面真相,要么是基于感知模型的结果。在下一步,他们在一个不同于视频中的环境的物理引擎中重建一个近似的物理场景。为了获得特定代理的字符嵌入,ToMnet-G对熟悉视频进行编码。为了对状态进行编码,研究人员使用了一个图神经网络,其中所有元素(包括障碍)都表示为节点。

对于基准测试中提出的任务,我们使用两个基准模型BIPaCK和ToMnet-G来比较它们在AGENT上的性能和人类的性能。总的来说,通过比较,BIPaCK优于ToMnet-G,特别是在强泛化测试中。为了展示核心的心理推理能力,研究结果表明,人工智能模型必须获得或内置代理如何计划的表征,将成本-回报计算与对象和物理的核心知识相结合。

未来前景

许多开放区域仍在开放,有待改进。因此,AGENT可以被认为是一种结构良好的诊断工具,用于开发和评估常识在人工智能模型。此外,它还:

  • 验证使用标准发展心理学方法生成人工智能模型,可与用于教育人类婴儿的模型相媲美。
  • 开发能够学习和推理、解释他们的决定以及物体和想法之间的关系,甚至能够像人类一样理解心理学和物理学的人工智能模型或许是可行的。
  • 人工智能系统有可能成功地参与社会互动,在涉及多个智能体的社会情境中做出常识性决策,并使用工具完成给定的任务,如使用钥匙打开车门或穿过街道。

总之,需要注意的是,开发具有常识的此类人工智能系统可能需要数年时间;然而,首先,AGENT是一个工具,以实现预期的结果在未来。

你怎么看?

订阅我们的通讯

通过分享你的电子邮件获得最新的更新和相关的优惠。
加入我们的Telegram Group。成为一个有吸引力的社区的一部分

188BET网页

滚动到顶部
Baidu