首页 >新闻 > 人工智能 > 内容

深度神经网络与人类感知之间的差异

人工智能 2020-04-10 16:33:23

最近小茹姐发现深度神经网络与人类感知之间的差异这个话题相信很多小伙伴们都很感兴趣吧,那么今天就带大家了解下深度神经网络与人类感知之间的差异的具体详情,那么小茹姐就来给大家说说具体的一些问题吧,希望对大家有所帮助。

当您的母亲给您起名字叫声时,您就知道这是她的声音-无论音量大小,即使手机连接不良也是如此。而且,当您看到她的脸时,便知道它是她的脸-如果她很远,照明不佳或FaceTime通话不佳。这种对变化的鲁棒性是人类感知的标志。另一方面,我们容易产生幻想:我们可能无法区分实际上不同的声音或图像。科学家已经解释了许多这样的错觉,但是我们对听觉和视觉系统的不变性缺乏充分的了解。

深度神经网络还执行了语音识别和图像分类任务,对听觉或视觉刺激的变化具有强大的鲁棒性。但是,这些模型学到的不变性是否类似于人类感知系统学到的不变性?一群麻省理工学院的研究人员发现他们是不同的。他们昨天在2019 年神经信息处理系统会议上发表了他们的发现。

研究人员对经典概念进行了新颖的概括:“因子”-产生相同感知效果的物理上不同的刺激。出现最著名的metamer刺激的例子是因为大多数人的视网膜中有三种不同类型的视锥,它们负责色觉。任何单个波长的光的感知颜色都可以通过三种不同颜色的光(例如红色,绿色和蓝色光)的特定组合来精确匹配。19世纪的科学家从这一观察中推断出,人类在我们的眼睛中拥有三种不同类型的亮光探测器。这是我们每天凝视的所有屏幕上的电子彩色显示器的基础。视觉系统中的另一个例子是,当我们将目光固定在一个物体上时,我们可能会感觉到周围的视觉场景在外围不同而相同。在听觉领域,可以观察到类似的东西。例如,尽管组成它们的声学细节不同,但是两组昆虫的“质地”声音可能无法区分,因为它们具有相似的汇总统计特性。在每种情况下,同构异构体都可以洞察感知的机制,并限制人类视觉或听觉系统的模型。

在当前的工作中,研究人员从标准数据库中随机选择自然图像和口语的声音片段,然后合成声音和图像,以便深度神经网络将它们与自然对应物归为同一类。也就是说,它们产生了物理上不同的刺激物,这些刺激物通过模型而不是人类被相同地分类。这是思考异构体的一种新方法,可以将概念概括化,以将计算机模型的角色替换为人类感知者。因此,他们将这些合成的刺激物称为配对自然刺激物的“模型同质物”。然后研究人员测试了人类是否可以识别单词和图像。

与会者听到了一段简短的讲话,必须从单词列表中识别出剪辑中间的哪个单词。对于自然音频而言,这项任务很容易,但是对于许多模型metamers来说,人类很难识别声音。”第一作者Jenelle Feather解释说,他是MIT脑与认知科学系(BCS)的研究生,该会员中心脑,头脑和机器(CBMM)。也就是说,人类不会将合成刺激与口语“鸟”或鸟的形象归为同一类。实际上,为匹配模型最深层的响应而生成的模型元异构体通常无法被人类对象识别为单词或图像。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。