一直以来,ai 进行图像识别都是一个难以清楚解释的过程,而如今麻省理工学院林肯实验室情报和决策技术小组(intelligence and decision technologies group)的一项研究试图让 ai 的决策过程更加可被解释。
这个小组在今年夏天的 cvpr 上发表了一篇论文《设计透明:弥合视觉推理的表现与可解释性》(transparency by design: closing the gap between performance andinterpretability in visual reasoning),论文中提出的系统可以执行与人类一样的推理步骤来进行与图像识别相关的任务,同时能以图像形式呈现其决策的过程。
了解神经网络如何做出决策一直是 ai 研究人员长期面对的问题。神经网络是以人的大脑为参照开发的 ai 系统,旨在复制人类学习的方式。简单的神经网络有一个输入层、一个输出层,两者之间还有一个将输入转换为正确的输出结果的层。然而一些深度神经网络非常复杂,无法遵循这种简单的转换过程。所以逐渐地,神经网络的设置层越来越多,决策过程成为了一个“黑箱”问题,内部流程非常不透明,以至于该网络的开发者可能都无法完全掌握。
与此同时,了解 ai 的决策过程非常重要。例如,对用在自动驾驶汽车中的神经网络来说,行人和路牌之间存在什么样的差异?神经网络的哪个决策阶段能够发现两者的区别?只有了解这一过程能够更好地纠正神经网络的一些错误。但目前最先进的神经网络也缺乏有效的机制能让人理解其推理过程。
对此,麻省理工学院林肯实验室情报和决策技术小组开发了一个神经网络,可以执行类似人类的推理步骤来回答与图像相关的问题。该模型被命名为 transparency by design network(简称:tbd-net),
同时,tbd-net 在解决问题时能够用热力图来展示其进行视觉分析的过程,即当系统识别图像时,会对识别的部分进行突出显示,这达到了将决策过程可视化的效果。这种将决策过程可视化的形式让研究人员能够了解这一过程并对其进行分析。
对于 tbd-net 的工作流程,该网络内有众多模块组成的集合,这是该系统中的一个关键部分,这些模块是专门用于执行特定子任务的小型神经网络。在 tbd-net 执行图像识别任务时,它会将问题分解为子任务并分配适当的模块,这些子任务会被分别完成之后再进行组合。
这些模块就像流水线上的工人一样,每个模块基于前一个模块的识别结果进行工作,一起生成了最终的结论。tbd-net 利用的 ai 技术能像理解人类语言一样,将句子分解为多个子任务。而 tbd-net 能够在处理图像时进行类似的处理过程,分不同阶段对图像进行识别。
对于 tbd-net,如果你问它“那个巨大的金属立方体是什么颜色?”那么第一个模块会框定一个大大的物体;第二模块会识别哪些对象是金属;第三模块会在前面得出的结果中找出标准立方体;最后,负责颜色识别的模块会最终得出对象的颜色。
tbd-net 研究人员之一的majumdar 说:“将一系列复杂的推理分解为一系列较小的问题,每个子问题都可以分别解决再进行组合,是一种强大而直观的推理手段。”
研究人员让 tbd-ne t 经过 7 万图片和 70 万个问题的训练后,再用 1.5 万张图片和 15 万个问题对其进行测试,结果显示其准确度达到 98.7%,优于其他基于神经模块网络的系统。
更重要的是,研究人员能够在这个结果的基础之上继续优化,通过查看模型的决策过程,他们可以找到问题的所在并进行有针对性的优化,最终准确度达到了 99.1%。
除了对神经网络进行优化,这篇论文的作者同时认为,了解神经网络的推理过程可能对获得用户信任大有帮助。用户要能够了解这一推理过程,才能够理解模型为何会作出错误的预测。
过去的几个月中,许多公司、政府机构和独立研究人员试图解决人工智能中所谓的“黑箱”问题,都取得了不同程度的效果。
2017 年,美国国防高级研究计划局(darpa) 曾推出 darpa xai 项目,旨在研究“玻璃箱”模型,在不牺牲性能的情况下让ai 推理过程更加透明。今年 8 月,ibm 的科学家们提出了一份 ai 的“情况说明书”,提供有关模型漏洞、偏见、对抗性攻击易感性和其他特征的信息。微软、埃森哲和 facebook 也开发了自动化工具来检测和减少 ai 算法中的偏差。
ibm 研究院的 ai 基金会负责人 aleksandra mojsilovic 在今年 8 月时曾说道:“ai 系统具有改变我们生活和工作方式的巨大潜力,但透明度问题必须得到解决,这样才能让 ai 得到更多的信任,”
电工常用计算公式大全
接近开关有几种安装方式?
应用宝库-BG2x系列蓝牙SoC成就多样医疗物联网用例
宁德时代和比亚迪两家企业对换电的看法也颇“不能苟同”
浅析专用处理器设计的6个关键技术
让AI获得更多信任!麻省理工研究实现人工智能决策可解化
受全球范围疫情影响,锂盐价格持续下跌但跌幅放缓
iPhone手机Home键或刘海设计,哪个好?
Ossia的无线电源可为30英尺外的设备进行无线供电
基于XIAO的图像分类处理项目
CY8C4014LQI-422 ARM微控制器简介
SD-WAN对于制造业物联网的重要性
特斯拉中国造7月出口突破2万辆 Model3出口量再创新高
工信部刘烈宏提出三点建议,推动信息通信业加速发展
光伏太阳能发电原理
mpu6050对应i2c地址是什么_如何读取数据
惠普HP8156A 光学衰减器
三分频音箱的中音为什么不响?
荣湃半桥驱动芯片的应用场景有哪些?
单片机编程技巧之重用外设驱动代码