VISPROG:以神经符号方式将人工智能推向更广泛、更复杂的任务领域

本文将为大家介绍cvpr 2023年最佳论文两篇中的visual programming: compositional visual reasoning without training (视觉编程:无需训练的组合式视觉推理),代码已开源。
title: 
visual programming: compositional visual reasoning without training
paper: 
https://openaccess.thecvf.com/content/cvpr2023/html/gupta_visual_programming_compositional_visual_reasoning_without_training_cvpr_2023_paper.html
code: 
https://github.com/allenai/visprog
01
/导读/
visprog是一种神经符号方法,可利用自然语言指令解决复杂的组合式视觉任务。visprog避免了任何特定于任务的训练需求。相反,它利用大型语言模型的上下文学习能力生成类似python的可组合程序,这些程序将被执行以获得解决方案和全面可解释的推理结果。生成的程序的每一行可以调用多个现成的计算机视觉模型、图像处理子程序或python函数以生成中间输出,后续程序部分可以使用这些中间输出。在四项不同的任务中展示了visprog的灵活性:组合式视觉问答、基于图像对的零样本推理、实际知识对象标注和语言引导图像编辑。类似visprog这样的神经符号方法是扩展人工智能系统范围、为人们提供执行复杂任务的有效途径。
visprog是一种可组合和可解释的神经符号系统,用于进行组合式视觉推理。给定自然语言指令和高层次程序的几个示例,visprog利用gpt-3的上下文学习功能针对任何新指令生成程序,并在输入的图像上执行程序以获取预测结果。visprog还将中间输出总结为可以解释的视觉说明。
02
/模块/
visprog目前支持20个模块,可实现图像理解、图像操作(包括生成)、知识检索和算术和逻辑操作等能力。在这里显示的红色模块是使用经过训练的最先进神经模型实现的,而蓝色模块是使用多种python库(如pil、opencv和augly)实现的非神经python函数。
在visprog中,每个模块都被实现为一个python类,见下述代码,其具有以下方法:
(i)解析行以提取输入参数的名称和值以及输出变量的名称;
(ii)执行必要的计算,可能涉及训练过的神经模型,并更新程序状态以获得输出变量的名称和值;
(iii)使用html方式以可视方式总结该步骤的计算(用于创建visual rationales)。
要向visprog添加新模块,只需要实现并注册一个模块类,程序的执行使用该模块将由visprog解释器自动处理。
03
/visprog中的程序生成/
visprog通过向llm gpt-3提供指令及其相关的示例指令和对应程序,来生成程序。与以前的方法如神经模块网络(neural module network)不同,visprog利用大规模语言模型的上下文学习能力来生成程序,而不是使用预先定义的模块。这使生成的程序更加灵活且能够处理更多的组合式视觉任务。
04
/可解释性/
visprog不仅生成高度可解释的程序,还通过将每个步骤的输入和输出的摘要拼接在一起生成visual rationales,以帮助理解和调试程序执行期间的信息流。下面是两个visual rationales的示例。
使用自然语言进行图像编辑
关于图像对的推理(自然语言视觉推理)
04
/结果可视化/
在组合式视觉问答、基于零样本的图像对推理(仅使用单张图像vqa模型)、实际知识对象标记和语言引导的图像编辑等复杂视觉任务上展示了visprog。下图展示了visprog在对象标记和图像编辑任务上的能力。
更多关于所有任务的定性结果以及相应的视觉说明,包括由于程序生成中的逻辑错误或模块预测错误而导致的失败案例,请根据下面链接下载查阅:
https://openaccess.thecvf.com/content/cvpr2023/supplemental/gupta_visual_programming_compositional_cvpr_2023_supplemental.zip

从IPv4到IPv6的投资情况怎么样
实验用超声波振动筛电源发生器设计
蓝牙局域网接入点的嵌入式实现
高云半导体GW1N家族新增三款FPGA器件,并开始提供GW1N-1工程样片
充电自控电路图
VISPROG:以神经符号方式将人工智能推向更广泛、更复杂的任务领域
KEIL调试经验与技巧分享
如何合理的进行全球能源管理
关于织物阻干态微生物穿透试验仪的详细介绍
ODU连接器解决方案为行业领域提供智能连接助力
搭载第十一代英特尔酷睿处理器的惠普星14高性能轻薄本如何?
关于光耦合器采用表面贴装满足未来分布式电源需求的分析和介绍
英飞凌携手中国电动车百人会,助力我国电动车产业可持续发展
消除光学特性表征中的猜测:光学工程师所需的精确散射测量
小米列出了Mi 10T Pro的一些技术规格和价格
人工气候室的简介,它具备哪些功能
中国联通5G决不能出现4G时的错误,过迟建设网络
电子元件的“粘合剂”—激光锡焊介绍
正激变换器中变压器的设计过程
智能家居终端在智能电网中如何更安全、舒适、便利