NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

论文简介
可控扩散模型如controlnet、t2i-adapter和gligen等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件,上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件?或者说如何自定义空间条件用于可控图像生成呢?例如自定义空间条件中物体的类别、大小、数量、以及表示形式(目标框、关键点、和实例掩码)。
本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(visual prior),并使用transformer decoder以generative pre-training的方式来建模上述视觉先验。因此,我们可以从学习好的先验中通过prompt从多个层面,例如表示形式(目标框、关键点、实例掩码)、物体类别、大小和数量,来采样空间限制条件。我们设想,随着可控扩散模型生成能力的提升,以此可以针对性地生成图像用于特定场景下的数据补充,例如拥挤场景下的人体姿态估计和目标检测。
方法介绍
表1 训练数据
本文从当前公开的数据集中整理收集了七种数据,如表1所示。为了以generative pre-training的方式学习视觉先验并且添加序列输出的可定制功能,本文提出以下两种prompt模板:
使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中,我们使用bpe算法将每个序列x编码成tokens={u1,u2,…,u3},并通过极大化似然来学习视觉先验,如下式:
最后,我们可以从上述方式学习获得的模型中定制序列输出,如下图所示。
图1 定制序列输出
效果展示

提高支撑座效率的重要性
纳特通信直播预告:“高强度辐射场(HIRF)系统解决方案及应用”,开启报名!
电容的具体作用是怎样的
“怪兽级游戏体验”,6GB双摄千元手机-酷派酷玩6:有了酷派,还买个锤子啊!
深圳建筑TSP扬尘在线监测设备携手碧野千里公司合作
NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件
智能硬件“双雄” 智能音箱向左而虚拟现实向右
浅谈模拟和数字布线的区别
巴林政府计划到2025年新增光伏装机255MW
走向“数据融合” MEMS传感器创新可穿戴与医疗应用
提升系统测试效率也许只差一台DMM6500万用表的距离
王者归来!诺基亚8发布会倒计时:诺基亚8今晚伦敦发布,诺基亚8配置、摄像曝光,价格仍是悬疑?
利用TI DLP技术结构光进行光学3D扫描特性介绍
AI赋能3C制造的四大应用场景
6天倒计时开始!Keysight World Tech Day 2023 五重礼品解锁攻略
鸿蒙内核进程间为何要通讯?
移远首款5G安卓智能模组通过CCC、NAL认证后正式进入商用
拥有私有5G网络的企业的未来
首创的人工智能挑战,旨在测试智能代理的功能并加速AI的研发
工业机器人智能化潮流下 库柏特致力于让机器人具备视觉与触觉感知能力