ICCV 2023生成式AI引人瞩目,商汤多项技术突破展现中国“创新力”

10月2日至6日,全球ai顶级国际会议iccv(international conference on computer vision)在法国巴黎举行。本届iccv投稿总数达8068篇,其中2160篇被接收,录用率为26.8%,略高于上届iccv 2021录用率25.9%。
商汤科技及联合实验室共49篇论文入选,涵盖文生图、3d数字人、自动驾驶、目标检测、视频分割等多个与大模型和生成式ai相关的热点方向。
 基于商汤ai大装置sensecore和“日日新sensenova”大模型体系。在生成式ai和视觉大模型等领域,商汤提出多项极具价值的技术突破和研究范式创新。  
 “ 商汤科技联合创始人、首席科学家王晓刚表示:持续深耕ai基础设施建设、坚持做注重产业实践的学术研究、深耕人才阶梯式培养,是商汤多年来在全球学术舞台上不断产出创新成果的基石。商汤将积极拥抱大模型带来的全新研究范式,不断提升研发体系,坚持将基础研究与业务发展紧密融合,为行业贡献更具价值的技术成果。”  
多项技术突破和范式创新
大模型及生成式ai成焦点
 大模型和生成式ai在全球范围内备受瞩目,也为学术研究提出了诸多具有挑战性的全新课题。  
生成式ai方向的文生图领域,如何让模型更容易生成与人类偏好相符的图像?在论文《human preference score: better aligning text-to-image models with human preference》中,商汤研究团队将人类偏好引入stable diffusion的模型训练中,证明了人类偏好信息可以提升stable diffusion生成的图像质量,尤其在人体、四肢等经典的failure case中更是展示了优异的效果。  
将人类偏好引入stable diffusion的模型训练过程  
数字人是生成式ai的重要领域,但其制作依然需要一定门槛。商汤研究团队在论文《sherf: generalizable human nerf from a single image》中提出一种基于单张图片的可泛化、可驱动人体神经辐射场方法,仅需一张任意角度的3d人体图片,结合必要的参数,就能实现3d数字人重建和驱动,有望简化3d数字人的创作流程。
基于单张图片的人体神经辐射场重建和驱动
高质量的3d人体数据集是研究众多人体相关的感知模型、重建模型和生成式ai的基础。商汤研究团队在论文《synbody: synthetic dataset with layered human models for 3d human perception and modeling》中提出一个合成数据集synbody,其构建了穿着衣物的参数化人体模型,并生成了海量的人体虚拟数据,有助于3d人体感知和重建的模型训练。此外,团队公布了开源代码库xrfeitoria,一个合成数据渲染工具箱,通过提供方便的python api与cli工具,极大简化了制作虚拟数据集的流程。  
synbody是基于分层人体模型的大规模合成
数据集,可用于人体感知与建模等任务
在自动驾驶场景的3d目标检测领域,商汤团队还在论文《temporal enhanced training of multi-view 3d object detector via historical object prediction》中提出一种新的用于多视角3d检测的时序增强训练方式——历史帧物体预测(hop),不仅在nuscenes测试集上使用vit-l得到了68.5%nds和62.4%map,超过了排行榜上所有3d物体检测器,还可以即插即用,无缝集成到最先进的 bev 检测框架中,重塑3d检测时序利用的新范式。  
hop算法框架图
此外,本届iccv,商汤科技还在目标检测、视频分割、3d感知与重建、半监督学习、nerf等领域取得诸多技术创新突破。
开源开放
构建大模型时代
产学研协同新生态
 产学研协同是实现学术研究成果到行业应用转化的高效路径。  
商汤不断夯实技术研究的同时,也积极参与和举办各类学术交流和竞赛活动,促进创新成果产出,探索大模型时代产学研协作模式的构建。  
同时,商汤长期致力于推动ai基础设施和开源生态的建设,与开发者共创共建,共同推动ai社区的繁荣发展。  
商汤早在2018年开源的计算机视觉框架openmmlab已在github上收获超过8.7万个星标。  
今天,商汤的开源项目已拓展到决策智能、大语言模型、拓展现实、数据平台、高性能训练和推理框架、ai智能体框架等领域,为学术界的科研突破和工业界的产业落地提供全方位的算法与平台支撑。  
其中,在大语言模型领域,商汤与上海ai实验室等联合推出的书生·浦语大模型(internlm)在开源社区和产业界产生广泛影响。  
最新的internlm-20b模型性能先进且应用便捷,以不足三分之一的参数量,达到当前被视为开源模型标杆的llama2-70b的能力水平。  
秉承开源、开放的发展理念,商汤愿与行业伙伴共同迎接大模型的新一轮科技革命,让ai技术释放更广泛的产业价值。
  相关阅读,戳这里 
  《商汤联合团队斩获cvpr最佳论文,推出首个“感知决策一体化”自动驾驶通用大模型》
原文标题:iccv 2023生成式ai引人瞩目,商汤多项技术突破展现中国“创新力”
文章出处:【微信公众号:商汤科技sensetime】欢迎添加关注!文章转载请注明出处。

芯旺微推出KungFu内核汽车级MCU KF32A146,拓宽车载电机类应用场景
电脑系统的密钥在哪里
不止赛博朋克!盘点20个将颠覆世界的新技术
京东方投34亿元建12英寸OLED微显示器件生产线,分三阶段
中国移动将全力推动5G和AI的融合发展
ICCV 2023生成式AI引人瞩目,商汤多项技术突破展现中国“创新力”
利用74373芯片进行单片机IO口扩展的方法
编码器原理和位置测量
智慧型数字式激光寻光器所具有的特点是什么
儿童专用电子书阅读器:亚马逊Kindle for Kids
RP2040和Raspberry Pi的区别
欣旺达拟投资52亿元在浙江兰溪建设锂离子电池项目
光峰科技ALPD激光显示技术助力北京冬奥会
华为畅享10宣布10月18日发布
怎样用89C2051制作数字显示的断线报警器
我国工业机器人总产量首次突破20万套,广东产量首次超过上海
硬件设计案例分析之原理图设计规范(一)
市面上的无线显示器到底好不好用
开关磁阻电机的应用
在5G即将到来之际,智能终端的发展会发生怎样的变化