AVS3P10实时语音编码标准获得重要进展

由腾讯提交的ai codec为基础的技术顺利通过评审,被选为avs3p10实时语音编码标准的rm0基线和wd过点成功。从交叉测试来看,真正实现了低码率下质量是对齐opus、evs中高码率的,达到运营级质量。我们在相近码率下,mos分差过google和meta方案在0.6mo-1.0mos。
avs对此高度评价,“avs3p10 实时语音编码,作为新一代的语音编解码技术标准,是对avs系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。”。对此,团队表示,希望这个进展可以推动产业界在(音频)ai codec的技术演进和推广。
近日,avs3p10实时语音编码标准获得重要进展。
2023年12月14日,第 87 次 avs 工作组会议于成都开幕。会上,《智能媒体编码 第 10 部分 实时语音》(以下简称avs3p10) wd 1.0通过全体会议审议;腾讯提交的技术方案,被选择为avs3p10实时语音编码的rm0基线。
实时语音通信技术(rtc: real-time communication),已广泛应用于协同办公、互动娱乐、社交等领域。上述多样丰富的应用场景给实时语音通信技术提出了多种技术挑战,其中,高质量、低延时、低带宽、高抗性的语音编码是非常重要的一环。
传统的语音编码器,包括avs、itu-t等标准语音编码器,在16-20kbps左右码率时,能够恢复出高质量宽带语音;在30-35kbps,可以恢复出高质量超宽带甚至全带语音。然而,当码率进一步降低(如:降到10kbps以下时),传统语音编码器恢复的质量下降明显,影响用户体验。
基于上述应用诉求,在今年3月第84次avs会议上,由腾讯提议在avs音频组启动面向实时语音通信场景的低码率高质量语音统项目。经过需求分析,在第85次avs会议上,avs正式立项av3p10实时语音编码项目,并通过avs音频组发出技术征集书。avs3p10实时语音编码项目将由来自腾讯会议天籁实验室的肖玮负责推进和维护。
在第 86 次 avs 会议上,音频组审议了由腾讯会议天籁实验室提交的m7886《avs3p10语音编码参考模型候选技术方案》提案。
审议指出该方案具有以下4点特征:深度融合了经典信号处理和深度神经网络技术等人工智能技术,属于ai codec;支持低码率、高质量编码、实时编码和解码和多速率编码;基于子带编码和多模式编码架构,低频信号采用深度神经网络提取特征,高频信号采用频带扩展方案提取特征,结合标量量化和熵编码完成特征压缩;具有开放的编码神经网络架构技术特征,在保证码流前向兼容基础上,可以重新修改和优化编码神经网络。
今年11 月 1 日,腾讯会议天籁实验室提交avs3p10 rm0候选方案的可执行文件,由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。交叉验证力求全面,基于 itu-t p.800 dcr主观质量评价体系,主观测试覆盖不同带宽下纯净语音、丢包语音、混合语音等多场景,并首次将3a处理后的测试场景引入信源编码器测试中,以检验新一代ai codec技术在贴近真实场景的表现。
在上述测试场景下,avs3p10 rm0质量优势明显。主观测试结果表明,avs3p10 rm0在宽带和超宽带等多个主要测试场景均达到了4.0以上mos分,体现出明显优势,最低码率可达5.9kbps。avs3p10 rm0采纳了深度神经网络技术,自带的丢包损伤能力,有效提升了编码器在网络不佳时的质量。
此外,在itu-t p.863客观质量评价实验中,avs3p10 rm0也体现出了显著优势。第一,在所有8个测试码率中,avs3p10 rm0均超过4.0mos,最高在4.45mos。avs3p10 rm0的质量,可以对齐opus和evs等传统信号处理编码器在中高码率的表现,达到运营级质量。在ai codec领域,avs3p10 rm0在相近码率下,质量优势在0.6mos以上。上述测试结论均反映出,avs3p10 rm0代表了目前ai codec的最高水平。
avs3p10 实时语音编码,作为新一代的语音编解码技术标准,是对avs系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。 
未来,avs3p10实时语音编码项目,将按照既定计划推进。预计,在2024年年中,完成标准化工作。
aitisa联盟简介
新一代人工智能产业技术创新战略联盟(aitisa)由两百余家来自人工智能行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。联盟立足于人工智能技术资源及产业环境,联合人工智能领域的产、学、研、用、资、服等单位,以建立人工智能技术创新生态体系为基本愿景。 联盟通过“一体两翼”的工作部署,聚集工业界、科研界的中坚力量及相关机构,利用产业基金的引导,服务企业与开发者,推进人工智能产业的发展。
“一体两翼”中的 “一体”是指新一代人工智能开源开放平台(openi启智社区),“两翼”的“左翼”是以技术专家为主体组成的多个工作组,包括标准工作组、知识产权工作组、投融资工作组等。“右翼”是为以企业为主体的应用推进组,目的是促进人工智能在各产业领域的应用,已经在智能物流、智能医疗、智能政务、智能教育等方向开展工作。
自成立以来,联盟主办了全球人工智能产品应用博览会(aiexpo)、系列aitech国际智能科技峰会、上交会人工智能展区、天津世界智能大会分论坛、启智开发者大会等有重大影响力的会展活动,承办全国人工智能大赛,发布并启动了新一代人工智能开源开放平台(openi启智社区)、“新一代人工智能燎原计划”等。


2014年可能成为下一代电池突破的一年
小黄车又有新动作各种新政策 但还有多少用户相信它呢?
三星S8评测:三星S8和华为P10是怎么玩的?外观、性能、配置旗鼓相当,价格两个死对头怎么拼?
音圈电机加持的NASA无人机开始探寻生命
多层线路板和单层线路板怎么区分_三种区分方法盘点
AVS3P10实时语音编码标准获得重要进展
欧盟为防止滥用面部识别 考虑禁时五年限用面部识别
RFID系统中耦合器定向性的提高方法
等夏天,等秋天,等了这么久iPhone8你什么时候才能到来?
新能源客车的去库存和专用车的加库存
小米6满血复活,小米6使用骁龙835成定局?小米6骁龙835相关信息汇总
广明源SAFEGLO便携式空气净化器有效解决家庭日常杀菌消毒问题
OPPO K10 Pro最新搭载骁龙888 5G移动平台 打造出色的游戏体验
技术干货|工作频率可调的充电泵控制器
解读2019生命科学领域的最新趋势,微生物的威力你想象的到吗?
电容器知识点详解(三)
外媒:中国集成电路设计产业营收的年复合增长率为22%
PicoScope OEM应用分享—电源时序测试
华大半导体旗下积塔半导体汽车芯片生产线项目银团正式签约
全新的WEBENCH®电源设计器将更加易于使用