科大讯飞ICDAR 2023收获四项冠军,图文识别理解能力持续进阶

作为文档图像分析识别领域最重要的国际会议之一,国际文档分析与识别会议icdar 2023(international conference on document analysis and recognition)近期传来好消息:   科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心(以下简称研究中心)在多行公式识别、文档信息定位与提取、结构化文本信息抽取三项比赛中获得四个冠军!     
mlhme之冠: 首个“多行书写”挑战赛,复杂度再突破   mlhme(多行公式识别比赛)考查输入包含手写数学公式的图像后,算法输出对应latex字符串正确率。值得一提的是,相比此前数学公式识别赛事,此次比赛业内首次将“多行书写”设为主要挑战对象,且不同于之前识别扫描、在线手写的公式,本次以识别拍照的手写多行公式为主。   最终,科大讯飞研究院图文识别团队以67.9%的成绩拿下冠军,并在主要评价指标——公式召回率(expression recall,即统计识别正确的样本数占总测试样本数的比例)上大幅超越其他参赛团队。
公式召回率与榜单中submit results相对应   针对比赛中出现的多行公式结构复杂问题,团队使用大卷积核的conv2former作为编码器结构,扩大了模型的视野,更好地捕捉多行公式的结构特征;创新性提出基于transformer的结构化序列解码器ssd,显式对多行公式内部的层次关系做了精细化建模,极大提升了复杂结构的泛化性,更好地建模了结构化语义。
多行公式结构复杂,图片质量不高、批改干扰   针对图片质量问题所引起的字符歧义问题,团队创新性提出了语义增强的解码器训练算法,通过语义和视觉的联合训练,让解码器具备内在的领域知识。当字符难以辨认时,模型能够自适应利用领域知识做出推理,给出最合理的识别结果。   针对字符尺寸变化大的问题,团队提出了一种自适应字符尺度估计算法和多尺度融合解码策略,极大提升了模型对字符大小变化的鲁棒性。    
docile之冠:“行里挑一” 文档信息定位与提取比赛双赛道登顶榜首   docile(文档信息定位与提取比赛)评估机器学习方法在半结构化的商业文档中,对关键信息定位、提取和行项识别的性能。该赛事分为kile和lir两个赛道任务,讯飞与研究中心最终收获双赛道冠军。
kile赛道榜单和lir赛道榜单双第一
此次赛事,文档中待抽取的信息种类非常繁杂。面对挑战,联合团队在算法层面提出了两项技术创新方案:   预训练阶段设计了基于ocr质量的文档过滤器,从主办方提供的无标注文档中提取出274万页的文档图像,随后通过预训练语言模型获取文档中各文本行的语义表征,并采用掩码语句表征恢复任务进行不同top-k(graphdoc模型中关于文档的注意力范围的一个超参数)配置下的预训练。
在数据集微调阶段,团队使用了预训练后的graphdoc提取文本框的多模态表征,并进行分类操作。在分类结果的基础上,将多模态表征送入低层注意力融合模块进行实例的聚合,在实例聚集的基础上,使用高层注意力融合模块实现行项实例的聚集,所提出的注意力融合模块结构相同、但彼此不共享参数,可以同时用于kile和lir任务且具有很好的效果。
svrd之冠:零样本票证结构化信息抽取任务第一 预训练模型大考验   svrd(结构化文本信息抽取)比赛分为4个赛道子任务,讯飞与研究中心在难度颇高的零样本结构化信息抽取子赛道(task3:e2e zero-shot structured text extraction)获得第一。
榜单排名   零样本对预训练模型能力提出了更高要求。同时,比赛使用的发票版式多样、同一个要素名称不同、照片背景干扰、反光、文字重叠等问题,进一步提升了识别和抽取难度。
不同版式的发票以及条纹背景干扰的发票     团队首先对要素抽取模型采用复制-生成双分支解码策略,在前端ocr结果置信度较高的情况下直接复制ocr结果,在ocr结果置信度较低的情况下生成新的预测结果,以此缓解前端ocr模型引入的识别错误。   此外,团队还基于ocr结果提取句子级的graphdoc特征作为要素抽取模型输入,该特征融合了图像、文本、位置、版面多模态特征,相比于单模态的纯文本输入具有更强的特征表示。   在此基础上,团队还结合了unilm、lilt、docprompt多个要素抽取模型在不同场景、不同语种上的性能优势进一步提升了最终的要素抽取效果。    
教育、金融、医疗等已落地应用   科大讯飞在icdar 2023数个比赛中“多点开花”,既是在图文识别理解技术上的持续进步,也是应用落地的不断扩宽。此次夺冠的技术,也已经深入教育、金融、医疗、智能硬件等领域,赋能多项业务与产品。   在教育领域,手写公式识别的技术能力被高频使用,机器能给予精准的识别、判断和批改。例如科大讯飞ai学习机中的个性化精准学、ai诊断;老师上课所使用的“讯飞智慧窗”教学大屏、学生的个性化学习手册等,都已发挥了很大成效。
不久前科大讯飞全球1024开发者节上发布的星火科研助手,三大核心功能之一的论文研读可实现智能解读论文,快速回答相关问题。后续在高精度公式识别基础上进阶有机化学结构式、图形、图标、流程图、表格等结构化场景识别的效果,这项功能也会更好助力科研工作者提升效率。
文档信息定位与抽取技术则在金融领域得到了广泛运用,例如合同要素抽取与审核、银行票据要素抽取、营销内容消保审查等场景,可以实现文档或文件的数据解析、信息抽取和比对审核等功能,从而辅助业务数据的快速录入、抽取、比对,实现审核过程的降本增效。
同样在今年1024上发布的个人ai健康助手——讯飞晓医,不仅能扫描检查单、化验单识别后给出分析和建议,还可以扫描药盒后进一步主动询问、给出辅助用药建议。对于体检报告,拍照上传后讯飞晓医可以识别全维度关键信息,联合异常指标综合解读,主动询问发现更多问题给予帮助。当然,背后也是文档信息定位与抽取技术的支持。
从单字识别、文本行识别,到难度更高的二维复杂结构识别、篇章级识别,科大讯飞的图文识别相关技术在算法上持续迭代突破,更强的图文识别技术还能使多模态大模型在图像描述、图像问答、识图创作、文档理解与处理上展现出更好的效果和潜力。   图文识别技术结合语音识别、语音合成、机器翻译等技术形成系统性创新,也将赋能产品应用展现出更强大的功能,融入千行百业,走进千家万户。

果粉悲剧了,iPhone7恐怕9月无法开卖
盐雾腐蚀试验检测怎么办理,深圳盐雾测试那里可以做
非洲最强超算或可杀入全球百强超算
北京协和与华为签署战略合作协议,共建研究型智慧医院
MLPerf评测完美收官,浪潮信息44项冠军成功领跑
科大讯飞ICDAR 2023收获四项冠军,图文识别理解能力持续进阶
磁环选型的攻略和EMC整改的技巧
连续四年排名前十,功率器件领先企业新洁能昨日上市,连续两天涨停!
最轻最薄的笔记本是上网本,但实际上你很难再买到
4~20mA变送器的典型故障及解决办法
压差传感器与压力传感器的区别
BaaS平台正在为市场上一些最知名的区块链实现提供支持
Datalogic,50年的成功
数字工具、物联网和数据分析或成建筑公司改进运营的关键
交易所数量逆市增长,Hubi告诉你交易所红利远未结束!
诺基亚将采取四管齐下的战略来推动5G的发展
全球各企业在人工智能和区块链等新兴技术中的应用情况分析
接近传感器及现有方案
关于语音芯片的极限温度你知有多少?
采用DSP+FPGA系统结构实现全姿态指引仪设计