返回首页  设为首页  加入收藏  今天是:
网站首页科技手机智能科学时尚教育亲子艺术房产
相关文章
 科大讯飞ICDAR 2023收获四冠…
 李开复也来了!“零一万物”…
 扫一扫智能识别万物 好用的手…
 “乌镇时间”共话“网”事 智…
 安恒信息与万物梁行签署战略…
 北京西城发布“西融计划”人…
 新一代大智慧:科技发展的前…
 闪耀乌镇!杉数科技荣获2023…
 乌镇世界互联网科技馆开馆 六…
 一篇文章教你打造科技风PPT质…
 曲青山穆兆勇:全面把握“两…
 以高度自觉抓好《纲要》的贯…
 初心使命引领中国百年建设
 中共中央通知要求认真学习《…
 党章是全面从严治党之“纲”
 贝恩发布中国奢侈品市场研究…
 40万的包只敢在家欣赏!她忏…
 国内最大奢侈品商场外卖员禁…
 又一国际大牌辱华杨幂2小时解…
 奢侈品又涨价!一个CHANEL包…
 聚焦家庭教育“莱州模式”“…
 牟平区家庭教育进社区主题活…
 交通安全宣传进校园
 送法进万家 家教伴成长——云…
 “食品安全宣传周——护苗行…
 庆祝第24个中国记者节· 晋江…
 青浦重点样本展丨社区规划系…
 盐城盐都旭日社区开展亲子阅…
 幼儿园小班健康领域:《小手…
 金华市机关幼儿园开展2023学…
 一网通办 审核秒批 深圳实现…
 上海在全国率先启动银行可在…
 银行可网查家庭房产信息
 深市上市公司公告(11月8日)
 马云改口楼市:二三线倍!
 那些值得一去的艺术区
 美术馆的起源:大众、艺术与…
 798艺术区户外雕塑展:热闹背…
 798艺术区:是没落了 还是升…
 艺术家败退798
 米家全能扫拖机器人1S
 金铲铲之战双城之战最强阵容…
 换新手机认准京东采销直播 京…
 vivo千元机发布!搭载骁龙68…
 vivo手机有哪些系列?值得入…
 越级新标杆!最有质感的千元…
 全新 vivo X100系列或颠覆认…
 比亚迪仰望 U8 首批量产车下…
 拥抱通用人工智能新时代
 维意定制重磅发布「好设计找…
专题栏目
网络
您现在的位置: tac新闻网 >> 智能 >> 正文
高级搜索
科大讯飞ICDAR 2023收获四冠图文识别理解新一程
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/11/11 14:29:01 | 【字体:

  于咏琳整容对比照工程研究中心(以下简称研究中心)在多行公式识别、文档信息定位与提取、结构化文本信息抽取三项比赛中获得四个冠军。

  MLHME(多行公式识别比赛)考查输入包含手写数学公式的图像后,算法输出对应LaTex字符串正确率。值得一提的是,相比此前数学公式识别赛事,此次比赛业内首次将“多行书写”设为主要挑战对象,且不同于之前识别扫描、在线手写的公式,本次以识别拍照的手写多行公式为主。

  最终,科大讯飞研究院图文识别团队以67.9%的成绩拿下冠军,并在主要评价指标公式召回率(Expression Recall,即统计识别正确的样本数占总测试样本数的比例)上大幅超越其他参赛团队。

  多行公式相比单行结构复杂度更高,同一个字符在公式里多次出现时尺寸大小也会有变化;同时,比赛使用的数据集来自真实场景,拍照的手写公式图片更是存在质量低下、背景干扰、文字干扰、涂抹和批注干扰等问题。这些因素让比赛难度陡增。

  针对多行公式结构复杂问题,团队使用大卷积核的Conv2former作为编码器结构,扩大了模型的视野,更好地捕捉多行公式的结构特征;创新性提出基于transformer的结构化序列解码器SSD,显式对多行公式内部的层次关系做了精细化建模,极大提升了复杂结构的泛化性,更好地建模了结构化语义。

  针对图片质量问题所引起的字符歧义问题,团队创新性提出了语义增强的解码器训练算法,通过语义和视觉的联合训练,让解码器具备内在的领域知识。当字符难以辨认时,模型能够自适应利用领域知识做出推理,给出最合理的识别结果。

  针对字符尺寸变化大的问题,团队提出了一种自适应字符尺度估计算法和多尺度融合解码策略,极大提升了模型对字符大小变化的鲁棒性。

  DocILE(文档信息定位与提取比赛)评估机器学习方法在半结构化的商业文档中,对关键信息定位、提取和行项识别的性能。

  该赛事分为KILE和LIR两个赛道任务,KILE任务需要定位文档中预定义类别的关键信息位置,LIR任务需要在前者基础上,进一步将每个关键信息分组为不同的行项条目(Line Item),比如表格中某一行单个对象(数量、价格)等。讯飞与研究中心最终收获双赛道冠军。

  从赛事官方给出的任务图示可以看出,文档中待抽取的信息种类非常繁杂。其中,KILE任务不仅需要提取预定义类别的关键信息,还要得到关键信息的具体位置;LIR任务中,一个行项在单个表格中可能有多行文本。加上此次赛事数据集中信息种类多、文档版式复杂多样,增加了挑战性。

  预训练阶段设计了基于OCR质量的文档过滤器,从主办方提供的无标注文档中提取出274万页的文档图像,随后通过预训练语言模型获取文档中各文本行的语义表征,并采用掩码语句表征恢复任务进行不同Top-K(GraphDoc模型中关于文档的注意力范围的一个超参数)配置下的预训练。

  在数据集微调阶段,团队使用了预训练后的GraphDoc提取文本框的多模态表征,并进行分类操作。在分类结果的基础上,将多模态表征送入低层注意力融合模块进行实例的聚合,在实例聚集的基础上,使用高层注意力融合模块实现行项实例的聚集,所提出的注意力融合模块结构相同、但彼此不共享参数,可以同时用于KILE和LIR任务且具有很好的效果。

  SVRD(结构化文本信息抽取)比赛分为4个赛道子任务,讯飞与研究中心在难度颇高的零样本结构化信息抽取子赛道(Task3:E2E Zero-shot Structured Text Extraction)获得第一。

  在官方指定不同类型发票需要提取的关键要素背景下,该赛道要求参赛团队利用模型输出这些关键要素在图片中的对应内容,“零样本”则代表训练集和测试集的发票类型并无交集;赛道考查模型端到端预测准确率,取score1、score2加权平均值作为最终评价指标。

  零样本对预训练模型能力提出了更高要求。同时,比赛使用的发票版式多样,乘车站点、发车时间等要素在不同版式中的名称各不相同,发票照片还存在背景干扰、反光、文字重叠等问题,进一步提升了识别和抽取难度。

  团队首先对要素抽取模型采用复制-生成双分支解码策略,在前端OCR结果置信度较高的情况下直接复制OCR结果,在OCR结果置信度较低的情况下生成新的预测结果,以此缓解前端OCR模型引入的识别错误。

  此外,团队还基于OCR结果提取句子级的graphdoc特征作为要素抽取模型输入,该特征融合了图像、文本、位置、版面多模态特征,相比于单模态的纯文本输入具有更强的特征表示。

  在此基础上,团队还结合了UniLM、LiLT、DocPrompt多个要素抽取模型在不同场景、不同语种上的性能优势进一步提升了最终的要素抽取效果。

  此次选择ICDAR 2023的相关赛事进行挑战,来源于科大讯飞在实际业务中的真实场景需求;赛事相关的技术也已经深入教育、金融、医疗、司法、智能硬件等领域,赋能多项业务与产品。

  在教育领域,手写公式识别的技术能力被高频使用,机器能给予精准的识别、判断和批改。例如讯飞AI学习机中的个性化精准学、AI诊断;老师上课所使用的“讯飞智慧窗”教学大屏、学生的个性化学习手册等,都已发挥了很大成效;

  不久前科大讯飞全球1024开发者节主论坛上发布的星火科研助手,三大核心功能之一的论文研读可实现智能解读论文,快速回答相关问题。后续在高精度公式识别基础上进阶有机化学结构式、图形、图标、流程图、表格等结构化场景识别的效果,这项功能也会更好助力科研工作者提升效率;

  文档信息定位与抽取技术则在金融领域得到了广泛运用,例如合同要素抽取与审核、银行票据要素抽取、营销内容消保审查等场景,可以实现文档或文件的数据解析、信息抽取和比对审核等功能,从而辅助业务数据的快速录入、抽取、比对,实现审核过程的降本增效;

  同样在此次1024主论坛上发布的个人AI健康助手讯飞晓医,不仅能扫描检查单、化验单识别后给出分析和建议,还可以扫描药盒后进一步主动询问、给出辅助用药建议。对于体检报告,拍照上传后讯飞晓医可以识别全维度关键信息,联合异常指标综合解读,主动询问发现更多问题给予帮助。当然,背后也是文档信息定位与抽取技术的支持。

  从单字识别、文本行识别,到难度更高的二维复杂结构识别、篇章级识别,科大讯飞的图文识别相关技术在算法上持续迭代突破,更强的图文识别技术还能使多模态大模型在图像描述、图像问答、识图创作、文档理解与处理上展现出更好的效果和潜力;

  与此同时,图文识别技术也结合语音识别、语音合成、机器翻译等技术形成系统性创新,赋能产品应用后展现出更强大的功能与更明显的价值优势,相关项目也获得了2022年度吴文俊人工智能科技进步奖一等奖。新一程里,在ICDAR 2023数个比赛中“多点开花”,既是科大讯飞在图文识别理解技术深度上持续进步的回馈,也是广度上不断铺开的肯定。

  DMK黑暗荣耀2023光明季年终盛典成功举办——悦享黑暗荣耀,共启璀璨未来

  DMK黑暗荣耀2023光明季年终盛典成功举办——悦享黑暗荣耀,共启璀璨未来

  细胞护肤品牌A-9 Code正式上市,以细胞级抗衰研究引领护肤新纪元!

  细胞护肤品牌A-9 Code正式上市,以细胞级抗衰研究引领护肤新纪元!

  第六届紫亚兰国际抗衰老医美大会于2023年11月3-5日在深圳会展中心隆重举行。作为世界抗衰老医美技术交流...

  引言在人工智能技术飞速发展的当下,OpenAI凭借其在AI领域的深厚积累和不断创新的精神,推出了WorldBrai...

  2023首届山东省中医药文化节暨中医药科技成果及产业博览会于11月3日在济南舜耕国际会展中心盛大开幕,此...

  为促进全球森林可持续经营,增进热带森林地区百姓生活福祉,协同应对气候变化和保护生物多样性,澳门贸...

  款,是大家在面对临时的经济困难时,可以选择的一种金融服务。尤其是像中邮消费金融这样正规持牌的金融...

  在今年的进博会上,苏州9家老字号企业受邀进驻江苏交易团人文交流活动展示区,面向全球展示江苏省老字号...

  现如今在新能源汽车领域,智能座舱、智能网联和智能驾驶技术的重要性越来越突出,不卷定然是没有出路的...

  11月5日,鲲鹏论坛--第六届中国水产高值饲料发展研讨会暨第三届农牧企业高峰论坛在广东湛江成功举行。广...

  2023年11月5日至6日,以共建新一代工业软件体系,引领制造业高质量发展为主题的2023工业软件生态大会在...

  11月4日,广州公共资源交易中心网站对外发布了广州市黄埔区长岭街水西社区(元贝片)旧村改造项目公开引...

智能录入:admin    责任编辑:admin 
  • 上一个智能:

  • 下一个智能: 没有了
  •  
     栏目文章
    普通智能 科大讯飞ICDAR 2023收获四冠图文识别理解新一… (11-11)
    普通智能 李开复也来了!“零一万物”发布Yi系列大模型… (11-11)
    普通智能 扫一扫智能识别万物 好用的手机识物APP (11-11)
    普通智能 “乌镇时间”共话“网”事 智慧互联邂逅数字未… (11-11)
    普通智能 安恒信息与万物梁行签署战略合作协议智慧科技… (11-11)
    普通智能 米家全能扫拖机器人1S (11-11)
    普通智能 比亚迪仰望 U8 首批量产车下线即将开启交付 (11-10)
    普通智能 拥抱通用人工智能新时代 (11-10)
    普通智能 维意定制重磅发布「好设计找维意」战略丨抢占… (11-10)
    普通智能 读懂AI系列专栏勇踏前人未至之境:AI伦理问题… (11-10)
    普通智能 智能家居系统工程师怎么报考?有哪些报考条件… (11-10)
    普通智能 协创数据获12家机构调研:公司主要产品应用于… (11-10)
    普通智能 智能家居时代谁来解救全方位体感? (11-10)
    普通智能 90%企业都在用的“内卷神器” 你还没用? (11-10)
    普通智能 送餐机器人使用维护的注意事项 (11-10)
    普通智能 百度识图怎么找另一半情头 百度识图找另一半情… (11-10)
    普通智能 OPPO Watch 3支持下载第三方APP吗 Pro支持血管… (11-09)
    普通智能 苹果iPhone营收创Q3新高机构:智能手机已适应… (11-09)
    普通智能 “车手”再“联姻”!比亚迪为OPPO发预热海报… (11-09)
    普通智能 打造全新哈苏大师影像Find X7系列将首发新一代… (11-09)