服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型

日期: 来源:机器之心收集编辑:SOTA模型

文档 AI(Document Artificial Intelligence)领域研究包括文档内容提取,分析和理解。近日,微软 Cognitive Services Research 和 UNC Chapel Hill 提出了文档 AI 的基石模型 “Universal Document Processing (UDOP)”。该模型统一了图像、文本和格式模态,并以生成模型的方式整合了各类文档理解和文档生成任务。

UDOP 利用文本内容和文档图像之间的空间相关性,提出用统一的表征方法来建模图像、文本和格式模态。UDOP 在大规模未标记文档语料库和多样化标记数据上进行预训练,学习生成文档图像的文本和布局模态。UDOP 在文档 AI 领域首次实现了高质量的文档图像生成和定制化的内容编辑。UDOP 在 8 个文档 AI 任务上刷新了记录,在 “DUE Benchmark” 上排名第一。

机器之心最新一期线上分享邀请到了微软 Azure 的高级研究员杨子弋及其学生唐子能,为大家分享他们近期工作 UDOP。

分享主题:UDOP:统一视觉、语言、格式、任务的通用文档处理模型

分享嘉宾:

唐子能,UNC Chapel Hill 数学专业大四本科生。师从 Mohit Bansal 教授。他曾在 2022 年于微软 Azure 实习,导师为杨子弋博士。他曾获得获得 2023 年度 CRA Outstanding Undergraduate Researcher Award。

杨子弋,微软 Azure Cognitive Services Research 高级研究员,博士毕业于斯坦福大学,师从 Eric Darve 教授。研究方向为多模态理解和生成,及自然语言处理。

分享摘要:UDOP 是文档人工智能领域的基石模型。我们将介绍 UDOP 的模型结构与大规模生成式预训练方法,以及 UDOP 如何统一文本,图像,格式模态和各类任务。UDOP 在各类文档理解任务上大幅度刷新了记录。我们也将展示 UDOP 作为第一个有文档图像生成与编辑能力的模型的视觉生成效果。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/udop

2)论文链接:

https://arxiv.org/abs/2212.02623

3)代码仓库:

https://github.com/microsoft/i-Code/tree/main/i-Code-Doc


加群看直播
直播间:关注机器之心机动组视频号,北京时间 3 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「UDOP」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

相关阅读

  • 全面了解大语言模型,这有一份阅读清单

  • 机器之心报道机器之心编辑部了解当代大型语言模型背后的设计、约束和演变,你可以遵循本文的阅读清单。大型语言模型已经引起了公众的注意,短短五年内,Transforme等模型几乎完全
  • 基于差分隐私的联邦学习数据隐私安全技术

  • 摘  要:联邦学习方法在大数据时代有效解决了“数据孤岛”问题,也在一定程度上保障了数据隐私安全。然而,联邦学习的许多方面仍面临隐私风险。首先归纳总结了联邦学习面临的常
  • 腾讯短文本对话专利获授权

  • 【环球网科技综合报道】3月20日消息,天眼查App显示,近日,腾讯科技(深圳)有限公司申请的“短文本对话方法、装置、设备及存储介质”专利获授权。摘要显示,该方法包括:获取查询文本;调
  • 大模型火爆全网,AI服务器成隐形赢家

  • 就在上周四,百度发布文心一言数据大模型,掀起全网热议。无论是ChatGPT-4还是文心一言,本质都是算法大模型带起来的AI军备竞赛,而除了这些大公司,大模型的出现还有望带动AI服务器
  • 产业调研:百度文心一言与GPT-4的差距有多大?

  • 产业调研系列近期我们有幸邀请到产业一线专家为我们解读人工智能行业的产业进展,现分享如下:Q:ChatGPT及GPT4未来有哪些典型的应用范围、使用场景,目前有什么样的进展,能否给我们
  • 230319 人工智能360 周鸿祎交流

  • Q:上游哪些场景很关键?A:算力不是最关键的问题,场景和数据是关键。我们二线队伍,账上200多亿人民币,之前国家搞了很多超算中心,没事情干,现在发现配了GPU就有东西看。Transformer算
  • ChatGPT会否替代股票分析师?

  • 点击蓝字 关注我们引 言ChatGPT刚刚一问世,就惊艳了世界。大家纷纷惊呼,人工智能的大时代要来了。我们做投资的也很好奇,ChatGPT这样的人工智能技术,对我们投资有什么样的帮助?特

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 全面了解大语言模型,这有一份阅读清单

  • 机器之心报道机器之心编辑部了解当代大型语言模型背后的设计、约束和演变,你可以遵循本文的阅读清单。大型语言模型已经引起了公众的注意,短短五年内,Transforme等模型几乎完全
  • 26岁年薪百万!最新“天才少年”曝光

  • 近期,据电子科技大学披露,2022年秋季校园招聘中,该校博士研究生宁博宇进入华为,成为“天才少年”项目一员,年薪百万。又一百万年薪“天才少年”曝光华为高薪招聘“天才少年”备受