2025 年多模态文档解析革命:十余款模型问世,MonkeyOCR 成亮点

进不了网站?换个网络试试!

图源:WPS官网

图源:WPS官网

WPS派来的猴子,让复杂文档解析有救了!

在人工智能步入大模型时代之际,哪一条方向属于最为热门、竞争最为激烈的赛道呢?答案或许并非唯一,然而借助多模态大模型开展文档智能解析绝对算得上是一个。

自2025年6月起始,仅仅历经半年时长,众多科技公司,以及初创企业,还有研究机构,纷纷投身其中,发布了一连串突破性模型,进而掀起了一场“解析革命”。

陆续有十余款新型文档解析模型问世,其中涵盖了 -OCR 等,这些模型覆盖了多个维度,像是 OCR 维度,结构化提取维度,版面分析维度等 。

图注:2025年6月起,十余款多模态文档解析模型先后发布

图注:2025年6月起,十余款多模态文档解析模型先后发布

这些模型,不再被传统字符识别所局限,而是深度融合视觉跟语言的多模态能力,达成了对复杂文档,像PDF、扫描件、表格、发票的语义级理解以及结构化输出,。

其中,金山办公与华中科技大学联合,在近期发布之中,发布了v1.5,这v1.5成为了这一领域的最新技术进展,有此类情况。

这是一个,全是新的,具备统一视觉语言的,文档解析框架。从它英文名字瞧,能够称得上是,金山办公为去解决,复杂文档智能解析难题,而派出的“猴子救兵”。

于全球权威文档解析评测榜单v1.5里,它取得93.01分的成绩,获取综合性能全球首位,变为多模态文档解析领域的全新标杆。

多模态时代的“复杂文档智能感知系统”

OCR技术,也就是光学字符识别技术,是在早期就已有之,能使机器对文字实现理解、达成看懂目的较为靠前的技术种类其中之一。它的核心任务在于,把图像里所包含的文字,转变为可凭借其进行编辑、能够借助它予以检索的文本。

比如在扫描文档的场景应用,在票据识别录入的场景应用,在街景招牌识别的场景应用,以及以翻译的实时摄像头翻译功能为代表的翻译与语言辅助系统的场景应用。

机器辨认文字所需进行的工作,以及处理纸质媒介相关档案的那桩事情里存在的识别文字、履行流程等环节,借助OCR技术得到无与伦比之尽可能简便层面的优化,人们仅需要针对目标事物拍摄一张照片,或者直接对相关具有记录价值的印刷物进行扫描这类动作,即可将文字种类、表现形式包含诸如表格、网页等的信息提取而获得,由此也促使信息数字化的发展潮流变得更加广阔,成为“无纸化办公”行径以及“自动化文档处理”进程得以顺行的基础支撑。

就OCR技术的发展进程来观察,能够划分成OCR1.0阶段,以及OCR2.0阶段。

OCR 1.0主要是依据CNN也就是卷积神经网络与LSTM即长短期记忆网络相结合的深度学习模型,像CRNN、CTC等经典架构。它的系统一般通过文字检测和文字识别独立模块组成,前者是对图像里的文本区域进行定位,后者是把文本区域转化成具体文本内容。

这一时期的OCR技术,把“机器识字”的基础问题给解决了。然而,其存在着一个本质性的限制:能够辨别字符所写的内容,却没办法领会图像之中的语义关联。举例来说,它难以区分一段文字究竟是标题、表格数据,还是公式的一部分 。

当下,办公场景变得越来越复杂,仅仅依靠传统OCR去干检测以及识别文字这事儿,已经没办法满足需求了 。在现代的文档处理当中,需要模型具备这样的能力,那就是能够理解文档的布局结构,能够准确地去表达各个元素之间的逻辑关系,并且还得能够特别高精度地提取文本、公式以及表格等结构化信息 。

为此,新一代的OCR技术就这么出现了。有那样一些以.5、-VL、Dots.OCR当作代表的多模态模型以及解析方案,达成了从“文本识别”朝着“文档理解”的跨越。这些技术不再只是返回文本呀,而是能够输出、JSON、HTML等结构化格式呢,使得我们从“看文字”提升为“读文档”。

于其中,二零二三年大模型的爆发属于一个全新的转折点,此转折点将深度学习的格局予以了彻底改变。被以GPT - 4V、Qwen - VL为代表来呈现,在视觉语言模型( - Model,VLM)方面,使得人工智能切实拥有了那“同时理解文字与图像”的能力 。

这表明,OCR2.0 模型具备这样的两个能力方面,一方面是能够“看图识字”,另一方面是能“看图晓意”,也,OCR为2,能精确识别论文PDF里的文字。对图表,它不仅只是解析,而且还能够理解 。

要是讲LLM也就是大语言模型是那所谓的“大脑”之话,那么OCR即是“视觉皮层”,又或者可以说是智能感知系统,它决定了AI所能“看到”的内容,进而决定AI能够“理解”的东西。

在OCR阶段,要是模型或者产品的识别能力欠缺,并且理解能力也不够,那么就会动摇多模态RAG(检索增强生成)系统的“知识理解”的根基。

可以这样理解,OCR是办公环境底下,数据孤岛相互之间的链接器,唯有高效且精准地打通数据转化方面的壁垒,才能够切实地将数据转变为AI能够领会理解的企业知识,进而为多模态RAG(检索增强生成)技术提供具备高质量的“数据燃料”。

图注:MonkeyOCR v1.5突破多模态文档解析性能上限(点击看大图)

图注: v1.5突破多模态文档解析性能上限(点击看大图)

反过来讲,于那个被称作OCR 1.0的时期,模型所达成的主要是“文字扫描”这一功能:它能够察觉到PDF里的文字,然而仅仅局限于辨认“这些字到底是什么”。等到步入了OCR 2.0的阶段,模型已然可以达成语义层面的解析、结构层面的还原、视觉与语义相互融合以及深层内容的理解。

其角色出现了根本性转变,先是从单纯的作为“输入预处理工具”,接着升级为“知识理解的起始点”,后来又进阶为真正的被称之为“文档理解器”的存在。

需要补充说明的是,当下主流的视觉语言模型,也就是VLM,像Qwen-VL、、Gemma这类,尽管参数量众多、通用性很强,然而在结构化多模态信息提取方面,在高精度大尺寸文档解析方面,在轻量化部署这类专业场景当中,通常很难直接达成胜任的状态。

经过针对文档理解任务加以专门优化的OCR 2.0模型,像-OCR、-VL这样的,在文档图像实体检测方面表现更为优异,在版面分析方面表现更为优异,在信息结构化输出方面表现更为优异,在PDF-转换等核心任务上也表现更为优异,达到并顺利实现了效率与精度的更优平衡,最终达成了效率与精度的更优平衡 。

比如,新版已然清晰地把“通用文字识别”,也就是(OCR 1.0),跟“通用文档解析”,也就是(OCR 2.0),划分成两个彼此独立的模块。

说的是 v1.5,它是这一演进路径里的新代表作,在全能多模态文档解析基准 v1.5,-bench上,它全面超过 2.5、PPOCR-VL、-OCR等之前最优方法,特别是在复杂表格场景中,和之前表现最佳的.5相比,效果提高了近 2.5% 。

能够讲,v1.5属于多模态时代的“复杂文档智能感知体系”,它并非传统OCR的进步版本,只是朝着“文档理解”跨出的重要一步。

甚至能够这么讲,v1.5开启了OCR2.0+的时代,它把OCR推进到了多模态智能系统的核心感知入口那般的高度,使之成为连接物理文档跟数字智能的关键桥梁,达成了从工具到智能信息平台甚至到智能解析大脑层面的蜕变 。

“猴子的救兵”有哪些本领

和传统OCR技术不一样,传统OCR技术仅仅能够识别文字,却没办法理解上下文之间的关系,也没办法将一份复杂的学术PDF转化成层次清晰的结构化信息,而一种技术能准确地理解复杂布局文档里各元素的逻辑位置和符合人类阅读偏好的阅读顺序。

同时,能够精确辨认文本、公式、表格等关键元素的信息,甚至,能够毫无损耗地还原内嵌图片的表格,以及跨越了多页或者跨过多栏的表格。

于实际应用当中,高校科研人员凭借其来大量解析论文,把二十篇文献的数据整理用时由两天缩减到五分钟,在商业场景里,把一份跨具有多页、包含产品插图的商品目录表格,毫无损伤地还原成一个完整的结构化数据等 。

在此自动化业务流程当中,存在企业内部的文档处理情况,其中涵盖合同、报表、发票等内容,达成了数据的自动提取以及结构化,借此提升了效率,还减少了人工干预。

v1.5有着这样的智能解析能力,原因在于其核心设计理念,该理念把全局的结构理解以及细粒度的内容识别高效地解耦开了,并且在最为关键、最为复杂的环节引入了创新性的智能算法。

为此,它创新地将解析流程简化为两个清晰、轻量的阶段:

第一阶段,要给AI戴上“全局扫描镜”,v1.5模型会先对文档布局以及阅读顺序进行预测,诸如文本、表格、公式所处位置等情况,以此保证AI不会出现类似盲人摸象那样碎片化的阅读方式,而是能够从整体上把握信息脉络,并且还能从源头减少错误。

第二阶段,处于那般局部的情形之下,会展开“精加工”这一行为。依据第一阶段所进行检测之后得出的结果,以并行的方式去实施裁剪操作,经由同一个VLM对相应区域块的内容予以识别,接着按照第一阶段的阅读顺序,再次进行组合,最终将完整的结构还原出来。

其运作的逻辑是,系统会把检测到的那个区域块剪裁出来,针对文本、公式以及表格展开并行识别,这样一种“先定位、而后再细看”的策略,兼顾了效率跟精度,既能够看得准确,又可以认得正确。

v1.5 针对复杂文档解析,存在一大杀手锏,那就是图像解耦技术,面对表格中嵌入图片所产生的干扰,模型会如同戴上了一副“偏光镜”一般,先将干扰图像遮住,并且用占位符进行替代,使得 AI 能够专注于对纯文本表格骨架展开解析,最后再把图片精准地贴回 。

这样一种具备创新性的两阶段架构,还有针对嵌入图像、跨页表格的专用模块,极为出色地解决了复杂文档里的噪声干扰问题,防止在表格还原时错误地把图片内容当作单元格内容来识别,与此同时,其内嵌的图像模型和表格识别模型能够相互分离,达成任务方面的解耦。

这样去看待的话,v1.5并非是“又一个OCR”,它好似是给这模型戴上了一副“偏光镜”,此“偏光镜”会自动滤除掉干扰表格结构的图片噪声,仅仅去看骨架部分,进而能够成为针对高价值复杂文档打造的垂类智能解析引擎。

v1.5的范式意义

要是讲图片生成算作AI的“创作之笔”,而对复杂文档的解析便是AI的“深度阅读之眼” ,这恰恰是WPS「原生+智能体」思路的落地实施 ,背后意味着金山办公凭借自身场景优势 ,着重打磨更适宜于应用落地的AI模型的理念 。

之所以如此,是由于在将来的AI时代,真正能够大规模实现落地,进而产生实际价值的,不一定是参数数量庞大,且算力需求很高的通用大模型,那些具备轻量、快速、垂直特点,适合在本地或者移动端进行部署的专用模型,也就是垂直AI模型,同样能够在其擅长的领域发挥出巨大的效能。

正如诸多评测以及用户反馈所作出的评价那样,v1.5是复杂文档智能解析范畴内的一个关键里程碑,它不只是于技术层面达成了多项创新,还开创了OCR2.0+这家伙呀的崭新局面呢。

更关键的是,它给出了一个全新的OCR技术思路,这个思路是,借助经由创新而来的轻量级与本地化两阶段VLM设计,以及视觉一致性强化学习,还有针对性的模块化解决方案,能够于复杂文档智能解析方面,达成准确性、效率以及实用性的最优平衡,。

于办公这个具备高频特点、有着高价值属性的场景之中,精心打磨出世界级的模型,还要促使它成为人工智能时代全新的协同办公范式。

v1.5并非是那种用来展示高超技术的垂直AI模型,虽然当下我们正处于AI大模型的时代,然而大量的对于至关重要的信息依旧是以PDF、扫描件以及纸质档案的形式存在着,像科研方面的论文、法律领域的合同、医疗范畴的记录、工程相关的图纸、政府所发布的公文等诸如此类 。

倘若咱们没办法以高效且精准的方式把它转化成结构化知识,并且不能弄明白复杂表格以及图片方面的信息,那么AI就跟“睁眼瞎”没什么两样。OCR技术不断发展,除了在对于文档的识别上能够做到“识别得更准”之外,它还在对人、机器与文档之间的交互方式产生标点符号。

于金山办公来讲,v1.5 所要表达的含义可不单单只是一个更为强大的插件而已。就像金山办公 CEO 章庆元所说的那样,在 AI 时代的办公软件需要成为“能力的供应方”以及“数字员工的承载物” 。

因有了 v1.5 这套所谓的“智能解析大脑”,用户上传的 PDF 以及图片,便能毫无阻碍地转化为能够编辑、可以进行计算的智能文档 。这并不是简单的 “解析即用” 的体验得到了升级,而是金山办公在致力于打造成熟的 AI 应用以此落地成为那个 “样板间” 。

可以看到,有一只“聪明猴子”,它正通过重塑人与人跟文档的交互方式,大闹AGI的“天宫”。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论