谷歌Gemini 2.5 Pro模型突破AI技术：首款能完全理解PDF布局的AI模型

进不了网站？换个网络试试！

IT Home在4月22日报告说，最新报告指出，的2.5 Pro模型可以准确分析PDF文档的视觉结构并实现准确的视觉参考功能，成为第一个可以完全了解PDF布局的AI模型。

IT主页注：于3月25日发布了2.5 Pro实验模型，向付费用户和开发人员发布了。仅仅4天后，通过免费的Web应用程序向世界各地的用户开放了它。

2.5 Pro不仅从PDF文档中提取文本内容，而且还了解其视觉布局，包括图表，表和整体布局。

在开发人员的文档中指出，该模型具有“本地视觉”（）功能，支持多达3,000个PDF文件（每个文件限制为1,000页或50MB），并且具有100万个令牌的巨大背景窗口，并计划将来扩展到200万个代币。

AI初创公司的联合创始人特别称赞2.5 Pro在PDF视觉引用中的表现。

指出的是，传统的文本分割方法将与原始文本切断用户的视觉连接，从而导致无法直观地验证信息源。即使在此中，单击参考文献也只能下载PDF，强迫用户判断该模型是否“虚幻”，这严重损害了用户信任。

过去，引用的文档通常仅突出显示大量无关的文本，精度极低。 2.5完全改变了这种情况，不仅可以将提取的文本片段映射回原始PDF的确切位置，而且还可以以前所未有的精度锁定特定的句子，表单元，甚至图像。

这一技术突破为用户提供了直观的视觉反馈。例如，在询问房价变化时，系统可以直接强调文档中的相关数据（例如15.4％的费率变化）并标记源基础。

这种清晰度和互动性超出了现有工具的影响力。 2.5不仅可以优化现有过程，还可以打开新的文档交互模式。

相比之下，2.5显着领导其他模型，具有0.804 IOU（交叉比率）精度，例如GPT-4O（0.223）和3.7（0.210），显示出惊人的空间理解。

提供商模型iou简短评论

2.5 Pro

0.804

非常好

2.5闪存

0.614

有时表现良好

2.0闪光灯

0.395

GPT-4O

0.223

GPT-4.1

0.268

GPT-4.1米尼

0.253

3.7

0.210

2.5的潜力远远超出了文本定位。它还可以从PDF中提取结构化数据，同时清楚地标记每个数据的源位置，以解决下游决策中未知数据源引起的信任障碍。

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。