IT Home在4月22日报告说,最新报告指出,的2.5 Pro模型可以准确分析PDF文档的视觉结构并实现准确的视觉参考功能,成为第一个可以完全了解PDF布局的AI模型。
IT主页注:于3月25日发布了2.5 Pro实验模型,向付费用户和开发人员发布了。仅仅4天后,通过免费的Web应用程序向世界各地的用户开放了它。
2.5 Pro不仅从PDF文档中提取文本内容,而且还了解其视觉布局,包括图表,表和整体布局。
在开发人员的文档中指出,该模型具有“本地视觉”()功能,支持多达3,000个PDF文件(每个文件限制为1,000页或50MB),并且具有100万个令牌的巨大背景窗口,并计划将来扩展到200万个代币。
AI初创公司的联合创始人特别称赞2.5 Pro在PDF视觉引用中的表现。
指出的是,传统的文本分割方法将与原始文本切断用户的视觉连接,从而导致无法直观地验证信息源。即使在此中,单击参考文献也只能下载PDF,强迫用户判断该模型是否“虚幻”,这严重损害了用户信任。
过去,引用的文档通常仅突出显示大量无关的文本,精度极低。 2.5完全改变了这种情况,不仅可以将提取的文本片段映射回原始PDF的确切位置,而且还可以以前所未有的精度锁定特定的句子,表单元,甚至图像。
这一技术突破为用户提供了直观的视觉反馈。例如,在询问房价变化时,系统可以直接强调文档中的相关数据(例如15.4%的费率变化)并标记源基础。
这种清晰度和互动性超出了现有工具的影响力。 2.5不仅可以优化现有过程,还可以打开新的文档交互模式。
相比之下,2.5显着领导其他模型,具有0.804 IOU(交叉比率)精度,例如GPT-4O(0.223)和3.7(0.210),显示出惊人的空间理解。
提供商模型iou简短评论
2.5 Pro
0.804
非常好
2.5闪存
0.614
有时表现良好
2.0闪光灯
0.395
GPT-4O
0.223
GPT-4.1
0.268
GPT-4.1米尼
0.253
3.7
0.210
2.5的潜力远远超出了文本定位。它还可以从PDF中提取结构化数据,同时清楚地标记每个数据的源位置,以解决下游决策中未知数据源引起的信任障碍。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论