您好,欢迎进入西湖娱乐城电动伸缩门有限公司官网!
西湖娱乐城|西湖娱乐城官方网站|西湖娱乐城APP

联系我们

邮箱:youweb@admin.com
电话:@HASHKFK
地址:广东省广州市番禺经济开发区 在线咨询

西湖娱乐城新闻

西湖娱乐城IBM和Hugging Face联合开源多模态小模型SmolDocling

发布日期:2025-03-22 21:27 浏览次数:

  西湖娱乐城,西湖娱乐城官方网站,西湖娱乐城APP,西湖娱乐城网址,西湖娱乐城最新

西湖娱乐城IBM和Hugging Face联合开源多模态小模型SmolDocling

  SmolDocling 基于 Hugging Face 的 SmolVLM 架构,可以处理整个页面的内容,并通过生成“DocTags”(一种新型通用标记格式)精确捕捉页面元素及其位置和上下文信息。与依赖手工制作的流水线或大型基础模型不同,SmolDocling 采用端到端的转换方法,只需 256M 参数的规模就能准确捕获文档元素的内容、结构和空间位置。研究团队称,它在各种文档类型中都表现出色,包括商业文档、学术论文、技术报告、专利和表格等,能够正确再现代码列表、表格、方程式、图表和列表等多样化文档特征。

  从架构上来说,它所基于的 SmolVLM-256M 架构由两大核心部分组成:视觉编码器和语言骨干。视觉编码器采用 SigLIP base patch-16/512(93M 参数)作为视觉骨干,与 2.2B 版本的同一模型相比,其训练数据重新平衡,更加强调文档理解(41%)和图像描述(14%),结合了 Cauldron、Docmatix 数据集并添加了 MathWriting。模型采用比较激进的像素混洗方法,将每个 512x512 图像块压缩为 64 个视觉标记。

  此外,研究人员还针对布局、表格、图表、代码和公式等特定任务准备了专门的数据集。布局数据包括 DocLayNet v2(6 万页)、WordScape(6.3 万页)和 SynthDocNet(25 万页);表格数据来自 PubTables-1M、FinTabNet 和 WikiTableSet;图表数据基于 FinTabNet 的 9 万个表格生成,总计 250 万个图表;代码数据集包含 930 万代码片段,覆盖 56 种编程语言;公式数据集则包含 550 万个特殊公式。

联系方式

全国服务热线

@HASHKFK

手 机:@HASHKFK

地 址:广东省广州市番禺经济开发区

扫一扫,加微信

Copyright © 2002-2024 西湖娱乐城电动伸缩门有限公司 版权所有 非商用版本 备案号: