混元OCR模型核心技术揭晓:一体化框架,真正端到端

混元OCR模型团队提供量子比特| QbitAI公众号腾讯混源大模型团队正式上线并开源混源OCR模型。它是一个轻量级(参数 1B)、开源、商业级 OCR 特定视觉语言模型。该模型采用了原生 ViT 和轻量级 LLM 相结合的架构。特别是它的感知能力(文本检测和识别、复杂文档分析)超越了所有公共解决方案。其语义能力(信息提取、文本和图像翻译)表现出色,荣获ICDAR 2025 DIMT挑战赛(小模型赛道)冠军,并在OCRBench中取得<3B SOTA模型成绩。目前,该模型位居 Hugging Face 热搜榜前 4 名,该榜单包含超过 700 名 GitHub star,并于 0 日被 vllm 官方团队访问。团队介绍,混源OCR专家模型实现了三大突破,重要的是:(1)全能与高效的融合赛。在轻量级框架下,支持文本检测与识别、复杂文档分析、开放领域信息提取、视觉问答、捕获图像翻译等,解决了传统专家模型特征单一和大规模通用视觉理解模型效率低下的问题。 (2)端到端的极简架构;它抛弃了布局分析等预处理依赖,彻底解决了流水线中错误累积的问题,极大简化了部署。 (3) 数据驱动的创新和强化学习;通过验证高质量数据的价值,强化学习显着提高了多个 OCR 任务的性能。目前模型参数已通过华宝网、ModelScope等渠道开源,提供基于vLLM的高性能部署方案,方便科研和产业部署。混元OCR公共核心技术作为开源多语言l 具有商业级性能的VLM,混元OCR专家模型的主要动机是构建一个真正集成、高效的端到端OCR基础模型。其核心技术主要集中在轻量级模型结构设计、高质量预训练数据生成、面向应用的预训练策略以及OCR任务定制的强化学习方面。轻量级模型结构设计 下图是混源OCR架构示意图。与其他瀑布式 OCR 解决方案和开源专家模型不同,混合 OCR 模型实现了集成范式和端到端训练,其中每个任务只需要一次推理即可获得完整结果。 HunyuanOCR 采用协作架构,由原生分辨率视觉编码器、自适应 MLP 连接器和轻量级语言模型组成。可视化部分基于SigLIP-v2-400M,引入了自适应修补机制,支持多点输入y分辨率,有效避免长文档等极端长宽比场景下图像失真和细节丢失。连接器通过可学习的池化操作充当桥梁,自适应压缩高分辨率特征,同时准确保留密集文本区域的关键语义。语言模型基于Hunyuan-0.5B。创新的 XD-RoPE 技术的引入将 1D 文本与 2D 设计(高度和宽度)和 3D 时空信息分离并对齐,赋予模型处理多列格式化和跨页面逻辑推理的强大能力。与依赖多模型级联和后处理的传统解决方案不同,HunyuanOCR 采用纯粹的端到端训练和推理范式。该模型由大规模、高质量、面向应用的数据驱动,并通过提供直接图像到文本映射的强化学习策略进行了优化。这种设计避免了行业中常见的“bug堆积”数字架构。由于它完全消除了“产品”问题并消除了对复杂后处理模块的依赖,因此在理解混合设计等困难场景中,它比类似模型表现出更好的鲁棒性和稳定性。创建高质量的预训练数据 为了更好地系统提炼混源OCR跨多语言、多场景、复杂布局的识别理解能力,研究团队创建了包含超过2亿个“图文对”的大规模、高质量、多模态的训练语料。通过整合公共基准、网络提取的真实数据以及内部开发工具生成的合成数据,该数据库涵盖了九种主要现实场景(包括文档、街景、广告、手写、截图、门票、游戏界面、视频帧和艺术字体)和 130 多种语言的 OCR 数据。这套全面的数据生成和清洁管道为您的模型提供强大、高质量、多模式的培训资源。具体如下:(注:图为高质量的预训练数据,(a)(b)(c)为数据合成和仿真改进的效果,(d)(e)为自动生成质量控制数据的情况)。在性能方面,研究人员基于 SynthDog 框架进行了大量改进,支持 130 多种语言的双向文本和段落级文档渲染(两种阅读顺序:从左到右和从右到左)。已取得支持。研究人员可以更好地控制字体、颜色、排版组合和手写风格,有效提高跨语言泛化能力。同时,引入自主开发的扭曲变形合成流程,通过模拟几何变形(折叠、透视)、图像退化,真实地恢复自然场景的拍摄缺陷(模糊、噪音)和复杂的照明干扰。这种“综合+模拟”的策略显着提高了模型在文本定位、文档分析等任务中的鲁棒性。针对高阶语义理解任务,团队开发了“难样本提取,教育质量控制”。我们开发了一个集成“一致性生成和验证”的自动化管道。该流程遵循“一源多用”的原则,实现同一张图片的统一文本位置标注、结构化分析(Markdown/JSON)、多维度问答推理(信息提取、汇总、计算)。该系统优先提取低分辨率或复杂图形的困难样本,使用高性能VLM生成多样化的问答对,并通过多模型交叉验证机制确保数据质量。该流程有效解决了计算机中缺乏高质量VLM训练数据的问题lex场景,大大提高了模型的数据利用效率。面向应用的全新预训练策略 混源OCR采用四步循序渐进的预训练策略。前两个阶段是视觉语言的协调和一般理解的发展。第 1 阶段是热身阶段,我们冻结 LLM 并仅训练 ViT 和 MLP 适配器。使用字幕和 OCR 数据实现文本视觉特征和语义空间的对齐,以提高基本识别和结构理解。第二阶段解冻端到端学习的所有参数,基于约3000亿符号数据和涵盖文档分析、文本检测和识别、图像翻译和VQA的多任务合成样本,显着提高模型对文档、表格、公式和图形等复杂结构化内容的识别和理解。最后两个阶段将重点关注长文档处理能力真实世界的应用场景。第三阶段将上下文窗口扩展到32k,以满足通过长窗口数据训练来分析和理解长文档图像的需求。第4阶段进行面向应用的退火训练,将精心挑选的手动标注的真实值数据与高质量的合成数据相结合,并通过统一的指令模板和标准化的输出格式标准化模型响应模式。这只会提高复杂场景下的鲁棒性。也为后续阶段的强化学习打下了坚实的基础。下表显示了混合 OCR 模型的四个预训练阶段。针对 OCR 任务的个性化强化学习方案。虽然强化学习在大规模推理模型中取得了巨大成功,但混元视觉团队创新性地将强化学习应用于轻量级OCR专家模型,注重效率。考虑到高度结构化且易于验证针对OCR任务的特点,采用混合策略。基于可验证奖励的强化学习用于具有封闭解决方案的任务,例如文本检测和识别以及文档分析。针对翻译、VQA等开放性任务,设计了基于LLM作为评委的奖励机制。这种组合证明,即使是轻量级模型也可以通过强化学习实现显着的性能改进,为边缘和移动端的高性能应用开辟新途径。主要考虑三个方面:第一是严格的数据分析。数据构建严格遵循质量、多样性和难度之间的平衡原则,利用LLM过滤低质量数据,剔除过于简单或无法求解的样本,以保持训练效果。二是适应性奖励设计。在文本检测和识别任务中,综合考虑IoU和编辑距离。复杂文档分析任务重点结构和内容的准确性。 VQA 使用基于语义匹配的二元奖励。另一方面,文本到图像的翻译引入了标准化、无偏见的软奖励(例如,从 0 到 5 的连续空间),并且有意扩展中间分数的粒度,以更敏感地捕捉翻译质量中的细微差别。三是GRPO算法和格式限制的优化。训练阶段使用组相对策略优化(GRPO)作为核心算法。为了保证训练的稳定性,团队引入了严格的时长限制和正式的规范机制。太长或不符合预定义方案(例如结构化分析格式)的输出被确定为具有零直接奖励。这种强大的约束机制迫使模型专注于产生有效的、标准化的、可验证的结果,使其能够在约束条件下学习准确的推论和格式。改变的能力。项目主页ge:https://hunyuan.tencent.com/vision/zh?tabIndex=0Github:GitHub-Tencent-Hunyuan/HunyuanOCR Huggingface:https://huggingface.co/tencent/HunyuanOCR 文档:https://arxiv.org/abs/2511.19575
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注