腾讯混元图像模型 2.1 上新开源：原生 2K 生图、中英文输入

查股网 2025-09-09 23:18 新开源(300109)个股分析

IT之家 9 月 9 日消息，腾讯今日宣布混元图像模型 2.1 上新开源，支持原生 2K 生图和中英文原生输入。

腾讯还同步开源了“PromptEnhancer 文本改写模型”，输入“画一只可爱的猫”，会自动补全“橘色短毛猫趴在格子桌，爪边放饼干，水彩风”；支持中英文双向转换，用中文说“画带‘Dream’的星空蛋糕”，也能精准呈现，避免“表达模糊”。

混元图像模型 2.1 支持长达 1k tokens 的复杂语义超长 prompt，支持多主体分别描述与精确生成。

混元图像模型 2.1 对图像中文字的渲染和场景细节的把控更为稳定，减少了常见的文字错误与理解偏差。

混元图像模型 2.1 还支持生成各种风格，如真实感人物、漫画与搪胶手办等。

混元图像模型 2.1 还有以下亮点：

两阶段强化后训练：SFT 和 RL 两阶段后训练，自研 Reward Distribution Alignment 强化学习算法，创新性引入高质量图片作为 chosen 样本，强化效果稳定提升
高压缩率 VAE，大幅提升训练推理效率：

meanflow 推理加速：首次在工业级模型上跑通 meanflow，推理步数由 100 步 --> 8 步、显著提升蒸馏效果
混元文本改写模型（PromptEnhancer）：首个系统化的工业级改写模型，通过 SFT 训练和 GRPO 训练，使得文本生成的图像语义大幅度提升，同时提出了 AlignEvaluator 涵盖 6 大类 24 个细粒度考点的奖励模型，PromptEnhancer 支持同时中英文改写。