您现在的位置：首页 > 快讯 > > 正文

昆仑万维开源7B和32B最强数学代码推理模型，同规模下性能超越阿里QwQ

时间：2025-12-21 11:14:23 来源：中国网阅读量：13880

继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后，昆仑万维天工团队在此基础上持续迭代优化，4月13日，重磅推出全新升级的Skywork-OR1系列模型。

该系列在同等参数规模下实现了业界领先的推理性能，进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时，Skywork-OR1全面开放、免费使用，以完全开源的形式回馈开发者社区，坚定践行天工团队在推动AI技术发展上的开源路线。

此次开源涵盖三款高性能模型，包括:

1.Skywork-OR1-Math-7B:聚焦数学领域的专项模型，同时也具有较强的代码能力。

2.Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型。

3.Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本。

此次发布的Skywork-OR1系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重，我们全面开源了模型权重、训练数据集和完整训练代码，所有资源均已上传至GitHub和Huggingface平台。

配套的技术博客已发布于Notion平台，详细阐述了数据处理流程、训练方法和关键技术发现，为社区提供了完全可复现的实践参考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力还在持续提升，在两周内我们还会发布两个模型的正式版本，同时也会推出更为系统详尽的技术报告，进一步分享我们在推理模型训练中的经验与洞察。我们相信，这种全方位的开源策略将有助于推动整个AI社区在推理能力研究上的共同进步。

在评测方面，Skywork-OR1系列模型引入了avgk作为核心评估指标，用于衡量模型在进行k次尝试时成功解决问题的平均表现。相较于传统的passk指标仅关注是否“至少一次成功”，avgk能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力，从而更全面反映其真实性能水平与实用价值。

在数学推理任务中:

1.通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上均实现了同参数规模下的最优表现，展现出强大的数学推理能力。

2.针对数学场景深度优化的专项模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分别取得69.8与52.3的高分，远超当前主流7B级别模型，充分验证了其在高阶数学推理任务中的专业优势。

3.Skywork-OR1-32B-Preview在所有benchmark上均实现了对QwQ-32B的超越，并在更难的AIME25上基本与R1持平。

在竞赛编程任务中:

1.通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上均取得了同等参数规模下的最优性能。

2.Skywork-OR1-32B-Preview表现尤为突出，其代码生成与问题求解能力已接近DeepSeek-R1，在大幅压缩模型体量的同时实现了卓越的性价比，充分展现出天工团队训练策略的先进性。

其中Skywork-OR1-Math-7B表现尤为亮眼，作为一个专注于数学推理能力的7B参数模型，通过多阶段GRPO训练在复杂数学问题上实现了卓越表现，同时在代码任务上也有较强的泛化能力。下图是该模型在AIME24上的训练准确率曲线，清晰呈现了多阶段训练过程中性能的稳定提升轨迹。

Skywork-OR1-Math-7B最终模型在AIME24和AIME24上分别达到69.8%和52.3%，超越了OpenAI-o3-mini ，达到了当前尺寸SOTA性能。值得注意的是，尽管该模型训练过程中未专门针对代码能力进行优化，但在代码评测基准上Livecodebench从37.6%提升到43.6%，相比基线模型的显著提升，这也表明我们的训练方法具有较好的领域泛化性。

自2023年以来，昆仑万维坚定地开源大模型回馈开发者和行业。2025年开源的Skywork-R1V多模态视觉推理模型、SkyReels-V1面向AI短剧创作的视频生成模型、Skywork-o1推理模型以及2024年开源的Skywork-Reward奖励模型，不仅在Hugging Face上下载数据表现亮点，开发者讨论度和模型热度依然居高不下。

当前，全球人工智能领域的竞争日趋激烈，竞赛的焦点正逐步从基础模型能力扩展到推理能力的比拼。AI大模型能否有效模仿人类的思维过程、具备逻辑推理和复杂任务的求解能力，已成为衡量技术先进性与通用智能潜力的关键指标。

在此背景下，为打破科技巨头对核心AI大模型技术的垄断壁垒，推动技术自主可控发展，中国多家企业纷纷投身于开源大模型生态的建设。未来，昆仑万维仍继续秉持“All in AGI 与 AIGC”战略、“实现通用人工智能，让每个人更好地塑造和表达自我”的使命，持续加大在通用大模型、开源框架和推理能力提升等方向的研究投入，力求在全球AI技术浪潮中抢占先机、塑造竞争优势。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

上一篇：高德发布首个AI导航智能体推动地图从工具转向“智能伙伴”...
下一篇：返回列表

特别关注

量化新锐已超130家近1年收益均值达

近年来，在人工智能和量化技术深度融合的驱动下，量化投资热度持续高涨，一众量化...

2025-12-21 02:05:03
2亿90后脱发族，让它狂赚4亿：港股

这年头，老同学聚一起，聊得最多的可能不是收入、家庭，而是发际线。每次洗完...

2025-12-21 01:16:27
「老登」俞敏洪，不背用员工血汗钱旅游

近日，教培行业龙头新东方迎来32周年之际，创始人俞敏洪的一封南极来信却将公司...

2025-12-21 00:54:26
45载跨越发展深圳奇迹耀世而出

11月21日，第十五届全国运动会闭幕式在深圳前海欢乐剧场举行。深圳，这座年轻...

2025-12-21 00:29:27
2025年穗港澳职工文化交流活动暨陈

初冬羊城翰墨飘香，湾区同心艺韵飞扬。11月22日下午，“笔墨绘同心·艺韵颂全...

2025-12-20 22:54:16
威卡上海研发制造新基地正式启用高端仪

全球压力、温度、物位、流量及力测量领域的知名企业德国威卡集团(WIKA)11...

2025-12-20 22:06:58
甘青两地跨省办电业务落地

“以前办理用电业务必须赶回民和，如今在兰州红古区就能一次办好，太方便了！”2...

2025-12-20 20:19:35
美股异动Q3业绩超预期柯尔百货KSS

智通财经APP获悉，周二，柯尔百货开盘暴涨超30%，逼近此前7月年内高点，报...

2025-12-20 18:57:24
又有省级农商行，成立

获批筹建不到一个月，新疆农商银行召开成立大会暨第一次股东会 11月25日，...

2025-12-20 17:30:47
创业板50ETF-DR在泰上市为全球

继去年6月份成功登陆爱尔兰、英国、德国、瑞士、意大利等欧洲五大主流交易所之后...

2025-12-20 13:40:49