Domestic Media - News Reader

Home Category

「推理革命」爆发100天:DeepSeek-R1复现研究全揭秘!

By www.163.com 0 0
Source: https://www.163.com/dy/article/JUQ9C39B0511ABV6.html


新智元报道

编辑:犀牛

【新智元导读】本文深入梳理了围绕DeepSeek-R1展开的多项复现研究,系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。

最近,推理语言模型(RLMs)已经成为主流。

最新发布的、性能最强的LLM大都是推理模型。

尤其是DeepSeek-R1的发布,更是引发了广泛的社会影响,同时也点燃了研究社区对推理的热情。

但是,DeepSeek-R1的一些实现细节还没有完全开源,比如DeepSeek-R1-Zero以及蒸馏的小模型等。

因此,许多复制DeepSeek-R1的研究应运而生(图1),试图通过相似的训练流程和完全开源的训练数据来重现DeepSeek-R1的优异性能。


这些研究探索了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)的可行策略,重点关注数据准备和方法设计,产出了不少宝贵经验。

为此,本文总结了近期的这些复现研究,以启发未来的探索。


论文地址:https://arxiv.org/abs/2505.00551

本文的结构大致对应DeepSeek-R1的训练流程,介绍当前在SFT、RLVR以及其他增强推理能力技术方面的复制工作:

监督微调提升语言模型推理能力:研究团队全面梳理了通过监督微调(Supervised Fine-tuning, SFT)增强语言模型推理能力的相关研究。

用可验证奖励强化学习训练推理语言模型:研究团队介绍了近期通过可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)训练RLMs的研究,详细阐述了训练数据、学习算法和奖励系统设计。

推理语言模型的更多发展方向:研究团队注意到,尽管DeepSeek-R1推动了RLMs的训练,但仍有许多监督策略尚未探索。他们提出了RLMs的更多发展方向,包括奖励建模和偏好优化,并分析了当前RLMs的优缺点,例如强大的分布外泛化能力和偶尔的过度思考。

通过监督微调提升RLMs

推理数据集大多数从收集多样化领域的问题开始,例如数学、科学、编程和谜题,数据来源包括现有的基准测试或网络爬取。

在收集原始数据后,通常会进行多轮过滤以提升数据质量,包括:

去重 :通过嵌入相似性或n-gram方法去除重复数据;

拒绝采样 :剔除低质量数据;

真值验证 :确保数据准确性。

为了保证数据的覆盖面和丰富性,许多数据集在选择过程中明确强调难度和多样性,通常使用启发式方法或模型通过率来优先选择较难的问题。

此外,大多数数据集依赖经过验证的思维链(COTs)或解决方案来确保正确性和质量。

验证方法因领域而异,例如:

数学问题通常通过Math Verify验证;

编程问题通过代码执行或单元测试验证;

通用任务则由大语言模型(LLM)作为评判者进行验证。

这种结合领域验证和选择性保留的方法,使数据管理人员能够提炼出高质量的推理轨迹,从而更好地支持监督微调。

虽然这些数据集覆盖多个领域,但如表1所示,大多数数据集主要集中在数学和编程任务上。涉及更广泛推理任务(如科学、逻辑谜题和开放性问题)的覆盖率仍然相对有限。


值得注意的例外包括DeepSeek-R1和AM,它们在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力。

长度分布

图2展示了数据集的token长度分布情况。

尽管这些数据集的长思维链(CoTs)都来源于同一个教师模型——DeepSeek-R1,但它们的分布却存在明显差异。

例如,AM和Synthetic-1的数据集倾向于较短的序列,而Light-R1和Open-R1的分布范围更广,尾部更长,这表明它们包含更多复杂问题,这些问题通常会引发更长的思维链。


图3中展示了常用数学推理数据集之间的交叉引用结构。该图清晰地呈现了数据集之间的依赖网络和共享数据,帮助研究人员更好地解读结果,避免重复的训练或评估设置。


图中箭头从源数据集指向包含其部分数据的目标数据集。以淡紫色高亮显示的数据集包含从DeepSeek-R1提取的思维链(Chain-of-Thought)轨迹

性能比较

在实践中,SFT阶段对于让基础模型从更强的模型中学习高质量推理轨迹至关重要。

表2展示了在常见数学推理基准(如AIME24/25和MATH500)上的SFT结果比较,突出不同数据集选择和初始模型检查点的影响。


虽然许多方法强调通过增加训练样本数量来提升性能,但LIMO和S1k-1.1表明,通过精心挑选的小规模数据集也能取得优异成果。

训练细节

对于复杂推理等长上下文任务,通常会调整模型配置中的RoPE缩放因子(θ)和最大上下文长度,以支持扩展的上下文能力。

例如,Open-R1将θ设为300,000,上下文长度设为32,768个token。常用的学习率包括1.0 × 10⁻⁵和5.0 × 10⁻⁵,批大小通常为96或128。

此外,通常采用打包(packing)技术来提高训练效率。

RLVR在推理语言模型中的应用

RL数据集

DeepSeek-R1-Zero通过独立的RLVR流程在推理和知识任务中取得了优异表现。其RLVR过程中使用的高质量精选数据集是成功的关键。

因此,多项复制研究探索了如何利用开源数据和强大模型高效创建训练数据集的策略。

这些数据集涵盖R训练中可验证的多种任务,主要聚焦于数学和编程问题解决的数据集。表3提供了这些数据集的统计概览。


RL组件

随着DeepSeek-R1-Zero和DeepSeek-R1的发布,DeepSeek展示了通过强化学习(RL)微调LLM以应对复杂推理任务的成功经验。

基于精心挑选的训练数据,相关研究主要集中在配置RL框架的关键部分,以实现卓越性能:采用高效的RL算法(如GRPO)以及设计奖励机制。

表4提供了这些研究方法的比较。


表4总结了多个竞争性开源 DeepSeek-R1 复制研究在强化学习验证任务(RLVR)中使用的算法和奖励设计方案。为了便于比较,DeepSeek-R1 系列模型的相关信息被单独列出

在基于结果-奖励的RL方法中,PPO和GRPO是最常用的微调大语言模型的算法。

有趣的是,近期的一些复制研究对这些方法进行了各种改进,针对特定目标优化了训练效果。

研究团队回顾了几种代表性的基于RL的大语言模型微调算法,包括 REINFORCE、PPO、GRPO及其变体。此外,他们还梳理了这些方法的改进及其背后的动机,旨在清晰概述基于结果-奖励的RL训练方法的技术进步。

奖励机制

奖励是RL训练的核心,因为它定义了优化的目标,引导模型的行为。

一个设计良好的奖励机制能提供清晰、一致的信号,帮助模型学习到有效的策略。

然而,奖励模型常常容易被「奖励欺骗」(reward hacking,指模型通过钻空子获得高分而非真正解决问题),因此近期研究更倾向于使用基于规则的结果奖励系统。

这些系统通常分为三类:

准确性奖励: 准确性奖励评估回答是否正确,通常给正确回答打 1 分,错误回答打 0 分或 -1 分。

格式奖励: 格式奖励鼓励回答遵循预定义的结构或推理格式,通常给正确格式打 1 分,偏离格式则打 0 分或 -1 分。

长度奖励: 长度奖励影响模型回答的详尽程度。一些方法奖励生成特定长度的回答,而另一些方法则鼓励在保证准确性的前提下尽量简洁。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

®Domestic Media - News Reader