DeepSeek-R1系列模型正式发布——推理能力比肩OpenAI-o1,全开源赋能社区

DeepSeek-AI正式推出新一代推理大模型DeepSeek-R1系列,包含基于纯强化学习训练的DeepSeek-R1-Zero和融合冷启动数据的DeepSeek-R1。该系列模型在数学、代码和复杂推理任务中表现优异,性能与OpenAI-o1-1217持平。关键亮点包括:

  1. 无需监督微调的纯RL训练:DeepSeek-R1-Zero首次验证仅通过强化学习即可激发模型推理能力,支持自我验证、反思和长链思维。
  2. 开源模型与蒸馏技术:开放包含671B参数的MoE主模型及基于Qwen/Llama的1.5B-70B蒸馏模型,其中32B蒸馏模型性能超越OpenAI-o1-mini。
  3. 高效部署:支持128K上下文长度,Hugging Face、vLLM和Docker一键部署,推理成本降低95%。
  4. 多场景应用:在AIME数学竞赛(79.8% Pass@1)、Codeforces编程(超越96.3%人类选手)等基准测试中刷新记录。

访问资源

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

////