DeepSeek-AI正式推出新一代推理大模型DeepSeek-R1系列,包含基于纯强化学习训练的DeepSeek-R1-Zero和融合冷启动数据的DeepSeek-R1。该系列模型在数学、代码和复杂推理任务中表现优异,性能与OpenAI-o1-1217持平。关键亮点包括:
- 无需监督微调的纯RL训练:DeepSeek-R1-Zero首次验证仅通过强化学习即可激发模型推理能力,支持自我验证、反思和长链思维。
- 开源模型与蒸馏技术:开放包含671B参数的MoE主模型及基于Qwen/Llama的1.5B-70B蒸馏模型,其中32B蒸馏模型性能超越OpenAI-o1-mini。
- 高效部署:支持128K上下文长度,Hugging Face、vLLM和Docker一键部署,推理成本降低95%。
- 多场景应用:在AIME数学竞赛(79.8% Pass@1)、Codeforces编程(超越96.3%人类选手)等基准测试中刷新记录。
访问资源:
- 模型下载:Hugging Face仓库
- 在线体验:DeepSeek Chat(启用“DeepThink”模式)
- API文档:DeepSeek平台