DeepSeek创始人凌晨宣布,多模态Janus-Pro-7B模型发布并开源

深度求索(DeepSeek)创始人梁文锋深夜发文官宣,DeepSeek刚刚发布并开源了一款名为Janus-Pro-7B的多模态AI模型,可以生成图像。据梁文锋介绍,在 GenEval和DPG-Bench基准测试中,Janus-Pro-7B击败了OpenAI的DALL-E3和Stable Diffusion。”就在今日凌晨,DeepSeek工程师们已经在Hugging Face平台上传了Janus Pro 7B和1.5B模型。这俩模型是去年DeepSeek 10月发布的Janus模型升级版。

全文

DeepSeek登顶苹果App Store免费榜!超越ChatGPT

1月27日,苹果App Store中国区免费榜显示,DeepSeek站上首位。同时,DeepSeek在美区苹果App Store免费榜从昨日的第六位飚升至第一位,超越ChatGPT及Meta公司旗下的社交媒体平台Threads,以及Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。 界面新闻查询发现,这也是唯一一次中国应用能同期在中国和美区苹果App Store占据第一位。此前小红书和Temu也曾成为美区App Store下载冠军,但未能实现在中国也同步站上首位。 就在昨日,DeepSeek曾出现了短时闪崩现象。对此,DeepSeek回应称,当天下午确实出现了局部服务波动,但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后,用户访问量激增,服务器一时无法满足大量用户的并发需求。 该应用由国产大模型公司“深度求索”(隶属量化巨头幻方量化)开发,其推理大模型DeepSeek-R1凭借高性能和低成本优势,在发布后迅速引发市场关注。 DeepSeek-R1作为开源模型,在数学、代码和自然语言推理任务中表现接近OpenAI的GPT-4o,且训

全文

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

正式发布 DeepSeek-R1,并同步开源模型权重。 性能对齐 OpenAI-o1 正式版​ DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。 在此,我们将 DeepSeek-R1 训练技术全部公开,以期促进技术社区的充分交流与创新协作。 论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 蒸馏小模型超越 OpenAI o1-mini​ 我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。 HuggingFace 链接: https://huggingface.co/deepseek-ai 开放的许可证和用户协议​ 为了推

全文

DeepSeek推出App版本

近期,许多用户发现,中国初创公司深度求索在苹果应用商店上架了自己的大模型应用“DeepSeek”,其下方评论中就有网友表示,用了一年的网页端,终于等到了App。 该App的商店页面显示,这是DeepSeek官方推出的AI助手,可“免费体验与全球领先AI模型的互动交流”。其使用开源的 DeepSeek-V3 大模型,多项性能指标对齐海外顶尖模型,可以用更快的速度、更加全面强大的功能答疑解惑,助力高效美好的生活。 上个月(12月26日),深度求索正式对外发布 DeepSeek-V3大模型,据其介绍,该模型在多个方面超越、追平各种开源、闭源大模型。而在DeepSeek开源社区收获的广泛好评,显示出开发者们已经用脚进行了投票。 首先是百科知识上,V3的知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)水平相比前代 DeepSeek-V2.5 (下称V2.5)显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,V3 平均表现超越其他模型。 此外,V3 在算法类代码场景(

全文

DeepSeek-V3 正式发布

全新系列模型 DeepSeek-V3 首个版本上线并同步开源。 登录官网 chat.deepseek.com 即可与最新版 V3 模型对话。API 服务已同步更新,接口配置无需改动。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。 性能对齐海外领军闭源模型​ DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。 论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。 生成速度提升至 3 倍​ 通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。 API 服

全文

////