Sonnet GPU - 搜索 News

据悉，该模型仅用了2000多张GPU，训练成本不到600万美元 ... 并领先GPT-4o，但略逊于Claude-3.5-Sonnet。而在数学、代码和推理能力方面，DeepSeek-V3在MATH500、AIME2024及Codeforces等多个主流基准测试中，不仅碾压了阿里和meta的最新开源模型，还超越了GPT-4o和Claude-3.5-Sonnet。

12 天

起底“大模型界拼多多”：手握万卡的AI新“黑马”，95后天才刚被雷 ...

“这是在资源受限的情况下，对研究和工程的一次令人印象深刻的展示。”AI大神、OpenAI创始成员Andrej Karpathy（安德烈·卡帕西）发文称，会仔细阅读这篇非常棒的技术论文。

新浪网16 天

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节： DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下 ...

22 小时on MSN

AI圈开年首炸：139位中国清北名校天才创立一家震撼硅谷的企业

快科技1月12日消息，据媒体报道，DeepSeek作为开年AI领域的重大突破，以其“国产之光”的新形象震撼了海内外科技界。这家AI创业企业以其独特的团队构成和卓越的技术成就，成为了业界关注的焦点。

36氪16 天

国产AI一夜刷屏海外，2000 块GPU打造GPT-4o平替，AI大佬纷纷点赞

并在性能上与 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。一手技术报告中提到，该模型的预训练阶段也就用 2048 块 GPU 训练了 2 个月，并且只花费了 557.6 ...

51CTO16 天

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

知识问答基准（GPQA-Diamond）上，V3也是仅次于Claude 3.5 Sonnet。如下这张图表，更详细地展示了DeepSeek-V3在各种基准测试中的结果。 53页技术报告中，特比强调了V3的训练成本取得了最大的突破。团队特意强调了，新模型的完整训练仅需要2.788M个GPU小时。即便如此 ...

腾讯网16 天

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

该方法巧妙地融合了 R1 的验证和反思模式，显著提高了 DeepSeek-V3 的推理性能，同时又保留了对输出风格和长度的控制 5.仅耗费了 266.4万 H800 GPU 小时 ...

新浪网16 天

性能匹敌GPT-4o的国产模型在海外火了，训练仅花费558万美元

“Llama 3 405B 使用了3080万GPU小时，而DeepSeek-V3 看起来是 ... 并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。与此同时，DeepSeek ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果