Sonnet GPU - 搜索 News

平替版Claude、和GPT-4“可以一战”、震撼硅谷的“国产之光”……2025年初，AI圈的首炸，属于脱胎于量化公司的DeepSeek。能用十分之一的价格、不到150人的研发团队，对打硅谷头牌大模型，DeepSeek的秘密何在？当全球“AGI信仰” ...

来自MSN3 天

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

编辑：桃子好困【新智元导读】600万美金训出击败GPT-4o大模型，竟被中国团队实现了！今天，DeepSeek-V3在全网掀起巨大风暴，仅凭671B参数在数学代码性能上，堪比国外大模型Claude 3.5 Sonnet。一夜之间，来自中国的大模型刷屏全网。 DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 ...

腾讯网5 天

算力门槛下降是一连串事件

将模型训练算力需求下降与这一历史对比，不难发现两者间存在诸多相似点。因此，有理由推测，“杰文斯悖论”可能在算力领域再次上演。也就是说，模型训练所需算力的下降，可能非但不会让市场上对算力的总需求下降，反而可能激发对算力总需求的增长。具体来说，目前有如下 ...

南方财经网10 天

DeepSeek再爆火 AI竞赛崛起中国创新势力

近日，国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3，同时宣布开源。在多项基准测试中，V3的成绩超越了主流开源模型，并和世界顶尖的闭源模型不分伯仲。

12 天

国产开源大模型DeepSeekV3爆火，低成本高效能引AI界赞叹

在AI界，一款源自中国的开源大模型近期引发了国内外广泛关注。这款名为DeepSeek-V3的模型，由新兴AI企业DeepSeek研发推出，以其卓越性能和低廉的训练成本，在业界掀起了波澜。

12 天

起底“大模型界拼多多”：手握万卡的AI新“黑马”，95后天才刚被雷 ...

“这是在资源受限的情况下，对研究和工程的一次令人印象深刻的展示。”AI大神、OpenAI创始成员Andrej Karpathy（安德烈·卡帕西）发文称，会仔细阅读这篇非常棒的技术论文。

wap.stockstar14 天

刷屏！“AI界拼多多”再出手，Deepseek发布新模型，训练成本降低10倍

12月26日，Deepseek发布了全新系列模型DeepSeek-v3，一夜之间霸榜开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。更让海外AI界震惊的是，该模型的训练成本仅600万美元，成本降低10倍，资源运用效率极高。有AI投资机构负责人直言，DeepSeek发布的53页的技术论文是黄金。

第一财经16 天

性能匹敌GPT-4o的国产模型在海外火了，训练仅花费558万美元

“Llama 3 405B 使用了3080万GPU小时，而DeepSeek-V3 看起来是 ... 并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。与此同时，DeepSeek ...

36氪16 天

国产AI一夜刷屏海外，2000 块GPU打造GPT-4o平替，AI大佬纷纷点赞

并在性能上与 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。一手技术报告中提到，该模型的预训练阶段也就用 2048 块 GPU 训练了 2 个月，并且只花费了 557.6 ...

36氪16 天

国产之光DeepSeek把AI大佬全炸出来了，671B大模型训练只需此前算力1/10 ...

仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节： DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下 ...

快科技16 天

国产AI大模型之光DeepSeek把AI大佬全炸出来了！6710亿参数训练只需1/10算力

仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节： DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下 ...

新浪网16 天

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

仅为Claude 3.5 Sonnet的9%。更重要的是，大家伙儿还第一时间在论文中发现了关键细节： DeepSeek V3整个训练过程仅用了不到280万个GPU小时，相比之下 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果