搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按时间排序
按相关度排序
12 天
起底“大模型界拼多多”:手握万卡的AI新“黑马”,95后天才刚被雷 ...
“这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。”AI大神、OpenAI创始成员Andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读这篇非常棒的技术论文。
证券之星
14 天
21观察?“东方神秘力量”再爆火 AI竞赛崛起中国创新势力
DeepSeek -V3是第三条路径。与当前大模型训练动辄要求万卡集成相比,它只用2000张A100 GPU训练,就实现了与GPT-4o 和 Claude-3.5-Sonnet几乎等效的成果,不能不令人敬佩。 一位在硅谷从事AI研究的华人工程师告诉21世纪经济报道记者,不排除还有更多的路径选择 ...
第一财经
16 天
性能匹敌GPT-4o的国产模型在海外火了,训练仅花费558万美元
“Llama 3 405B 使用了3080万GPU小时,而DeepSeek-V3 看起来是 ... 并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。 与此同时,DeepSeek ...
36氪
16 天
国产AI一夜刷屏海外,2000 块GPU打造GPT-4o平替,AI大佬纷纷点赞
并在性能上与 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。 一手技术报告中提到,该模型的预训练阶段也就 用 2048 块 GPU 训练了 2 个月,并且只花费了 557.6 ...
36氪
16 天
国产之光DeepSeek把AI大佬全炸出来了,671B大模型训练只需此前算力1/10 ...
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下 ...
快科技
16 天
国产AI大模型之光DeepSeek把AI大佬全炸出来了!6710亿参数训练只需1/10算力
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下 ...
新浪网
16 天
国产之光DeepSeek把AI大佬全炸出来了!53页论文技术细节大公开
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下 ...
51CTO
16 天
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10 ...
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下,Llama 3 405B的训练时长是3080万GPU小时(p.s. GPU型号也不同)。 直观地从钱上来对比就是,训练671B的DeepSeek V3的成本是 ...
新浪网
16 天
国产大模型DeepSeek-V3一夜火爆全球,671B的MoE,训练成本仅558万美元
就算与 GPT-4o 和 Claude 3.5 Sonnet 这两大领先的闭源模型 ... 毕竟 671B 的参数量已经无法放入单台 GPU 了。 DeepSeek-V3 再一次引爆了人们对开源模型的热情。
51CTO
16 天
中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元
知识问答基准(GPQA-Diamond)上,V3也是仅次于Claude 3.5 Sonnet。 如下这张图表,更详细地展示了DeepSeek-V3在各种基准测试中的结果。 53页技术报告中,特比强调了V3的训练成本取得了最大的突破。 团队特意强调了,新模型的完整训练仅需要2.788M个GPU小时。即便如此 ...
腾讯网
16 天
Deepseek v3正式发布:用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制 5.仅耗费了 266.4万 H800 GPU 小时 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈