搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按时间排序
按相关度排序
腾讯网
1 天
139位中国天才,做出一家让硅谷震撼的公司
平替版Claude、和GPT-4“可以一战”、震撼硅谷的“国产之光”……2025年初,AI圈的首炸,属于脱胎于量化公司的DeepSeek。能用十分之一的价格、不到150人的研发团队,对打硅谷头牌大模型,DeepSeek的秘密何在?当全球“AGI信仰” ...
来自MSN
3 天
中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元
编辑:桃子 好困 【新智元导读】600万美金训出击败GPT-4o大模型,竟被中国团队实现了!今天,DeepSeek-V3在全网掀起巨大风暴,仅凭671B参数在数学代码性能上,堪比国外大模型Claude 3.5 Sonnet。 一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 ...
腾讯网
5 天
算力门槛下降是一连串事件
将模型训练算力需求下降与这一历史对比,不难发现两者间存在诸多相似点。因此,有理由推测,“杰文斯悖论”可能在算力领域再次上演。也就是说,模型训练所需算力的下降,可能非但不会让市场上对算力的总需求下降,反而可能激发对算力总需求的增长。具体来说,目前有如下 ...
南方财经网
10 天
DeepSeek再爆火 AI竞赛崛起中国创新势力
近日,国内AI初创公司DeepSeek发布了新一代大语言模型DeepSeek-V3,同时宣布开源。在多项基准测试中,V3的成绩超越了主流开源模型,并和世界顶尖的闭源模型不分伯仲。
12 天
国产开源大模型DeepSeekV3爆火,低成本高效能引AI界赞叹
在AI界,一款源自中国的开源大模型近期引发了国内外广泛关注。这款名为DeepSeek-V3的模型,由新兴AI企业DeepSeek研发推出,以其卓越性能和低廉的训练成本,在业界掀起了波澜。
12 天
起底“大模型界拼多多”:手握万卡的AI新“黑马”,95后天才刚被雷 ...
“这是在资源受限的情况下,对研究和工程的一次令人印象深刻的展示。”AI大神、OpenAI创始成员Andrej Karpathy(安德烈·卡帕西)发文称,会仔细阅读这篇非常棒的技术论文。
wap.stockstar
14 天
刷屏!“AI界拼多多”再出手,Deepseek发布新模型,训练成本降低10倍
12月26日,Deepseek发布了全新系列模型DeepSeek-v3,一夜之间霸榜开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。 更让海外AI界震惊的是,该模型的训练成本仅600万美元,成本降低10倍,资源运用效率极高。有AI投资机构负责人直言,DeepSeek发布的53页的技术论文是黄金。
第一财经
16 天
性能匹敌GPT-4o的国产模型在海外火了,训练仅花费558万美元
“Llama 3 405B 使用了3080万GPU小时,而DeepSeek-V3 看起来是 ... 并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。 与此同时,DeepSeek ...
36氪
16 天
国产AI一夜刷屏海外,2000 块GPU打造GPT-4o平替,AI大佬纷纷点赞
并在性能上与 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。 一手技术报告中提到,该模型的预训练阶段也就 用 2048 块 GPU 训练了 2 个月,并且只花费了 557.6 ...
36氪
16 天
国产之光DeepSeek把AI大佬全炸出来了,671B大模型训练只需此前算力1/10 ...
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下 ...
快科技
16 天
国产AI大模型之光DeepSeek把AI大佬全炸出来了!6710亿参数训练只需1/10算力
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下 ...
新浪网
16 天
国产之光DeepSeek把AI大佬全炸出来了!53页论文技术细节大公开
仅为Claude 3.5 Sonnet的9%。 更重要的是,大家伙儿还第一时间在论文中发现了关键细节: DeepSeek V3整个训练过程仅用了不到280万个GPU小时,相比之下 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈