您的位置:首页 >科技 >

深度求索大模型:“花小钱办大事”

2025-01-15 16:19:01    来源:科技日报

一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。

日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。

和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。

美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。

深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?

降低模型推理成本

深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。

去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama370B的七分之一,GPT-4Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。

个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。

简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。

深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。

有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。

不堆算力创新算法

大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。

据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。

规模定律(Scalinglaw)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。

V3的出现提供了新的解法。“ScalingLaw不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAIo1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeekR1这个具有很强挖掘和激活能力的模型。

在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。

行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。

值得注意的是,“省钱模式开启”并不意味着算力式微。

V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与DeepSeek降低训练算力需求是两回事,两者并不矛盾。

一位行业专家在接受记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。

“烧钱”不是唯一逻辑

深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月,梁文锋创立深度求索,专注AI大模型的研究和开发。

据报道,包括梁文锋在内,深度求索仅有139名工程师和研究人员。在外界看来,这是一支“神秘的东方力量”。

但在一次采访中,梁文锋曾透露,深度求索并没有什么高深莫测的奇才,团队都是国内顶尖高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他特别提及,“V2模型没有海外回来的人,都是本土的”。

他也曾在访谈中说,过去30多年的IT浪潮,中国基本上扮演的是追随者角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者”。如今,V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本,也让AI行业看到一种可能:虽然训练大模型依然需要大规模显卡集群,但“烧钱”不是行业唯一的逻辑,也并不是谁烧钱多,谁就注定赢得一切。

对此,周鸿祎评论道,V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。

标签:

精彩阅读

伊顿与国轩高科达成战略合作,共绘绿色能源未来

《酱香威士忌团体标准》正式发布

在购买车辆保险时需要注意哪些因素?

故宫博物院携手苏州湾数字艺术馆,共启“‘纹’以载道——故宫沉浸式数字体验展”

当前儿童呼吸道感染有哪些特点?家长应该注意什么?专家建议

我与国家一起前行丨中国唢呐成新“顶流” 乡土乐器也能吹出国际范儿

新华社经济随笔:车企驶入“人形机器人”赛道的背后

北京市出台自动驾驶汽车条例 支持用于个人乘用车、城市公共汽电车等服务

各行各业积极因素不断涌现实现“开门红” 中国经济热度稳步提升

女人过了40岁穿衣别纠结,真该试试这些穿搭,温柔又显女人味

伊姐周日热推:电视剧《千朵桃花一世开》;综艺《你们说了算》......

粉色+灰色、蓝色+棕色,这4组配色怎么搭都好看!

中年女人冬季要会穿搭,用这些单品塑造简约美,优雅高级又耐看

冬季过半,50岁的女性朋友们就这样穿,才能保暖、时髦两不误

女人冬天穿衣要精致些,试试这些大气简约穿搭,每一套都舒适

战略大调整 蒂芙尼退出云南市场

2024年中国轻纺城成交额破4000亿元

羽绒服里的“科技范”

日妆在华业务继续收缩

世界最大“水能充电宝” 全面投产发电

甘肃电源装机容量突破1亿千瓦 新能源占比超64%

人工智能延伸中国电影想象力

“投资中国”品牌更闪亮

2025全国网上年货节将于1月7日启动

光电融合确定性新型算网基础设施在南京开通

用于锌-空气电池的新型高效催化剂面世

裸子植物核型演化历史和关键模式揭示

我国直径最大双护盾硬岩掘进机始发

上海脑机接口临床试验迎重大突破 汉语“意念对话”成真

全球首个光电融合确定性新型算网基础设施正式开通

地磁暴跟银川地震并无直接关系

世界最大超导磁体动态测试设施建成

研究显示中国大米越来越好吃

着力构建可解释性模型

有色金属行业首个大模型“坤安”面世

重庆大学有了AI辅导员

南京:挖掘数据潜力 打造智慧城市

营建公正透明数字消费环境

抖音支付回应“注册资本增至31.5亿元”:有助于更稳健地开展业务

2025年国际消费电子展将至 中国AI眼镜产业链或成热点

2025年,人工智能如何进化

开源鸿蒙操作系统5.0版本发布

2025全国网上年货节将于1月7日启动

人工智能延伸中国电影想象力

贵4000元!零跑C16长续航售17.28万起 限时降5000

大众汽车与小鹏汽车再联合 打造超快充网络

极氪领克整合:让中国新能源汽车从做大到做强

2025款ID.4 CROZZ上市 售19.49-29.86万元

主打低油耗 吉利银河L6 EM-i官图发布

利好接续政策值得车市期待 激发首购需求是促进消费关键

特斯拉汽车交付量十多年来首次同比下滑

合资车企合资模式蝶变 今年欲打“翻身仗”

推动汽车产业高质量发展正当时

年终讲|从云端融入市场竞争 保时捷在中国市场还有很多事可以做

浙江为科技成果转化上“双保险”

吉林:温室大棚“科技范”,农民增收添动力

引江补汉工程首台双护盾硬岩掘进机始发

上海2024年接待入境游客超600万人次

清洁能源赋能青海绿算发展

浙江为科技成果转化上“双保险”

南京:挖掘数据潜力 打造智慧城市

四川丹棱:追“光”逐“绿” 向“新”而行

江西省科技型中小企业入库数突破16000家

提升粤港澳大湾区科技创新中心建设整体效能

推动香港更好融入国家创新体系建设

如何破解“一人生病全家动员”的难题?无陪护病房给出暖心答案

“蛇币”“蛇钞”、陈醋、冰雪……新年消费市场活力足、人气旺

冬季是发生一氧化碳中毒最主要的季节 该如何应对?

陕西首开至香港直达高铁

各地冰天雪地变成“金山银山” 冰雪经济持续繁荣“热”起来

“硬核”数据见证冰雪经济潜能 “冷资源”释放出“热效应”

儿童感染流感后建议48小时内用抗病毒药

近期流感病毒阳性率快速上升 儿童流感、肺炎支原体感染高发

新年伊始 冰雪经济活力绽放

专家提醒:儿童流感症状和成人不同 应对流感 可以“未病先防”

专家提醒:儿童流感症状和成人不同 应对流感 可以“未病先防”

卖惨短视频何以频出“新花样”

网红儿童玩具安全性调查:用“迷你厨房”炒菜,刺鼻味道扑面而来

全国碳市场活力进一步提升 2024年配额成交额超181亿元

2024年前11月民企新增减税降费及退税1万亿元 占比超七成

冷空气将影响我国大部地区

“主动”放弃休年假,能否获得补偿?

青海率先实现居民医保省级统筹

国内首款市域C型动车组上线运营

首店经济蓬勃发展激活消费新动能

缴纳过社保仍被认定为“应届毕业生”?这个可以有!

集采阿司匹林一片3分钱,质量有保证吗?

守护“核电心脏”的90后

这群年轻人,组装出载人飞船

河北希望工程:传承希望星火 传递社会温暖

羽绒服里的“科技范”

一起解锁“微度假”多种打开方式 “City Eat”成为年轻力消费新趋势

免签效应持续显现 “中国游”成“热”体验

科技为“中国速度”点睛加油

地方发力吸引新品牌、新门店,企业加速开首店、推新品 首店经济蓬勃发展激活消费新动能

2025年全国新年登高健身大会四川省主会场活动在天全县启动

重磅!华润啤酒携旗下雪花啤酒与摘要酒签约2025春糖首席合作伙伴

|阆芽|第六届新芽杯国际少儿书画大赛圆满落幕

宝骊赋能亚太市场,携手经销商伙伴共赢新时代

奔向健康新蓝海,扬子江药业集团召开2024年年终工作会议暨职工代表大会

国家退役军人服务中心领导莅临中银律所交流座谈

中银律所及中银律师荣登《2024钱伯斯大中华区指南》榜单

宝骊叉车实力“炸街”,法国市场全面生花

孔达达:文艺工作者于大国文化建设中的责任与担当

河南黄河酒业:大黄河美酒

联创十载·居安兴业:西安联创物业10周年盛典年会成功举办!

一加 Ace 5 系列Pop-up快闪来袭,电竞女神程潇惊喜现身

全国冰雪消费季“欢腾亚冬 嗨购龙江”促消费系列活动 正式启动