深度求索大模型:“花小钱办大事”
一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。
日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。
和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。
美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。
深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?
降低模型推理成本
深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。
去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama370B的七分之一,GPT-4Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。
个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。
简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。
深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。
有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。
不堆算力创新算法
大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。
据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。
规模定律(Scalinglaw)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。
V3的出现提供了新的解法。“ScalingLaw不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAIo1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeekR1这个具有很强挖掘和激活能力的模型。
在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。
行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。
值得注意的是,“省钱模式开启”并不意味着算力式微。
V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与DeepSeek降低训练算力需求是两回事,两者并不矛盾。
一位行业专家在接受记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。
“烧钱”不是唯一逻辑
深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月,梁文锋创立深度求索,专注AI大模型的研究和开发。
据报道,包括梁文锋在内,深度求索仅有139名工程师和研究人员。在外界看来,这是一支“神秘的东方力量”。
但在一次采访中,梁文锋曾透露,深度求索并没有什么高深莫测的奇才,团队都是国内顶尖高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他特别提及,“V2模型没有海外回来的人,都是本土的”。
他也曾在访谈中说,过去30多年的IT浪潮,中国基本上扮演的是追随者角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者”。如今,V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本,也让AI行业看到一种可能:虽然训练大模型依然需要大规模显卡集群,但“烧钱”不是行业唯一的逻辑,也并不是谁烧钱多,谁就注定赢得一切。
对此,周鸿祎评论道,V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。
标签:
精彩阅读
-
深度求索大模型:“花小钱办大事”
一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光... -
快手年货节促消费,近2.2万主播商品交易...
1月14日,快手电商发布2025快手年货节战报。数据显示,年货节期间,... -
高德将上线“京城网约司机服务地图”等服务
1月14日消息,北京出租汽车暨汽车租赁协会与高德聚合平台签署了《党... -
刷掌开门更普及了——智能门锁生物识别...
刷掌即可打开家门——对老人、小孩等特殊群体更友好的静脉识别技术... -
嫦娥五号月壤样品中发现奇特晶体生长现象
来源标题:嫦娥五号月壤样品中发现奇特晶体生长现象中国科学院院士... -
“锑猫”实验为量子计算纠错提供新方法
来源标题:锑猫实验为量子计算纠错提供新方法澳大利亚新南威尔士大... -
磷化铌薄膜在超薄线路制造中展现潜力 ...
来源标题:磷化铌薄膜在超薄线路制造中展现潜力 有助解决电子产品... -
AI推理芯片激发新一轮应用创新
来源标题:AI推理芯片激发新一轮应用创新随着ChatGPT横空出世,人工... -
数智检修迎春运首秀
来源标题:数智检修迎春运首秀1月14日春运大幕拉开。春运期间,全国... -
我国建立世界第一套微波亮温度国家计量基准
来源标题:我国建立世界第一套微波亮温度国家计量基准1月14日,记者... -
迄今最精细黑猩猩脑图谱发布
来源标题:迄今最精细黑猩猩脑图谱发布记者1月14日从中国科学院自动... -
全国首家AI医院将面向公众开放,AI会取...
来源标题:全国首家AI医院将面向公众开放,AI会取代医生吗?最近,全... -
呼吸道感染康复期用药“益气清肺颗粒”...
来源标题:呼吸道感染康复期用药益气清肺颗粒获批上市1月9日,国家... -
2025,人工智能走向何方?我们如何拥抱变化?
从各类人工智能聊天机器人与人类直击灵魂的对话,到训练AI将一张图... -
算力交易“电商平台”来了!
仅需3 8毫秒,安徽宿州一家企业人工智能大模型的训练数据,便可以... -
逐浪AI大潮,中国向新而生
随着2022年OpenAI正式发布ChatGPT,人工智能技术以迅猛之势席卷全球... -
中国科技企业宜以AI为桨高质量“出海”
贾 丽在数字化智能化浪潮下,中国科技企业新一轮走出去如何突破、... -
浙江:去年数字经济核心产业增加值增长8...
1月14日,浙江省第十四届人民代表大会第三次会议在杭州开幕,浙江省... -
中国电子云可信数据空间解决方案发布
1月9日,记者从中电云计算技术有限公司(以下简称中国电子云)获悉,... -
机器学习助力多种癌症早期筛查
英国牛津大学科学家开发出一种名为TriOx的血液检测新方法。在机器学... -
全国青少年科技创新大赛不再接受15岁以...
记者14日从中国科协获悉,中国科协办公厅日前印发《全国青少年科技... -
日本人工智能应用潜力仍存
近年来,日本在人工智能应用方面积极探索,在制造业、农业、教育等... -
强化数智赋能制造业蝶变升级
中央经济工作会议强调,广泛应用数智技术、绿色技术,加快传统产业... -
2025流行色 摩卡慕斯
近年流行穿搭与流行色彩呈现万变不离其棕的趋势,2023年秋冬,以大... -
骆驼牵手中国科学探险协会,制定《多场...
1月10日至12日,2025 ISPO(亚洲运动用品与时尚展)在北京国家会议中... -
“冰雪热”释放新动能
今晚夜场滑雪,走不?1月11日17时许,27岁的王哲辉给自己的滑雪搭子... -
“可爱经济”为什么惹人爱?
一些萌萌的文创你方唱罢我登场。苏州博物馆的蟹黄黄毛绒玩具、甘肃... -
春节宠物寄养咨询火爆 宠物主人盼携宠...
春节假期临近,宠物寄养成为宠物主关注焦点。记者12日走访上海多家... -
滑雪装备市场开“卷” 不断扩张的Nobad...
近日,北京商报记者走访发现,滑雪品牌Nobaday正在加速门店调整。目... -
“谷子经济”受中国年轻人追捧 驱动城...
谷子一词在2024年悄然流行。从拯救老牌商场到出现谷子概念股,据统... -
转型未见效,太平鸟业绩再下滑
转型年复一年,太平鸟没等来增长。近日,太平鸟发布2024年业绩快报... -
着力培育服饰消费新增长点
近日,国家统计局发布的数据显示,2024年1月至11月,限额以上单位服... -
新消费观察 | 专业与时尚齐飞 国货品...
从人手一件的冲锋衣,到火爆全网的始祖鸟、迪桑特、骆驼、伯希和,... -
广汽丰田把高阶智驾价格打下来了
(2024年11月15日)智能化下半场中,高阶智驾是几乎所有品牌都会非常... -
一汽奥迪持续“增点扩面”,一季度将新...
1月14日前后,一汽奥迪迎来新年开业潮。郴州兰天南奥、绍兴德奥、杭... -
冰雪撒欢之旅,解锁捷途自由者的硬派越...
在去年的广州车展上,捷途自由者以其硬派方盒子的设计语言和卓越的... -
鸿蒙智行2025年新车规划曝光!除了问界M...
2024年,鸿蒙智行一共取得了444956辆新车的销量成绩单,而在2025年... -
站上600万辆新台阶!中国蝉联全球最大汽...
原标题:站上600万辆新台阶!中国蝉联全球最大汽车出口国:一场史无... -
"国Ⅳ"车辆纳入报废补贴 车市加速驶过"...
国家发展改革委、财政部日前联合发布的《关于2025年加力扩围实施大... -
寒区试车让“冷资源”点燃“热引擎”
原标题:冰天雪地也是金山银山 寒区试车让冷资源点燃热引擎冬季,... -
加拿大将暂停电动汽车激励计划
据外媒报道,加拿大政府日前表示,一旦可用资金耗尽,将暂停其零排... -
特斯拉全球汽车销量首次超过奥迪
据彭博社报道,2024年,美国电动汽车制造商特斯拉的全球销量(179万... -
年终讲丨四大维度“突破”,一汽-大众全...
一汽-大众这艘大船,已经调好头了,从2025年开始,我们将陆续加速启... -
爱奇艺与红果短剧宣布达成深度合作 共...
1月13日,爱奇艺与红果短剧在精品微短剧产业发展交流会上共同宣布双... -
突破43万亿元!2024年我国外贸规模再创新高
来源标题:突破43万亿元!2024年我国外贸规模再创新高2024年,我国外... -
春运开启,以精准调控缓解“抢票难”
来源标题:春运开启,以精准调控缓解抢票难据新京报报道,2025年春... -
第十届“ME计划”资助仪式在京举行
1月13日,由中国民生银行联合中国乡村发展基金会共同发起的第十届“ -
“碳账户+碳征信”,让企业有了绿色融资...
来源标题:全面描绘企业碳减排轨迹,使企业用能曲线跃然纸上500万吨... -
餐饮企业“花式”抢滩年夜饭市场
来源标题:推出全菜宴、全果宴等,销售半成品礼盒,开启上门代厨服... -
AI“破圈”加速步入物理世界
来源标题:AI破圈加速步入物理世界从实现爆发性发展的语言智能,到... -
中国汽车产销连续16年居全球首位
来源标题:中国汽车产销连续16年居全球首位全年汽车产销量破3100万... -
助力经济回升向好 支持高质量发展 —...
2024年,人民银行坚持支持性货币政策立场,先后4次实施了比较重大的... -
冰雪“热”了 经济“火”了!冰雪产业...
随着冰雪游的火热,冰雪经济也正蓬勃发展,由此催生出一批新职业。2... -
小泉水大生意,热资源成就“暖”经济
气温低至零下16摄氏度,记者近日走进辽宁省阜新市宝地温泉小镇,南... -
新春走基层丨一路欢歌一路情——中老铁...
车外,暖阳高照,山林苍翠;车内,节目纷呈,欢声笑语……1月14日上... -
“最可爱的人”肩负重任坚守执勤一线 ...
来源标题:最可爱的人肩负重任坚守执勤一线 确保人民群众出行安全2... -
“一签多行”等政策助力内地与港澳居民...
来源标题:一签多行等政策助力内地与港澳居民双向奔赴持续升温记者... -
年货消费市场日渐红火升腾“烟火气” ...
来源标题:年货消费市场日渐红火升腾烟火气 助农增收涌动蓬勃活力... -
众多旅游城市“圈粉”外国游客 独特城...
来源标题:众多旅游城市圈粉外国游客 独特城市魅力成为文旅金名片... -
“一周一行”“一签多行”等便利措施效...
来源标题:一周一行一签多行等便利措施效果显著 赴港澳客流量增幅... -
传统非遗技艺亮相火车站 与旅客共赴“...
来源标题:传统非遗技艺亮相火车站 与旅客共赴非遗年味春运之行1月... -
2024年共6.1亿人次出入境 “中国游”持续火热
来源标题:2024年共6 1亿人次出入境 中国游持续火热1月14日,国家... -
春运开启,全国铁路实施新运行图
来源标题:春运开启,全国铁路实施新运行图记者从国铁集团获悉,202... -
春节将至,出入境人数不断攀升
来源标题:春节将至,出入境人数不断攀升春节假期即将到来,全国口... -
“周五下班去中国”成国际新潮
来源标题:周五下班去中国成国际新潮记者昨天(14日)从国家移民管理... -
说来就来的旅行 “周五下班去中国”成...
来源标题:说来就来的旅行 周五下班去中国成为国际新热潮在刚刚过... -
冰雪游碰上亚冬会 哈尔滨铁路春运如何...
来源标题:冰雪游碰上亚冬会 哈尔滨铁路春运如何接招?受冰雪旅游、... -
全球旅游达人山西感受热情中国年
1月11日至14日,中国年味之旅全球达人游中国系列活动走进中国古建大... -
以文旅“出圈”促进区域经济高质量发展
来源标题:以文旅出圈促进区域经济高质量发展【学习贯彻党的二十届... -
【开创高质量发展新局面】2024年我国社...
来源标题:【开创高质量发展新局面】2024年我国社会融资规模保持合... -
启程回家!春运回家路 有“速度”更有...
来源标题:启程回家!春运回家路 有 速度更有温度1月14日,2025年... -
“流动的中国”活力满满——春运首日一...
来源标题:流动的中国活力满满——春运首日一线观察14日,2025年春... -
“最美基层民警”沈刚:“勇”护百姓 ...
来源标题:最美基层民警沈刚:勇护百姓 智守安全他为救轻生少女,... -
冰雪“热”了 经济“火”了!冰雪产业...
来源标题:冰雪热了 经济火了!冰雪产业新工种了解一下随着冰雪游的... -
出行有保障!临近春节车站服务上新 旅...
来源标题:出行有保障!临近春节车站服务上新 旅客心里很踏实2025年... -
乡村行·看振兴丨山西柳林:冬日里的小...
近日,山西省柳林县张家垣果蔬采摘基地的草莓已陆续成熟上市。14日... -
新春走基层|海拔2800米!这条高寒特长...
2025年春运首日兰张高铁新乌鞘岭隧道迎来了通车之后的首个春运1月14... -
文化中国行丨沉浸式体验“春节”之美 ...
随着中国春节申遗成功,蛇年春节非遗味儿更浓。目前,120余项与春节... -
我国每万人口高价值发明专利拥有量达14件
来源标题:新华社权威快报丨我国每万人口高价值发明专利拥有量达14... -
家门口更有“医”靠——多地深入推进紧...
来源标题:家门口更有医靠——多地深入推进紧密型县域医共体建设观... -
心血管要这样“保暖”
来源标题:新华健康 | 心血管要这样保暖随着气温的降低,人体的生... -
叮咚,寒假甲流防治指南,请查收
来源标题:叮咚,寒假甲流防治指南,请查收 -
权威医者说|得了流感该怎么办?
目前正值流感等呼吸道疾病高发期,假如自己得了流感怎么办?自己的家... -
解决婚姻家庭纠纷,最新司法规定来了!
来源标题:新华社权威快报丨解决婚姻家庭纠纷,最新司法规定来了!《... -
RockAI携手黑芝麻智能打造全新AI Agent解决方案
黑芝麻智能与RockAI联合发布基于武当C1200家族芯片的AI Agent解决 -
见证湾区新势力|横琴口岸·琴鸣广场启业...
2025年1月10日上午10时,横琴口岸·琴鸣广场(以下简称琴鸣广场 -
浙江金欣集团鼓励百万大学生兼职创业,...
全球经济一体化,订单消费作为一种创新的商业模式,正逐步成为推 -
都乐携比利时国宝级联名啤梨Olé首发,...
上海北京Olé双城首发!都乐蓝精灵联名款Truval啤梨萌趣上市!2025 -
销量/保值率/品质的王者,MPV界的“全能...
进入2024年以来,汽车行业洗牌再次加剧。汽车市场始终是竞技场,淘 -
中国汽车工业协会越野车分会2025会员大...
2025年1月10日,中国汽车工业协会越野车分会2025会员大会暨换届大会 -
车险全解:了解基础险种与附加险种的区...
在车险的世界里,基础险种与附加险种有着各自独特的作用。清晰了解... -
车险全解:了解基础险种与附加险种的区...
在车险的世界里,基础险种与附加险种有着各自独特的作用。清晰了解... -
激发“年货经济”消费潜力,顺丰赋能“...
为全面落实国家发改委、农业农村部、自治区人民政府,关于开展消费 -
云酒头条评出2024酒业十大热点事件
日前,云酒头条编辑部评选出中国酒业2024年度十大值得关注的热点 -
君乐宝集团向日喀则震区捐赠价值500万元物资
1月8日,君乐宝乳业集团向西藏日喀则震区捐赠总价值500万元物资,用 -
恶性肿瘤威胁健康,谢启超医生教你科学防癌
在当今社会快速发展的背景下,恶性肿瘤的频发态势愈发严峻,严重威 -
扬子江药业集团捐赠100万元药品驰援西藏...
1月7日,西藏日喀则市定日县发生6 8级地震,给当地人民群众的生命财产 -
百架无人机升空点亮情城夜幕,浪漫康定为...
近日,以“冬游康定·闪亮情城”为主题的康定市首届冰雪・暖阳・温泉... -
联发科与NVIDIA合作 为NVIDIA 个人AI...
联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超 -
德铁信可开通“鄂州 - 法兰克福”货运...
2025年1月7日,一架满载多类货物的波音777全货机从鄂州花湖国际机场