▶ 孙立彬
1月20日,中国人工智能企业深度求索(DeepSeek)发布推理大模型DeepSeek-R1;1月27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店APP下载排行榜,在美区下载榜超越了ChatGPT。大语言基座模型DeepSeek V3以及基于V3训练、专为复杂推理任务设计的DeepSeek-R1模型,用较低的成本达到了接近于美国开放人工智能研究中心(OpenAI)开发的GPT-o1模型的性能。
引发AI行业三大巨变
DeepSeek大模型横空出世,以卓越的性能、巨大的低成本优势以及全面开源在全世界迅速走红。国内外AI应用访问量及月活用户数持续增长,DeepSeek Web端访问量增长22倍,7天时间完成了1亿用户的增长。
赛迪顾问人工智能与大数据研究中心高级分析师白润轩表示,DeepSeek为行业带来了3个巨大变化,首先是成本革命。DeepSeek采用混合专家模型(MoE)架构、动态路由算法和混合精度训练等技术,将大模型的训练成本从数千万美元降低至数百万美元,推理成本降低99%,显著降低了行业门槛。其次是性能突破。DeepSeek模型在多项基准测试中表现优异,性能接近甚至超越GPT-4等顶尖闭源模型。例如,DeepSeek-R1在复杂推理任务中表现突出,被称为“全能型AI助手”。第三是开源生态的崛起。DeepSeek开源了70%的核心模型和训练框架,吸引全球开发者参与优化和部署,推动了技术的快速迭代和普及。
在此之前,生成式AI领域奉行的是“大力出奇迹”及“各立山头”的发展模式,谁占有最多的算力意味着可能研发出更强大的模型,更强大的闭源模型则带来更高的收益。例如,ChatGPT Pro的订阅费用高达每月200美元。
白润轩表示,DeepSeek改变了这一切。通过低成本和高性能的结合,DeepSeek使大模型从“巨头的玩具”变为“大众的工具”,加速了AI在B端和C端的落地。DeepSeek还验证了基于强化学习(RL)的新Scaling Law(尺度定律被业界认为是大模型预训练第一性原理),强调算法创新而非单纯堆砌算力,为行业提供了新的增长曲线。此外, DeepSeek模型推动了边缘计算和端侧AI的发展,未来算力需求将从集中式训练向分布式推理扩展。
DeepSeek的出现,为整个大模型行业带来了技术普惠。在同等参数量下,DeepSeek实现推理速度提升30%以上、训练成本降低40%,打破了“大模型=高成本”的行业魔咒,使得更多中小企业和研究机构以更低成本部署大模型;同时其开源策略产生的“鲶鱼效应”倒逼闭源厂商加速技术迭代,推动大模型行业竞争从模型独占性向数据飞轮和服务闭环演变,推动企业加快研究提供一体化解决方案。
IDC(互联网数据中心)中国研究经理程荫表示,DeepSeek引领基础大模型开启另一开发新范式——以一系列降低成本/复杂性的创新优化技术/手段,降低门槛,未来差异化竞争的结果是NLP大模型的进一步更新升级,软件及硬件供应商应提供多模型选择、高效且可靠的部署方式的大模型开发平台或应用开发工具,并进行软硬件协同创新。2025年产业界也更加关注大模型和生成式AI的落地,整个生态系统应通力合作加速应用场景的创新及商业化。
加速AI应用普及
“目前大模型已逐步融入工业研发、生产、运维、管理、服务等众多应用场景,在创新产品设计、提升研发效率、识别生产线故障、实现智能生产和安全预警等方面展现良好成效。当前DeepSeek的开源进一步增加了中小厂商获取先进大模型技术的便利,加速其自身应用开发,加快适配更多应用场景,推动未来工业领域的融合应用更加广泛,为产业数字化转型提供坚实支撑。”赛迪研究院电子信息研究所研究室副主任王翠林表示。
中信证券、银河证券等券商的研报认为,DeepSeek新一代模型的发布,意味着AI大模型的应用将逐步走向普及,加速AI应用全面落地。
而中国的很多企业也确实正在积极拥抱DeepSeek。近期,包括云计算厂商、电信运营商、芯片厂商、软件和众多终端厂商、车企、券商密集宣布接入DeepSeek。
近日,DeepSeek-R1、V3、Coder等全系列大模型更是接入到国家超算互联网平台。
国家超算互联网平台相关负责人表示,先进的国产AI技术与国家级综合算力服务平台融合,是加速国产AI技术生态发展与普及的前沿实践,将在市场、技术、创新、产品及用户方面推动AI技术生态创新及成果落地,促进AI+的多样化,推动中国乃至全球AI产业化进程和市场的拓展。