
DeepSeek R1发布引发算力投资担忧:对大模型降本、下一代模型及中美技术差距的影响

核心观点:DeepSeek发布R1模型,引发市场对算力投资的担忧。
DeepSeek发布的R1模型及其相关应用,以较低的训练成本达到了与现有前沿模型相当的效果,引发了市场对AI算力投资的广泛讨论。该事件的核心在于DeepSeek通过在预训练阶段加入强化学习,显著降低了模型训练成本。
DeepSeek R1对大模型降本的贡献:
DeepSeek V3模型的训练成本仅为Llama 3系列的7%。这意味着DeepSeek的技术创新,特别是其在预训练阶段使用强化学习的方法,能够在仅有极少标注数据的情况下提升模型推理能力,大幅降低训练成本,并实现与现有大模型相当的效果。如果其他公司(如Meta)采用类似的路径,可能会显著降低现有大模型的训练成本。这对于降低AI开发门槛,促进大模型技术的普及应用具有重要意义。
DeepSeek方法对下一代大模型的有效性:
目前,北美主要的AI公司正通过扩大GPU集群规模来探索下一代大模型,例如微软、谷歌、亚马逊和Meta等公司在2024年的资本支出中,有很大一部分用于下一代模型的算力投资,例如GPT-5和Llama 4等。DeepSeek的R1模型训练成本大幅降低,但其方法在下一代模型研发中的有效性仍有待观察。下一代大模型可能需要更大规模的算力集群,DeepSeek的方法是否能够适应这种趋势,还需要进一步的验证。
Scaling Law放缓背景下,中美技术差距有望缩小:
自2022年11月OpenAI发布GPT-3.5以来,中美在大模型技术上的差距有所扩大。然而,随着互联网文本数据的逐渐耗尽,预训练阶段的Scaling Law面临挑战,最先进大模型的发展速度开始放缓。这为中国AI企业提供了赶超的机会。DeepSeek R1的成功,显示出在大模型发展放缓的背景下,大模型竞争的焦点从单纯的模型规模转向工程创新。中国涌现的智谱、月之暗面、Minimax等初创企业也展现出强大的竞争力,因此,中美在大模型技术上的差距有望缩小。
风险提示:
- 中美贸易摩擦升级,可能影响产品供需和公司海外布局;
- 宏观经济下行风险;
- DeepSeek R1的创新技术渗透不及预期,导致公司增长不及预期;
- 本报告涉及的未上市公司或未覆盖个股信息,仅为对客观公开信息的整理,不构成投资建议。
发表评论