DeepSeek:中国AI的新星,如何以低成本创新撼动全球AI格局?
最近,DeepSeek成为了热门话题,大家都在讨论它的突破性进展。那么,DeepSeek到底牛在哪里?它是如何实现这些突破的?又会对AI行业产生什么影响?甚至,为什么它的成功会导致英伟达股票大跌?今天我们就来一探究竟。
1.DeepSeek的厉害之处
DeepSeek最新的R1模型在多项任务上已经能够媲美国际领先的大语言模型,尤其是在推理等关键任务上,表现尤为出色。这不仅让中国的大语言模型与国际领先水平的差距缩短了大约两年,还大幅降低了训练成本。R1模型的训练成本仅为600多万美元,而其他领先模型的训练成本往往以亿美元为单位。更值得一提的是,DeepSeek选择了开源路线,打破了“开源模型性能不如闭源模型”的传统认知,提升了开源模型的整体水平。
2.实现优势的技术创新
MoE(Mixture of Experts)专家混合模型
DeepSeek采用了MoE模型,这种模型可以根据用户需求将大模型分块,只激活所需的子模型来解决问题。这种方式不仅速度快,还能大幅降低成本。然而,MoE模型在实际操作中有一个难点:如何选择正确的专家子模型。DeepSeek通过类似医院分诊系统的门控制机制,实现了不同专家之间的负载均衡,成功解决了这一难题。
减少对SFT(Supervised Fine-Tuning)的依赖
传统模型训练需要大量高质量的人工标记数据,成本极高。DeepSeek通过强化学习和FP8混合精度训练技术,减少了对SFT的依赖。由于DeepSeek在GPU资源上相对有限,无法像OpenAI那样投入大量资源,因此它选择了更巧妙的技术路径,实现了高效低成本的模型训练。
3.对AI未来发展格局的影响
DeepSeek的开源策略使得模型参数对开发者开放,这意味着开发者可以在其基础上进行调试、开发新功能和产品,从而有望形成一个开放的生态系统。这种模式对闭源模型的公司造成了不小的冲击,证明了开源模型不仅可以做到性能优异,还能大幅降低成本。
英伟达股票大跌原因:投资者原本认为打造优秀的 AI 模型需要大量先进的显卡,所以市场对英伟达显卡需求会持续增长,其股票也随之上涨。但 DeepSeek 利用较少且并非最先进的显卡(很多是上一代或上两代旧卡)就做出了好模型,若这种路线流行起来,对英伟达显卡的需求可能下降,这打击了投资者对英伟达股票的信心,导致其股票大跌。