中国AI少女罗福莉传奇 DeepSeek比肩西方大模型

2025年01月15日

中国95后AI“天才少女”罗福莉，被小米创办人雷军以人民币千万元高薪网罗至旗下。（取自罗福莉微博）

作者：锺晴彤

95后罗福莉被誉为“AI天才少女”，作为中国大模型DeepSeek-V3的核心研究员爆火，她带领团队以极低的成本，训练出世界顶尖水平的AI大模型，成为中国优秀AI工程师代表。

人工智能领域最近热点频出。这边谷歌旗下公司DeepMind才推出视频生成器Veo 2，生成分辨率高达4K，惊艳全球，而OpenAI总执行长萨姆—阿尔特曼宣称，2025年将看到首个AGI（通用人工智能）案例，颠覆性将远超预期；那边马斯克宣布旗下X.AI公司的Grok 3大模型即将推出，将是世界上最强大模型……

中国也没有缺席这场AI大竞赛。2024年12月26日，中国大模型公司DeepSeek发布全新系列模型DeepSeek-v3，性能直逼世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet。

然而，更让国外AI界震惊的是，该模型的训练用时不过两个月，训练成本也只有600万美元。

DeepSeek一战成名，也让参与开发的天才少女罗福莉成为AI明星，最近更因小米创始人雷军以千万年薪挖角而引发广泛关注。

小米重金挖罗福莉

小米在AI大模型上起步较晚，2023年才成立AI部门，因此在AI人才挖掘上不遗余力，这次就希望重金挖来罗福莉，让她领导大模型团队。不过，《亚洲周刊》了解到，对于小米抛来的橄榄枝，她尚未作最后的决定。

实际上，罗福莉早在2019年就已经出名，当时还在读研究生二年级的她，在自然语言处理领域顶级会议ACL 2019上发表了8篇论文，其中两篇为一作。于是，当时在知乎网站上就曾有人发问：“如何看待北大硕士生在自然语言处理顶级会议ACL2019上发表8篇论文？”

当时罗福莉在知乎发文回应称，当年ACL她投了一长一短两篇文章，都中了，其他论文都只是部分参与了实验室同学的研究。罗还表示，其朋友圈不乏ACL中了两篇一作长文的人。这次网友称她为“天才少女”，她谦虚地表示“都是虚名，而且过誉了”。

罗福莉高中毕业于四川省宜宾市第一中学。据其高中班主任李波表示，罗福莉尽管在班级中并非最高分，但在班上始终表现优秀，学习努力。当时她对电脑领域并没有特别的接触，她在个人公众号中提到，自己是误打误撞进入北京师范大学的电脑专业。

在大学初期，她感到迷茫，成绩也处于靠后的位置。

然而大二时，她开始专注于学习，逐渐提升了自己的学术水平。

北京大学电脑语言学专业

转折点出现在她研究生阶段，罗福莉成功保研至北京大学计算语言学专业。在此期间，她在国际顶级会议ACL上发表了前述的8篇论文，让她迅速走红，并被誉为“AI天才少女”。她在研究生期间不仅展现出卓越的科研能力，还积极参与了多个重要项目，奠定了她在AI领域的基础。

在北京大学的学习期间，罗福莉表现出色。她的研究重点集中在自然语言处理领域，并参与了多个前沿项目。罗福莉在学术界的成就为她后来的职业发展打下了坚实基础。

毕业后，她选择进入阿里达摩院进行人工智能研究，并迅速成为核心研发人员。她在该院期间负责多个重要项目，展现出强大的技术能力和创新思维。她主导开发的多语言预训练模型VECO在阿里达摩院内得到了广泛应用，日均调用量达到50亿次。此外，她还参与了AliceMind开源项目，为AI发展贡献了重要力量。

2022年，罗福莉离开阿里达摩院，转战知名私募公司幻方量化，从事深度学习相关策略建模和算法研究；幻方量化是2015年在宁波成立的一家私募基金，依靠数学与AI在股票上进行量化投资；2019年成立幻方人工智能基础研究有限公司，即幻方AI，并自研幻方“萤火一号”AI集群，2021年升级为“萤火二号”，搭载约一万张英伟达A100显卡。

以GPU规模来看，幻方AI无疑是当时中国最大的人工智能公司。

事实上，幻方AI的研发实力也很强大，在2023年4月创立DeepSeek，便迅速成为中国AI大模型的黑马。成立之初，罗福莉从幻方加入DeepSeek公司，参与研发MoE大模型。

小米创始人雷军以千万年薪招揽DeepSeek-V2关键开发者之一罗福莉，领导小米AI大模型团队。（中新社）

AI界拼多多

2024年5月，成立仅一年的DeepSeek推出MoE大模型DeepSeek-V2，在性能上比肩GPT-4 Turbo，价格却只有GPT-4的1%，让DeepSeek收获了“AI界拼多多”之称。但DeepSeek并不是简单拼价格，而是以创新技术来提高效率，异军突起。

DeepSeek性能优异、算力需求减少的原因在于两大关键算法。如今风靡全球的生成式AI大模型，技术原理是2017年谷歌工程师推出的Transformer架构，但作为技术核心的多头注意力机制非常消耗算力，因此训练成本居高不下。

然而DeepSeek团队在Transformer架构的基础上，提出了一种新型注意力MLA，替代了传统的多头注意力，大幅减少了计算量和推理显存。这就使得幻方的大模型在一年之内获得突破。

此外，在强化学习中，DeepSeek-V2放弃了critic模型，提出了创新算法“组相对策略优化”GRPO，不仅显著减少了训练资源的需求，而且增强了数学推理能力，同时优化了PPO的内存使用。

2024年2月，DeepSeek在公开发表的论文中指出，DeepSeekMath在没有依赖外部工具包和投票技术的情况下，在竞赛级MATH基准测试中取得了51.7%的分数，接近Gemini-Ultra和GPT-4水平，令人印象深刻。要知道，OpenAI的GPT-4这时候发布还不到一年。

DeepSeek-V3的进展则更惊人，其参数量达到671B，激活参数为37B，使用的预训练token量高达14.8兆。这一系列模型不仅在性能上超越了阿里Qwen2.5-72B和Meta的Llama-3.1-405B等开源模型，还与全球顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。

多个实测表明，在数学基准(MATH 500)和AIME 2024测试方面，DeepSeek V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o；代码能力比国外主流大模型高出约30分；软件工程(SWE-bench Verified)和知识问答方面略逊于Claude- 3.5-Sonnet。更重要的是，后者训练成本以数亿美元计，而V3仅花了600万美元。

Open AI总执行长萨姆—阿尔特曼隐晦地表达了对DeepSeek的担忧，不少美国技术专家则表示，美国在“零到一”领域投入巨大，但是中国凭藉在工程技术与市场应用上的优势，实现“一到一百”的迅速崛起，甚至实现超越，对美国科技发展带来越来越大的压力。

中国优秀工程师大增

美国还有一个更大的压力，那就是中国优秀的AI工程师越来越多。DeepSeek用人不拘一格，从博士到本科实习生都会考虑，其组织形态与文化最接近硅谷的OpenAI。罗福莉这样的天才少女只是众多优秀AI工程师中间的一个。

如果说，中国未来有一家AI公司能与美国相竞争，那一定是DeepSeek。

罗福莉小档案:
95后，生于四川宜宾，本科北京师范大学，硕士毕业于北京大学。研二时因在AI顶尖国际会议ACL发表8篇论文走红，2019年进入阿里达摩院。2022年进入幻方量化，后加入DeepSeek公司参与大模型研发，获雷军千万年薪挖角。

新闻来源：亚洲周刊

视频推荐：

DeepSeek

罗福莉

AI

国际

小米雷军捧612万聘请 95后“天才少女”领导AI团队

2024年12月30日

中国95后AI“天才少女”罗福莉，被小米创办人雷军以人民币千万元高薪网罗至旗下。（取自微博）

（北京30日讯）AI人才有多火？据中国媒体报道，小米创办人雷军亲自出马挖角，以年薪千万元人民币（约612万令吉）聘用“95后”AI“天才少女”罗福莉。

根据世界新闻网引述证券时报报道，小雷军高薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一的罗福莉，领导小米AI大模型团队。

公开数据显示，罗福莉大学就读于北京师范大学电脑系，研究所毕业于北京大学计算语言学所。2019年，在北大读硕士的她在人工智能领域顶尖国际会议ACL发表8篇论文，登上了“知乎”热搜。罗福莉用本人知乎账号回应称，“这次投稿ACL是我近一年的产出，所以我认为自己是付出了足够的努力的，当然也可能也有运气成分加持。”

硕士毕业后，罗福莉先进入阿里达摩院，从事预训练语言模型相关的工作，负责阿里达摩院AliceMind开源项目，主导开发了多语言预训练模型VECO。2022年，罗福莉加入幻方量化从事深度学习相关策略建模与算法研究，后来跳槽到DeepSeek担任深度学习研究员，参与研发MoE大模型DeepSeek-V2。

今年5月，在DeepSeek-V2发布后，罗福莉在“知乎”撰文，发表对DeepSeek-V2的看法。她表示，“单论DeepSeek-V2模型的中文水平，是真实处在国内外闭源模型的第一梯队”，“外加1元/百万输入Tokens的价格，只有GPT4价格的1/100，性价比之王”。

事实上，罗福莉被重金招入小米，是小米全面发力AI大模型的其中一项措施。 2023年4月，小米正式组建了AI实验室大模型团队，并表示将不断挖掘AI相关的用户场景，发挥自身技术优势，并以开放的态度与合作伙伴开拓更多机会。

今年11月，小米成立了专门的AI平台部，小米的元老级技术工程师张铎为负责人。张铎本硕毕业于北京清华计算机系，曾被雷军公开称赞是“小米的大神”，送以“铎神”的称号。

小米集团总裁卢伟冰透露，预计2024年小米研发费用将达240亿人民币（约147亿令吉），2025年更是将攀升至300亿人民币（约183亿令吉）。预计自2022年至2026年的5年内，小米的研发投入将超过1000亿元人民币，主要聚焦于AI、OS、芯片三大底层技术的研发。

雷军曾在公开演讲中表示，小米做大模型的想法和许多公司不太一样，选择主力突破的是轻量化和本地部署。对于小米这样无论在手机或造车上都讲究“性价比”的公司而言，如何在烧钱的大模型业务中平衡成本，无疑是雷军考虑的内核问题。而这，或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。

新闻来源：世界新闻网

指数	报价(点)	起落(点)	波动(%)
富时隆综指	1562.12	-14.34	-0.91
富时全股项	11951.72	-165.25	-1.36
富时70中型股	17792.55	-438.35	-2.4
富时小型股	17142.51	-262.5	-1.51
创业板	5151.2	-109.38	-2.08

中国AI少女罗福莉传奇 DeepSeek比肩西方大模型

小米雷军捧612万聘请 95后“天才少女”领导AI团队

相关新闻

股市行情