亚洲周刊专区

中国AI少女罗福莉传奇 DeepSeek比肩西方大模型

作者:锺晴彤

95后罗福莉被誉为“AI天才少女”,作为中国大模型DeepSeek-V3的核心研究员爆火,她带领团队以极低的成本,训练出世界顶尖水平的AI大模型,成为中国优秀AI工程师代表。

人工智能领域最近热点频出。这边谷歌旗下公司DeepMind才推出视频生成器Veo 2,生成分辨率高达4K,惊艳全球,而OpenAI总执行长萨姆—阿尔特曼宣称,2025年将看到首个AGI(通用人工智能)案例,颠覆性将远超预期;那边马斯克宣布旗下X.AI公司的Grok 3大模型即将推出,将是世界上最强大模型……

中国也没有缺席这场AI大竞赛。2024年12月26日,中国大模型公司DeepSeek发布全新系列模型DeepSeek-v3,性能直逼世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet。

然而,更让国外AI界震惊的是,该模型的训练用时不过两个月,训练成本也只有600万美元。

DeepSeek一战成名,也让参与开发的天才少女罗福莉成为AI明星,最近更因小米创始人雷军以千万年薪挖角而引发广泛关注。

小米重金挖罗福莉

小米在AI大模型上起步较晚,2023年才成立AI部门,因此在AI人才挖掘上不遗余力,这次就希望重金挖来罗福莉,让她领导大模型团队。不过,《亚洲周刊》了解到,对于小米抛来的橄榄枝,她尚未作最后的决定。

实际上,罗福莉早在2019年就已经出名,当时还在读研究生二年级的她,在自然语言处理领域顶级会议ACL 2019上发表了8篇论文,其中两篇为一作。于是,当时在知乎网站上就曾有人发问:“如何看待北大硕士生在自然语言处理顶级会议ACL2019上发表8篇论文?”

当时罗福莉在知乎发文回应称,当年ACL她投了一长一短两篇文章,都中了,其他论文都只是部分参与了实验室同学的研究。罗还表示,其朋友圈不乏ACL中了两篇一作长文的人。这次网友称她为“天才少女”,她谦虚地表示“都是虚名,而且过誉了”。

罗福莉高中毕业于四川省宜宾市第一中学。据其高中班主任李波表示,罗福莉尽管在班级中并非最高分,但在班上始终表现优秀,学习努力。当时她对电脑领域并没有特别的接触,她在个人公众号中提到,自己是误打误撞进入北京师范大学的电脑专业。

在大学初期,她感到迷茫,成绩也处于靠后的位置。

然而大二时,她开始专注于学习,逐渐提升了自己的学术水平。

北京大学电脑语言学专业

转折点出现在她研究生阶段,罗福莉成功保研至北京大学计算语言学专业。在此期间,她在国际顶级会议ACL上发表了前述的8篇论文,让她迅速走红,并被誉为“AI天才少女”。她在研究生期间不仅展现出卓越的科研能力,还积极参与了多个重要项目,奠定了她在AI领域的基础。

在北京大学的学习期间,罗福莉表现出色。她的研究重点集中在自然语言处理领域,并参与了多个前沿项目。罗福莉在学术界的成就为她后来的职业发展打下了坚实基础。

毕业后,她选择进入阿里达摩院进行人工智能研究,并迅速成为核心研发人员。她在该院期间负责多个重要项目,展现出强大的技术能力和创新思维。她主导开发的多语言预训练模型VECO在阿里达摩院内得到了广泛应用,日均调用量达到50亿次。此外,她还参与了AliceMind开源项目,为AI发展贡献了重要力量。

2022年,罗福莉离开阿里达摩院,转战知名私募公司幻方量化,从事深度学习相关策略建模和算法研究;幻方量化是2015年在宁波成立的一家私募基金,依靠数学与AI在股票上进行量化投资;2019年成立幻方人工智能基础研究有限公司,即幻方AI,并自研幻方“萤火一号”AI集群,2021年升级为“萤火二号”,搭载约一万张英伟达A100显卡。

以GPU规模来看,幻方AI无疑是当时中国最大的人工智能公司。

事实上,幻方AI的研发实力也很强大,在2023年4月创立DeepSeek,便迅速成为中国AI大模型的黑马。成立之初,罗福莉从幻方加入DeepSeek公司,参与研发MoE大模型。 

AI界拼多多

2024年5月,成立仅一年的DeepSeek推出MoE大模型DeepSeek-V2,在性能上比肩GPT-4 Turbo,价格却只有GPT-4的1%,让DeepSeek收获了“AI界拼多多”之称。但DeepSeek并不是简单拼价格,而是以创新技术来提高效率,异军突起。

DeepSeek性能优异、算力需求减少的原因在于两大关键算法。如今风靡全球的生成式AI大模型,技术原理是2017年谷歌工程师推出的Transformer架构,但作为技术核心的多头注意力机制非常消耗算力,因此训练成本居高不下。

然而DeepSeek团队在Transformer架构的基础上,提出了一种新型注意力MLA,替代了传统的多头注意力,大幅减少了计算量和推理显存。这就使得幻方的大模型在一年之内获得突破。

此外,在强化学习中,DeepSeek-V2放弃了critic模型,提出了创新算法“组相对策略优化”GRPO,不仅显著减少了训练资源的需求,而且增强了数学推理能力,同时优化了PPO的内存使用。

2024年2月,DeepSeek在公开发表的论文中指出,DeepSeekMath在没有依赖外部工具包和投票技术的情况下,在竞赛级MATH基准测试中取得了51.7%的分数,接近Gemini-Ultra和GPT-4水平,令人印象深刻。要知道,OpenAI的GPT-4这时候发布还不到一年。

DeepSeek-V3的进展则更惊人,其参数量达到671B,激活参数为37B,使用的预训练token量高达14.8兆。这一系列模型不仅在性能上超越了阿里Qwen2.5-72B和Meta的Llama-3.1-405B等开源模型,还与全球顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。

多个实测表明,在数学基准(MATH 500)和AIME 2024测试方面,DeepSeek V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代码能力比国外主流大模型高出约30分;软件工程(SWE-bench Verified)和知识问答方面略逊于Claude- 3.5-Sonnet。更重要的是,后者训练成本以数亿美元计,而V3仅花了600万美元。

Open AI总执行长萨姆—阿尔特曼隐晦地表达了对DeepSeek的担忧,不少美国技术专家则表示,美国在“零到一”领域投入巨大,但是中国凭藉在工程技术与市场应用上的优势,实现“一到一百”的迅速崛起,甚至实现超越,对美国科技发展带来越来越大的压力。

中国优秀工程师大增

美国还有一个更大的压力,那就是中国优秀的AI工程师越来越多。DeepSeek用人不拘一格,从博士到本科实习生都会考虑,其组织形态与文化最接近硅谷的OpenAI。罗福莉这样的天才少女只是众多优秀AI工程师中间的一个。

如果说,中国未来有一家AI公司能与美国相竞争,那一定是DeepSeek。

罗福莉小档案:
95后,生于四川宜宾,本科北京师范大学,硕士毕业于北京大学。研二时因在AI顶尖国际会议ACL发表8篇论文走红,2019年进入阿里达摩院。2022年进入幻方量化,后加入DeepSeek公司参与大模型研发,获雷军千万年薪挖角。

新闻来源:亚洲周刊

视频推荐:

反应

 

国际

小米雷军捧612万聘请 95后“天才少女”领导AI团队

(北京30日讯)AI人才有多火?据中国媒体报道,小米创办人雷军亲自出马挖角,以年薪千万元人民币(约612万令吉)聘用“95后”AI“天才少女”罗福莉。

根据世界新闻网引述证券时报报道,小雷军高薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一的罗福莉,领导小米AI大模型团队。

公开数据显示,罗福莉大学就读于北京师范大学电脑系,研究所毕业于北京大学计算语言学所。2019年,在北大读硕士的她在人工智能领域顶尖国际会议ACL发表8篇论文,登上了“知乎”热搜。罗福莉用本人知乎账号回应称,“这次投稿ACL是我近一年的产出,所以我认为自己是付出了足够的努力的,当然也可能也有运气成分加持。”

硕士毕业后,罗福莉先进入阿里达摩院,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模与算法研究,后来跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。

今年5月,在DeepSeek-V2发布后,罗福莉在“知乎”撰文,发表对DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。

事实上,罗福莉被重金招入小米,是小米全面发力AI大模型的其中一项措施。 2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。

今年11月,小米成立了专门的AI平台部,小米的元老级技术工程师张铎为负责人。张铎本硕毕业于北京清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。

小米集团总裁卢伟冰透露,预计2024年小米研发费用将达240亿人民币(约147亿令吉),2025年更是将攀升至300亿人民币(约183亿令吉)。预计自2022年至2026年的5年内,小米的研发投入将超过1000亿元人民币,主要聚焦于AI、OS、芯片三大底层技术的研发。

雷军曾在公开演讲中表示,小米做大模型的想法和许多公司不太一样,选择主力突破的是轻量化和本地部署。对于小米这样无论在手机或造车上都讲究“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的内核问题。而这,或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。

新闻来源:世界新闻网

反应
 
 

相关新闻

南洋地产