国际

中港专家研究AI神经元 1秒识图3479万张

(香港3日讯)香港中文大学、中国中科院物理研究所等专家及研究员近期在《Optica期刊》上发表一种基于“雷射”的人工神经元相关研究。

研究指出,该AI神经元基于芯片的量子点雷射器,不仅能完全模彷人类神经细胞功能,其10GBaud讯号处理速度,代表比生物神经元快整整10亿倍,也就是说,AI神经元能在1秒内处理1亿次心跳数据,在1秒内分析3479万张手写数位图像。

《新智元》公众号分析称,激光(雷射,下同)人工神经元能够以模彷生物神经元行为的方式,对输入信号(讯号,下同)做出响应,由于其超快的数据处理速度和低能耗,正被探索用作显着增强计算的一种方式。

研究认为,研究人员使用的雷射分级神经元是电注入的。相较于现有的雷射神经元演示中,雷射是使用光学注入,系统需要辅助可调谐雷射光源和额外的光电调制器[ 19-23、25、26、30 ]。与这些替代方案相比,我们的电注入雷射神经元不需要任何外部雷射泵浦和调制器,从而降低了硬体成本、系统复杂性和能耗。

港中大研究小组负责人Chaoran Huang(黄超然)表示,“激光梯级神经元突破了当前光子脉冲神经元的速度限制,我们构建的一个储层计算系统(reservoir computing system),在模式识别和序列预测等AI任务中展现出卓越的性能。”

他强调,凭借强大记忆效应和出色的资讯处理能力,单个激光梯度神经元,可以表现得像一个小型神经网路,即便没有额外复杂连接的单个激光梯级神经元,也能高效地执行机器学习任务。

此外,研究人员使用的QD雷射可以整合到大规模分级神经元阵列中,显示出实现深层储层架构和能够执行高度複杂的人工智能任务的大规模光学神经网路之希望。

该研究假使持续证明可行,未来可实现片上深水库架构,以便能够处理更复杂的人工智能任务,彷生整合光子分级神经元作为下一代光学非线性运算单元,为高速光子神经形态运算开辟了一条新路线。

新闻来源:ETtoday

反应

 

亚洲周刊专区

中国AI少女罗福莉传奇 DeepSeek比肩西方大模型

作者:锺晴彤

95后罗福莉被誉为“AI天才少女”,作为中国大模型DeepSeek-V3的核心研究员爆火,她带领团队以极低的成本,训练出世界顶尖水平的AI大模型,成为中国优秀AI工程师代表。

人工智能领域最近热点频出。这边谷歌旗下公司DeepMind才推出视频生成器Veo 2,生成分辨率高达4K,惊艳全球,而OpenAI总执行长萨姆—阿尔特曼宣称,2025年将看到首个AGI(通用人工智能)案例,颠覆性将远超预期;那边马斯克宣布旗下X.AI公司的Grok 3大模型即将推出,将是世界上最强大模型……

中国也没有缺席这场AI大竞赛。2024年12月26日,中国大模型公司DeepSeek发布全新系列模型DeepSeek-v3,性能直逼世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet。

然而,更让国外AI界震惊的是,该模型的训练用时不过两个月,训练成本也只有600万美元。

DeepSeek一战成名,也让参与开发的天才少女罗福莉成为AI明星,最近更因小米创始人雷军以千万年薪挖角而引发广泛关注。

小米重金挖罗福莉

小米在AI大模型上起步较晚,2023年才成立AI部门,因此在AI人才挖掘上不遗余力,这次就希望重金挖来罗福莉,让她领导大模型团队。不过,《亚洲周刊》了解到,对于小米抛来的橄榄枝,她尚未作最后的决定。

实际上,罗福莉早在2019年就已经出名,当时还在读研究生二年级的她,在自然语言处理领域顶级会议ACL 2019上发表了8篇论文,其中两篇为一作。于是,当时在知乎网站上就曾有人发问:“如何看待北大硕士生在自然语言处理顶级会议ACL2019上发表8篇论文?”

当时罗福莉在知乎发文回应称,当年ACL她投了一长一短两篇文章,都中了,其他论文都只是部分参与了实验室同学的研究。罗还表示,其朋友圈不乏ACL中了两篇一作长文的人。这次网友称她为“天才少女”,她谦虚地表示“都是虚名,而且过誉了”。

罗福莉高中毕业于四川省宜宾市第一中学。据其高中班主任李波表示,罗福莉尽管在班级中并非最高分,但在班上始终表现优秀,学习努力。当时她对电脑领域并没有特别的接触,她在个人公众号中提到,自己是误打误撞进入北京师范大学的电脑专业。

在大学初期,她感到迷茫,成绩也处于靠后的位置。

然而大二时,她开始专注于学习,逐渐提升了自己的学术水平。

北京大学电脑语言学专业

转折点出现在她研究生阶段,罗福莉成功保研至北京大学计算语言学专业。在此期间,她在国际顶级会议ACL上发表了前述的8篇论文,让她迅速走红,并被誉为“AI天才少女”。她在研究生期间不仅展现出卓越的科研能力,还积极参与了多个重要项目,奠定了她在AI领域的基础。

在北京大学的学习期间,罗福莉表现出色。她的研究重点集中在自然语言处理领域,并参与了多个前沿项目。罗福莉在学术界的成就为她后来的职业发展打下了坚实基础。

毕业后,她选择进入阿里达摩院进行人工智能研究,并迅速成为核心研发人员。她在该院期间负责多个重要项目,展现出强大的技术能力和创新思维。她主导开发的多语言预训练模型VECO在阿里达摩院内得到了广泛应用,日均调用量达到50亿次。此外,她还参与了AliceMind开源项目,为AI发展贡献了重要力量。

2022年,罗福莉离开阿里达摩院,转战知名私募公司幻方量化,从事深度学习相关策略建模和算法研究;幻方量化是2015年在宁波成立的一家私募基金,依靠数学与AI在股票上进行量化投资;2019年成立幻方人工智能基础研究有限公司,即幻方AI,并自研幻方“萤火一号”AI集群,2021年升级为“萤火二号”,搭载约一万张英伟达A100显卡。

以GPU规模来看,幻方AI无疑是当时中国最大的人工智能公司。

事实上,幻方AI的研发实力也很强大,在2023年4月创立DeepSeek,便迅速成为中国AI大模型的黑马。成立之初,罗福莉从幻方加入DeepSeek公司,参与研发MoE大模型。 

AI界拼多多

2024年5月,成立仅一年的DeepSeek推出MoE大模型DeepSeek-V2,在性能上比肩GPT-4 Turbo,价格却只有GPT-4的1%,让DeepSeek收获了“AI界拼多多”之称。但DeepSeek并不是简单拼价格,而是以创新技术来提高效率,异军突起。

DeepSeek性能优异、算力需求减少的原因在于两大关键算法。如今风靡全球的生成式AI大模型,技术原理是2017年谷歌工程师推出的Transformer架构,但作为技术核心的多头注意力机制非常消耗算力,因此训练成本居高不下。

然而DeepSeek团队在Transformer架构的基础上,提出了一种新型注意力MLA,替代了传统的多头注意力,大幅减少了计算量和推理显存。这就使得幻方的大模型在一年之内获得突破。

此外,在强化学习中,DeepSeek-V2放弃了critic模型,提出了创新算法“组相对策略优化”GRPO,不仅显著减少了训练资源的需求,而且增强了数学推理能力,同时优化了PPO的内存使用。

2024年2月,DeepSeek在公开发表的论文中指出,DeepSeekMath在没有依赖外部工具包和投票技术的情况下,在竞赛级MATH基准测试中取得了51.7%的分数,接近Gemini-Ultra和GPT-4水平,令人印象深刻。要知道,OpenAI的GPT-4这时候发布还不到一年。

DeepSeek-V3的进展则更惊人,其参数量达到671B,激活参数为37B,使用的预训练token量高达14.8兆。这一系列模型不仅在性能上超越了阿里Qwen2.5-72B和Meta的Llama-3.1-405B等开源模型,还与全球顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。

多个实测表明,在数学基准(MATH 500)和AIME 2024测试方面,DeepSeek V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代码能力比国外主流大模型高出约30分;软件工程(SWE-bench Verified)和知识问答方面略逊于Claude- 3.5-Sonnet。更重要的是,后者训练成本以数亿美元计,而V3仅花了600万美元。

Open AI总执行长萨姆—阿尔特曼隐晦地表达了对DeepSeek的担忧,不少美国技术专家则表示,美国在“零到一”领域投入巨大,但是中国凭藉在工程技术与市场应用上的优势,实现“一到一百”的迅速崛起,甚至实现超越,对美国科技发展带来越来越大的压力。

中国优秀工程师大增

美国还有一个更大的压力,那就是中国优秀的AI工程师越来越多。DeepSeek用人不拘一格,从博士到本科实习生都会考虑,其组织形态与文化最接近硅谷的OpenAI。罗福莉这样的天才少女只是众多优秀AI工程师中间的一个。

如果说,中国未来有一家AI公司能与美国相竞争,那一定是DeepSeek。

罗福莉小档案:
95后,生于四川宜宾,本科北京师范大学,硕士毕业于北京大学。研二时因在AI顶尖国际会议ACL发表8篇论文走红,2019年进入阿里达摩院。2022年进入幻方量化,后加入DeepSeek公司参与大模型研发,获雷军千万年薪挖角。

新闻来源:亚洲周刊

视频推荐:

反应
 
 

相关新闻

南洋地产