阿里巴巴推出AI模型可在手机处理视频和音频

2025年03月27日

新华社

（杭州27日讯）阿里巴巴发布Qwen系列新人工智能(AI)模型，公司称该模型可处理文本、图片、音频和视频，其效率足以直接在手机和笔记本电脑上运行。

该公司表示，目前公开发布于Hugging Face和GitHub的这个新模型将被用于构建所谓的AI智能体，例如，可以通过实时音频描述帮助视障人士确定他们周边的状况。

今年全力投身这项技术以来，阿里巴巴一直在以惊人的速度发布AI产品。

阿里巴巴当然不是唯一一家开发多模态模型的AI开发商。OpenAI和Alphabet的谷歌都提供了生成式AI工具，可处理包括文本和音频在内的不同类型输入。周二，OpenAI扩展其功能，为 ChatGPT新增更先进的图像生成功能。

阿里巴巴在声明中表示，其新的Qwen2.5-Omni-7B系统在语音理解和生成方面性能特别高。

阿里巴巴

AI

人工智能

国际财经

阿里巴巴发布新AI模型可视觉解读人类情绪

2025年03月13日

彭博社

（杭州13日讯）阿里巴巴发布了一款据称可以解读人类情绪的人工智能模型，意在挑战OpenAI的最新产品。

在两场演示中，阿里巴巴通义实验室的研究人员展示了他们的新开源模型R1-Omni，这款人工智能工具可以推断视频中人物的情绪状态，并描述衣服和环境。它为所谓的计算机视觉增加了另一层理解，是另一开源模型HumanOmni的增强版。

1月份DeepSeek一鸣惊人的亮相加速了阿里巴巴在人工智能领域的步伐，这家电子商务巨头目前正在多个领域推出新的人工智能工具和应用程序。其对标DeepSeek的模型“通义千问”成为了苹果在中国大陆市场的AI合作伙伴，为中国iPhone用户提供人工智能相关服务，目前该公司还打算与OpenAI一较高下。用户可以在Hugging Face上免费下载R1-Omni。

今年早些时候，OpenAI推出了GPT-4.5模型，该公司称这款模型能够更好地识别和响应用户书面提问中的微妙线索。但该模型价格不菲：最初仅向月费200美元的付费用户开放。而阿里巴巴声称不收取任何费用，并允许所有人使用其新模型。

演示中仅展示了R1-Omni能够给出“快乐”或“愤怒”等一般情绪描述，但它从视觉线索中提取这些描述的能力非常重要。

指数	报价(点)	起落(点)	波动(%)
富时隆综指	1513.65	-22.08	-1.44
富时全股项	11348.04	-148.15	-1.29
富时70中型股	16276.09	-196.74	-1.19
富时小型股	15578.53	-67.77	-0.43
创业板	4808.92	51.53	1.08

阿里巴巴推出AI模型可在手机处理视频和音频

阿里巴巴发布新AI模型可视觉解读人类情绪

相关新闻

巴生二校联办培训教师学实际操作AI

全球首个通用智能人长大了 “通通”拥5岁心智

娱乐工具·社会议题·文化传承短视频让知识更快普及

【独家】中企:智能化水平不足大马须优化营商条件

大马经济励精图治/李兴裕

陈立武:放眼AI硬件竞争英特尔迎战英伟达

软银集团领投传OpenAI敲定1780亿融资

ChatGPT宫崎骏化全网玩疯了!

陈立武指18A进展良好英特尔将优先强化AI硬体

助推动AI教育与职教独大获3集团捐15万

特朗普贸易战云山雾罩各国央行只能匍匐前进

李嘉诚长和集团拟卖港口中方要管审查期可能半年

缅甸强震冲击矿区国际锡价飙至36500美元

【缅甸地震】重大断层带“沉睡200年” 学者:早警告政府

受制于关税威胁加拿大经济陷停滞

消费支出疲弱美国通胀指标加速

对关税谈判持开放态度特朗普:下个瞄准药品税

37天狂飙10万美元美国最贵股疯涨透露不祥讯号?

在美国设厂避关税? 兰博基尼CEO:不可能

巴菲特和李嘉诚都在囤现金投资大师们看到了什么?

股市行情

阿里巴巴推出AI模型 可在手机处理视频和音频

阿里巴巴发布新AI模型 可视觉解读人类情绪

相关新闻

阿里巴巴推出AI模型可在手机处理视频和音频

阿里巴巴发布新AI模型可视觉解读人类情绪