国际财经

阿里巴巴推出AI模型 可在手机处理视频和音频

(杭州27日讯)阿里巴巴发布Qwen系列新人工智能(AI)模型,公司称该模型可处理文本、图片、音频和视频,其效率足以直接在手机和笔记本电脑上运行。

该公司表示,目前公开发布于Hugging Face和GitHub的这个新模型将被用于构建所谓的AI智能体,例如,可以通过实时音频描述帮助视障人士确定他们周边的状况。

今年全力投身这项技术以来,阿里巴巴一直在以惊人的速度发布AI产品。

阿里巴巴当然不是唯一一家开发多模态模型的AI开发商。OpenAI和Alphabet的谷歌都提供了生成式AI工具,可处理包括文本和音频在内的不同类型输入。周二,OpenAI扩展其功能,为 ChatGPT新增更先进的图像生成功能。

阿里巴巴在声明中表示,其新的Qwen2.5-Omni-7B系统在语音理解和生成方面性能特别高。

 
 

 

反应

 

国际财经

阿里巴巴发布新AI模型 可视觉解读人类情绪

(杭州13日讯)阿里巴巴发布了一款据称可以解读人类情绪的人工智能模型,意在挑战OpenAI的最新产品。

在两场演示中,阿里巴巴通义实验室的研究人员展示了他们的新开源模型R1-Omni,这款人工智能工具可以推断视频中人物的情绪状态,并描述衣服和环境。它为所谓的计算机视觉增加了另一层理解,是另一开源模型HumanOmni的增强版。

1月份DeepSeek一鸣惊人的亮相加速了阿里巴巴在人工智能领域的步伐,这家电子商务巨头目前正在多个领域推出新的人工智能工具和应用程序。其对标DeepSeek的模型“通义千问”成为了苹果在中国大陆市场的AI合作伙伴,为中国iPhone用户提供人工智能相关服务,目前该公司还打算与OpenAI一较高下。用户可以在Hugging Face上免费下载R1-Omni。

今年早些时候,OpenAI推出了GPT-4.5模型,该公司称这款模型能够更好地识别和响应用户书面提问中的微妙线索。但该模型价格不菲:最初仅向月费200美元的付费用户开放。而阿里巴巴声称不收取任何费用,并允许所有人使用其新模型。

演示中仅展示了R1-Omni能够给出“快乐”或“愤怒”等一般情绪描述,但它从视觉线索中提取这些描述的能力非常重要。

反应
 
 

相关新闻

南洋地产
BESbswyBESbswyBESbswyBESbswyBESbswyBESbswy