DeepSeek与清华大学合作 盼降低AI模型训练成本

DeepSeek
(北京7日讯)据彭博报道,DeepSeek正与清华大学合作,致力于减少AI模型所需的训练量,以降低营运成本。
同时,DeepSeek将新模型命名为DeepSeek-GRM,并计划以开源方式发布。
报道指出,DeepSeek与清华的研究人员合作发表论文,详述了一种新颖的强化学习方法,旨在提高模型效率。据研究人员介绍,这种新方法通过奖励更准确和易于理解的回应,帮助AI模型更好地符合人类偏好。
这种强化学习在特定应用领域,已被证明能加速AI任务,但将其扩展到更广泛的应用仍然具有挑战性,DeepSeek团队正尝试通过称为“self-principled critique tuning”的方法解决该问题。
根据论文,该方法在各项基准测试中都优于现有方法和模型,并且能以更少的计算资源实现更好的性能。
另一方面,其他AI开发商包括阿里巴巴(9988)和OpenAI亦在推进新领域,以改善AI模型在实时执行任务时的推理和自我完善能力。
黄仁勋2日中国行程 中媒:未与DeepSeek梁文锋会面

龚正(右)周五在上海会见黄仁勋。(取自“上海发布”微信公众号)
(北京20日讯)半导体公司英伟达(NVIDIA)总执行长黄仁勋结束了为期2天的中国行程。据中媒引述消息报道,黄仁勋此行在北京与上海同中国官员会晤,但并未与人工智能(AI)新创公司深度求索(DeepSeek)创办人梁文锋见面。
黄仁勋此次访中,正值美国政府加强限制英伟达AI芯片对中出口之际,引发外界关注,包括深度求索在内的中国AI企业,未来能否取得符合规定的芯片备受瞩目。
中国《第一财经》19日引述知情人士透露,黄仁勋行程中并未如外界传闻与梁文锋会面。不过,从与官员交流的情况来看,尽管面对复杂局势,英伟达仍展现持续支持中国AI产业、坚守服务中国市场的态度。
据悉,这次中国国务院副总理何立峰和上海市市长龚正,分别在北京与上海接待了黄仁勋。
英国《金融时报》早前援引消息人士指出,黄仁勋在北京亦与英伟达在地客户,包括梁文锋,就开发符合中美规范的新一代芯片进行交流,但此一说法尚未获得官方证实。
美国因应国家安全,自2022年禁止英伟达最先进AI芯片输出至中国,防止技术流用至军事领域。英伟达随后推出降规版“H20”芯片,目前为唯一符合规范可销售中国的产品。
但近期美中贸易紧张升温,美国进一步要求,未来英伟达出口H20芯片需申请许可证,且无设定期限。市场预测,此举恐将导致英伟达本季营收损失高达55亿美元(约243亿令吉)。