AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节

大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节

大模型也冲“奥斯卡”:港科大腾讯等提出AI角色扮演全景综述,四方面剖析关键细节

AI界也有了自己的“奥斯卡”,哪家大模型角色扮演更入戏? 来自香港科技大学、腾讯、新加坡管理大学的团队提出新综述—— 不仅系统性地回顾了角色扮演语言模型的发展历程,还对每个阶段的关键进展进行了深入剖析,展示了这些进展如何推动模型逐步实现更复杂、更逼真的角色扮演。

来自主题: AI技术研报
6779 点击    2024-11-03 14:39
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

Transformer自问世后就大放异彩,但有个小毛病一直没解决: 总爱把注意力放在不相关的内容上,也就是信噪比低。 现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。

来自主题: AI技术研报
4289 点击    2024-11-03 14:32
大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

大模型压缩KV缓存新突破,中科大提出自适应预算分配,工业界已落地vLLM框架

改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。

来自主题: AI技术研报
5334 点击    2024-11-02 19:10
多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图像场景也能用DPO方法来对齐了! 由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。 这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报
5726 点击    2024-11-01 20:53
清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

探索更高效的模型架构, MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报
4830 点击    2024-11-01 17:11
打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报
4701 点击    2024-11-01 14:54
推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型

推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型

推理成本直降99%!百川智能「1+3」矩阵揭秘,两张4090玩转旗舰新模型

大模型热,企业落地难?就在刚刚,百川智能推出「1+3」产品矩阵,一站式解决大模型商业化难题。「系列优质通用数据+领域增强训练工具链」,仅需10分钟就能让企业自主成为模型定制增强专家,实现行业最佳的多场景可用率。

来自主题: AI资讯
5617 点击    2024-11-01 14:40