AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图像场景也能用DPO方法来对齐了! 由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。 这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报
3903 点击    2024-11-01 20:53
清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

清华团队革新MoE架构!像搭积木一样构建大模型,提出新型类脑稀疏模块化架构

探索更高效的模型架构, MoE是最具代表性的方向之一。 MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。

来自主题: AI技术研报
3572 点击    2024-11-01 17:11
打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。

来自主题: AI技术研报
3283 点击    2024-11-01 14:54
利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

利用大模型构建个性化虚拟学生代理:SOE框架的多维度评估研究

来自华东师范大学、南洋理工和中科院等高校的联合研究团队提出了一种新颖的人工智能教育框架“场景-对象-评估”(SOE),旨在利用大型语言模型(LLMs)构建能够模拟人类学生行为和个体差异的虚拟学生代理(LVSA)。

来自主题: AI技术研报
6825 点击    2024-11-01 12:06
大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

近年来,大语言模型(Large Language Models, LLMs)的研究取得了重大进展,并对各个领域产生了深远影响。然而,LLMs的卓越性能来源于海量数据的大规模训练,这导致LLMs的训练成本明显高于传统模型。

来自主题: AI技术研报
3600 点击    2024-11-01 10:15
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE

自去年底以来,时序预测领域正在经历重大转型,从传统的「单一数据集训练单一模型」的模式逐步转向「通用预测基础模型」。

来自主题: AI技术研报
3809 点击    2024-10-31 15:11
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。

来自主题: AI技术研报
4505 点击    2024-10-31 15:09
深度|NVIDIA旗舰GPU对比:H100、A6000、L40S、A100在训练与推理中的应用

深度|NVIDIA旗舰GPU对比:H100、A6000、L40S、A100在训练与推理中的应用

深度|NVIDIA旗舰GPU对比:H100、A6000、L40S、A100在训练与推理中的应用

通过深入分析这些 GPU 的性能指标,我们将探讨它们在模型训练和推理任务中的适用场景,以帮助用户在选择适合的 GPU 时做出明智的决策。同时,我们还会给出一些实际有哪些知名的公司或项目在使用这几款 GPU。

来自主题: AI资讯
8530 点击    2024-10-31 11:55
探索LLM推理全阶段的JSON格式输出限制方法

探索LLM推理全阶段的JSON格式输出限制方法

探索LLM推理全阶段的JSON格式输出限制方法

文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。

来自主题: AI技术研报
10116 点击    2024-10-31 10:14