AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
进我的收藏夹吃灰吧:大模型加速超全指南来了

进我的收藏夹吃灰吧:大模型加速超全指南来了

进我的收藏夹吃灰吧:大模型加速超全指南来了

2023 年,大型语言模型(LLM)以其强大的生成、理解、推理等能力而持续受到高度关注。然而,训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。

来自主题: AI技术研报
4857 点击    2024-02-09 14:05
「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

AI大模型并非越大越好?过去一个月,关于大模型变小的研究成为亮点,通过模型合并,采用MoE架构都能实现小模型高性能。

来自主题: AI技术研报
6424 点击    2024-02-09 12:11
GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

谷歌&南加大推出最新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。

来自主题: AI技术研报
5583 点击    2024-02-08 19:44
AI大模型“卖铲人”去年劲赚7.5亿美元,成功模式难复制

AI大模型“卖铲人”去年劲赚7.5亿美元,成功模式难复制

AI大模型“卖铲人”去年劲赚7.5亿美元,成功模式难复制

在AI大模型初创企业普遍还处于入不敷出、疯狂烧钱的阶段时,一家专注于AI数据服务的初创企业已经赚得盆满钵满,成为收入最高的AI创业公司之一。

来自主题: AI资讯
4286 点击    2024-02-07 10:29
三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

现有的语义分割技术在评估指标、损失函数等设计上都存在缺陷,研究人员针对相关缺陷设计了全新的损失函数、评估指标和基准,在多个应用场景下展现了更高的准确性和校准性。

来自主题: AI技术研报
3967 点击    2024-02-06 14:47
比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

今天,穆罕默德・本・扎耶德人工智能大学 VILA Lab 带来了一项关于如何更好地为不同规模的大模型书写提示词(prompt)的研究,让大模型性能在不需要任何额外训练的前提下轻松提升 50% 以上。该工作在 X (Twitter)、Reddit 和 LinkedIn 等平台上都引起了广泛的讨论和关注。

来自主题: AI技术研报
6618 点击    2024-02-05 14:39
一张“哑火”的AI禁令

一张“哑火”的AI禁令

一张“哑火”的AI禁令

前不久,美国商务部出了一份《采取额外措施应对与重大恶意网络行为相关的国家紧急状态》提案,提出:禁止中国公司使用美国的云计算资源来训练AI模型。这相当于AI芯片禁运的“补丁”。美国商务部长吉娜·雷蒙多在采访时提到,美国的云数据中心也大量使用AI芯片,而美国对芯片实施了出口管制,也必须考虑关闭这条路径。

来自主题: AI资讯
7202 点击    2024-02-05 11:13
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报
11539 点击    2024-02-04 13:59