AI资讯新闻榜单内容搜索-训练大模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 训练大模型

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

训练大模型时，有时让它“记性差一点”，反而更聪明！大语言模型如果不加约束，很容易把训练数据原封不动地复刻出来。为解决这个问题，来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失（Goldfish Loss）。

来自主题: AI资讯

5781 点击 2025-09-04 11:33

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

训练大模型时，有时让它“记性差一点”，反而更聪明！

来自主题: AI技术研报

6076 点击 2025-09-04 11:09

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道，训练大模型本就极具挑战，而随着模型规模的扩大与应用领域的拓展，难度也在不断增加，所需的数据更是海量。大型语言模型（LLM）主要依赖大量文本数据，视觉语言模型（VLM）则需要同时包含文本与图像的数据，而在机器人领域，视觉 - 语言 - 行动模型（VLA）则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯

6976 点击 2025-07-22 14:57

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

近期arxiv最热门论文，Qwen&清华LeapLab团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。

来自主题: AI技术研报

6250 点击 2025-06-06 11:08

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

刷新世界记录！40B模型+20万亿token，散户组团挑战算力霸权

全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token，创下了互联网上最大规模的预训练新纪录！去中心化AI的反攻，正式开始。OpenAI等巨头的算力霸权，这次真要凉了？

来自主题: AI资讯

5117 点击 2025-05-26 14:42

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

清华&通院推出"绝对零"训练法，零外部数据大模型自我博弈解锁推理能力

不用引入外部数据，通过自我博弈（Self-play）就能让预训练大模型学会推理？

来自主题: AI技术研报

6172 点击 2025-05-12 15:18

GPU 维修那些事： H100 哪里容易坏？以 Llama3 训练大模型为例

GPU 维修那些事： H100 哪里容易坏？以 Llama3 训练大模型为例

GPU 维修那些事： H100 哪里容易坏？以 Llama3 训练大模型为例

根据去年2024年7月28日Meta公司在训练大模型（Llama 3）时使用“16384 个英伟达H100 GPU 集群”的经验，该显卡在高负载、大规模集群运行环境下容易出现以下故障点：

来自主题: AI技术研报

9728 点击 2025-04-07 09:17

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应：关于我们抠FLOPS的一些点滴

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应：关于我们抠FLOPS的一些点滴

蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应：关于我们抠FLOPS的一些点滴

蚂蚁开源大模型的低成本训练细节，疑似曝光！

来自主题: AI资讯

3800 点击 2025-03-28 10:14

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

用代码训练大模型思考，其他方面的推理能力也能提升。

来自主题: AI技术研报

4944 点击 2025-02-18 10:40

诉讼频发，AI训练“盗用”版权内容，建立共享数据库迫在眉睫？

诉讼频发，AI训练“盗用”版权内容，建立共享数据库迫在眉睫？

诉讼频发，AI训练“盗用”版权内容，建立共享数据库迫在眉睫？

AI具备的能力，本质上来自算法和训练大模型所用的数据，数据的数量和质量会对大模型起到决定性作用。此前OpenAI工作人员表示，因没有足够多的高质量数据，Orion项目（即GPT-5）进展缓慢。不得已之下，OpenAI招募了许多数学家、物理学家、程序员原创数据，用于训练大模型。

来自主题: AI资讯

4285 点击 2025-01-21 07:33

上一页当前第1页,共3页下一页