AI资讯新闻榜单内容搜索-训练数据

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练数据
ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满

在 Scaling Law 背景下,预训练的数据选择变得越来越重要。然而现有的方法依赖于有限的启发式和人类的直觉,缺乏全面和明确的指导方针。在此背景下,该研究提出了一个数据管理器 DataMan,其可以从 14 个质量评估维度对 15 个常见应用领域的预训练数据进行全面质量评分和领域识别。

来自主题: AI技术研报
8269 点击    2025-02-28 14:04
曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

嚯,万众期待的GPT-4.5,本周就要空降发布?!部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。

来自主题: AI资讯
9092 点击    2025-02-27 09:28
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!

来自主题: AI技术研报
5853 点击    2025-02-18 20:07
北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报
6920 点击    2025-02-10 16:54
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

来自主题: AI技术研报
6138 点击    2025-02-05 16:54
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

非营利研究机构AI2近日推出的完全开放模型OLMo 2,在同等大小模型中取得了最优性能,且该模型不止开放权重,还十分大方地公开了训练数据和方法。

来自主题: AI技术研报
5911 点击    2025-01-25 09:38
1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

1/10训练数据激发高级推理能力!近日,来自清华的研究者提出了PRIME,通过隐式奖励来进行过程强化,提高了语言模型的推理能力,超越了SFT以及蒸馏等方法。

来自主题: AI技术研报
2762 点击    2025-01-08 11:12
“训练数据抄袭”:DeepSeek 动了谁的奶酪?

“训练数据抄袭”:DeepSeek 动了谁的奶酪?

“训练数据抄袭”:DeepSeek 动了谁的奶酪?

在上一篇的评论区里,大家发生了争吵: 《DeepSeek-V3 是怎么训练的|深度拆解》 有的读者指出:DeepSeek V3 有“训练数据抄袭”的问题。

来自主题: AI资讯
6090 点击    2024-12-31 12:49
Meta建了一所学校,教AI“情商”

Meta建了一所学校,教AI“情商”

Meta建了一所学校,教AI“情商”

AI缺乏情商,需设计训练数据提高社交认知能力。 当你觉得AI不够好用时,很可能是因为它还不够“懂”你。

来自主题: AI资讯
6324 点击    2024-12-25 09:05
举报人「自杀」,OpenAI表示震惊!NYU教授发长文悼念:警钟仍在回响

举报人「自杀」,OpenAI表示震惊!NYU教授发长文悼念:警钟仍在回响

举报人「自杀」,OpenAI表示震惊!NYU教授发长文悼念:警钟仍在回响

曾任OpenAI核心研发者的Suchir Balaji,于10月发文直指ChatGPT等生成式AI违背「合理使用」原则。然而,上月底26岁的他被发现离世,疑为自杀。马库斯发文悼念,称Suchir是个勇敢的年轻人,他对AI训练数据的版权问题提出的担忧「切中要害」。

来自主题: AI资讯
3938 点击    2024-12-18 10:47