AI资讯新闻榜单内容搜索-模型

Ilya错了？Scaling另有他用，ViT大佬力挺谷歌1000亿数据新发现

谷歌发布了1000亿文本-图像对数据集，是此前类似数据集的10倍，创下新纪录！基于新数据集，发现预训练Scaling Law，虽然对模型性能提升不明显，但对于小语种等其他指标提升明显。让ViT大佬翟晓华直呼新发现让人兴奋！

来自主题: AI技术研报

7190 点击 2025-03-10 09:52

TimeDistill通过知识蒸馏，将复杂模型（如Transformer和CNN）的预测能力迁移到轻量级的MLP模型中，专注于提取多尺度和多周期模式，显著提升MLP的预测精度，同时保持高效计算能力，为时序预测提供了一种高效且精准的解决方案。

来自主题: AI技术研报

8236 点击 2025-03-10 09:35

AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型，这款模型被称为当前市场上最强大、最高效的长文本处理模型。与传统的 Transformer 模型相比，Jamba 模型在处理长上下文时展现出了更高的速度和质量，其推理速度比同类模型快了2.5倍，标志着一种新的技术突破。

来自主题: AI资讯

9509 点击 2025-03-10 00:28

一直以来，AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏，以此来检验 AI 的「智能程度」。

来自主题: AI资讯

7663 点击 2025-03-09 15:07

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

来自主题: AI技术研报

9125 点击 2025-03-09 14:53

半个月前，Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。

来自主题: AI技术研报

7615 点击 2025-03-09 13:46

人工智能正迎来前所未有的变革，其中，大语言模型（LLM）的崛起推动了智能系统从信息处理向自主交互迈进。

来自主题: AI技术研报

7928 点击 2025-03-09 13:39

在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在 50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报

7965 点击 2025-03-09 13:32

GRPO训练又有新的工具链可以用，这次来自于ModelScope魔搭社区。

来自主题: AI技术研报

9829 点击 2025-03-09 13:26

DeepSeek-R1 等模型通过展示思维链（CoT）让用户一窥大模型的「思考过程」，然而，模型展示的思考过程真的代表了模型的内在推理机制吗？在医疗诊断、自动驾驶、法律判决等高风险领域，我们能否真正信任 AI 的决策？

来自主题: AI资讯

10293 点击 2025-03-09 13:17