AI资讯新闻榜单内容搜索-训练

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

Transformer模型自2017年问世以来，已成为AI领域的核心技术，尤其在自然语言处理中占据主导地位。然而，关于其核心机制“注意力”的起源，学界存在争议，一些学者如Jürgen Schmidhuber主张自己更早提出了相关概念。

来自主题: AI技术研报

8195 点击 2024-12-13 14:24

最近，Apollo Research团队发布了一项令人深思的研究。这项研究揭示了一个惊人的发现：当前主流的前沿AI模型已经具备了基本的"策划"（Scheming）能力。

来自主题: AI技术研报

6949 点击 2024-12-13 13:42

人工评估是指让人类评价模型输出回答的好坏。本文讨论的都是后验评估，即模型已经完成训练，给定一个任务让人类进行评估。

来自主题: AI技术研报

4635 点击 2024-12-13 13:32

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

来自主题: AI技术研报

6593 点击 2024-12-12 21:57

传闻反转了，Claude 3.5 Opus没有训练失败。只是Anthropic训练好了，暗中压住不公开。 semianalysis分析师爆料，Claude 3.5超大杯被藏起来，只用于内部数据合成以及强化学习奖励建模。 Claude 3.5 Sonnet就是如此训练而来。

来自主题: AI资讯

8083 点击 2024-12-12 15:03

Hyper-YOLO是一种新型目标检测方法，通过超图计算增强了特征之间的高阶关联，提升了检测性能，尤其在识别复杂场景下的中小目标时表现更出色。

来自主题: AI技术研报

8483 点击 2024-12-12 14:35

一般而言，LLM 被限制在语言空间（language space）内进行推理，并通过思维链（CoT）来表达推理过程，从而解决复杂的推理问题。

来自主题: AI技术研报

8565 点击 2024-12-12 10:19

在这篇论文中，我们专注于人类互动中的信任行为，这种行为通过依赖他人将自身利益置于风险之中，是人类互动中最关键的行为之一，在日常沟通到社会系统中都扮演着重要角色。

来自主题: AI技术研报

8925 点击 2024-12-12 10:11

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。

来自主题: AI技术研报

9075 点击 2024-12-12 10:06

近日，IBM宣布了一项重大的光学技术突破，该技术可以以光速训练AI模型，同时节省大量能源。

来自主题: AI资讯

8498 点击 2024-12-11 14:55