AI资讯新闻榜单内容搜索-LLM

多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

OctoTools通过标准化工具卡和规划器，帮助LLMs高效完成复杂任务，无需额外训练。在16个任务中表现优异，比其他方法平均准确率高出9.3%，尤其在多步推理和工具使用方面优势明显。

来自主题: AI技术研报

6103 点击 2025-03-12 14:47

Manus 爆火出圈，引发 Agent 热潮！从自行理解任务、拆解步骤到选择工具并执行，这需要 Agent 具备强大的复杂工作流编排和任务处理能力，而工作流也是智能体的核心技术之一。

来自主题: AI技术研报

8641 点击 2025-03-12 14:18

在32道高等数学测试中，LLM表现出色，平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错！向量计算、几何分析、积分计算、优化问题等，高等AI模型轻松拿捏。研究发现，再提示（Re-Prompting）对提升准确率至关重要。

来自主题: AI技术研报

8389 点击 2025-03-11 18:38

o3-mini成功挑战图论中专家级证明，还得到了陶哲轩盛赞。经过实测后，他总结称LLM并非是数学研究万能解法，其价值取决于问题得性质和调教AI的方式。

来自主题: AI技术研报

6237 点击 2025-03-11 17:55

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！

来自主题: AI技术研报

7156 点击 2025-03-11 17:34

为什么必须像评估劳动力一样评估LLM代理，而不仅仅是评估软件。

来自主题: AI技术研报

5544 点击 2025-03-11 16:24

本文介绍了一项突破性的AI推理技术创新——思维草图(SoT)框架。该框架从人类认知过程中获取灵感，通过一个200M大小的路由模型将LLM引导到概念链、分块符号化和专家词汇三种推理范式，巧妙地解决了大语言模型推理过程中的效率瓶颈。

来自主题: AI技术研报

6313 点击 2025-03-11 16:21

ChatGPT 平地一声雷，打乱了很多人、很多行业的轨迹和节奏。这两年模型发布的数量更是数不胜数，其中文本大模型就占据了 AIGC 赛道的半壁江山。关注我的家人们永远都是抢占 AI 高地的冲锋者。

来自主题: AI技术研报

7309 点击 2025-03-11 11:36

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。

来自主题: AI技术研报

4846 点击 2025-03-11 09:32

近年来，大语言模型（LLM）的快速发展正推动人工智能迈向新的高度。像 DeepSeek-R1 这样的模型因其强大的理解和生成能力，已经在对话生成、代码编写、知识问答等任务中展现出了卓越的表现。

来自主题: AI技术研报

7207 点击 2025-03-10 14:15