AI资讯新闻榜单内容搜索-智能体

大模型 “准确率悬崖” 被证实，科学家发现模型单次处理容量上限，多智能体成破局关键

近日，来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”，借此不仅揭示了单次生成范式的根本性脆弱点，也揭示了“准确率悬崖”这一现象。

来自主题: AI技术研报

8705 点击 2025-10-20 14:02

深度｜a16z合伙人：Agent 接管流量后，支撑大厂数万亿美元市值的广告商业模式正在崩坏，Costco的会员信任逻辑才是未来

搜索在变，交易在变，归因在变——AI 正在重写电商的底层逻辑。从“人找货”到“智能体替你理解、推荐、比价、下单”，消费者与平台之间的关系被彻底改写。过去二十年，互联网商业的三大支柱是：广告、订阅与电商。

来自主题: AI资讯

10281 点击 2025-10-20 12:26

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8236 点击 2025-10-20 10:13

Karpathy泼冷水：AGI要等10年！根本没有「智能体元年」

在近日的一次访谈中，Andrej Karpathy深入探讨了AGI、智能体与AI未来十年的走向。他认为当前的「智能体」仍处早期阶段，强化学习虽不完美，却是目前的最优解。他预测未来10年的AI架构仍然可能是类似Transformer的巨大神经网络。

来自主题: AI资讯

8563 点击 2025-10-19 12:48

Agent长程搜索的两大痛点被打通了！中科院 DeepMiner用32k跑近百轮，开源领先逼近闭源

中科院的这篇工作解决了“深度搜索智能体”（deep search agents），两个实打实的工程痛点，一个是问题本身不够难导致模型不必真正思考，另一个是上下文被工具长文本迅速挤爆导致过程提前夭折，研究者直面挑战，从数据和系统两端同时重塑训练与推理流程，让复杂推理既有用又能跑得起来。

来自主题: AI资讯

8617 点击 2025-10-19 12:21

AI智能编程新框架，节省一半时间就能“聪明”地写代码丨上海AI Lab&华师大

在代码层面，大语言模型已经能够写出正确而优雅的程序。但在机器学习工程场景中，它离真正“打赢比赛”仍有不小差距。

来自主题: AI技术研报

9164 点击 2025-10-19 12:10

专访 AI 游戏创业者张昊阳：如何用《麦琪的花园》定义下一代沙盒范式

AutoGame 创始人张昊阳离开腾讯后，带领团队打造的 AI 游戏《麦琪的花园》在 Steam 零推广登上新品榜 Top50，一个月积累超 5000 愿望单。通过自研 GameGPT 多智能体框架和大模型架构，他们让普通玩家能“一句话生成 NPC、任务与道具”，将 UGC 创作门槛降至短视频级别，把传统“金字塔型”内容生态变为“十字型”社交表达平台。

来自主题: AI资讯

11381 点击 2025-10-19 10:46