大模型公司不搞浏览器搞Agent,实测找到原因了
大模型公司不搞浏览器搞Agent,实测找到原因了闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 如果Agent能操作命令行,就有了与整个计算机系统交互的能力。 也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。 这种产品终于有雏形了
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 如果Agent能操作命令行,就有了与整个计算机系统交互的能力。 也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。 这种产品终于有雏形了
ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。
今天,谷歌DeepMind重磅发起「AI赋能数学计划」,集结了全球五大顶尖机构。他们将用上谷歌最强数学AI,去探索发现新的疆域。这其中,有夺下IMO金牌的Gemini Deep Think,有算法发现AI智能体AlphaEvolve,还有形式化证明自动补全AlphaProof。
在 AI 与自动化方面,Block 在 2025 年初推出了一个名为 “Goose” 的开源 AI Agent 框架。Goose 的设计初衷是:将大型语言模型输出与实际系统行为(如读取/写入文件、运行测试、自动化工作流)连接起来,从而不仅让模型能“聊”而且能“干活“。
现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。
华人大三学生,1100 万美元种子轮,硅谷学生创业目前融资最高产品。
厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。
当大语言模型突破了 “理解与生成” 的瓶颈,Agent 迅速成为 AI 落地的主流形态。从智能客服到自动化办公,几乎所有场景都需要 Agent 来承接 LLM 能力、执行具体任务。
来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLM。DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。
这两天,Physical Intelligence(PI)联合创始人Chelsea Finn在𝕏上,对斯坦福课题组一项最新世界模型工作kuakua连续点赞。