
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。
今年的4月26日,我们测评了百度新发布的多智能体协作应用心响APP。当时只上线了安卓版,很多网友在线求苹果版链接。
进入2025年以来, AI Agent的发展明显提速。5月6日,OpenAI宣布以30亿美元收购 Windsurf;编程工具Cursor的母公司Anysphere也获得了9亿美元的融资,估值高达90亿美元;号称中国第一个通用AI Agent的Manus在五月也获得了硅谷老牌风险投资公司Benchmark领投的7500万美元的融资;
大上午的,还没到10点呢,量子位负责财报分析的同学就已经在我背后的工位上发出了第N次哀嚎。
国产智能体,这次真封神了。
这个开源项目,Star 攀升趋势巨快。
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。
搅起波澜的 flowith 是个目前只有 10 人的年轻团队。生于 1996 年的创始人 Derek(倪正民)已是团队里最年长的;另外一位创始人 Zion( 吴熠宸)生于 1998 年;最年轻的成员则是 00 后。
这次,引领者又是中国公司!在5月中旬拿到GAIA榜首的这个AI版office,直接结合了Deep Research和通用Agent两大神器的优点,从此office三件套彻底进入第四代。
大家好,我是「沉浸式学AI」,专注于分享AI前沿技术与实战经验。2025年,要搭建一个真正“聪明又自主”的AI代理,离不开一整套“全家桶”式的开源工具——从大脑(推理、记忆),到肢体(浏览器、桌面操控),再到声音(语音交互),全流程打通。