
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。
本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。
自从 Transformer 问世,NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力,成为现代 AI 系统的基础。而今,AI 正不断向前,具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。
近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。
刚刚,一支华人主导的AI团队打破硅谷融资纪录。
AI浏览器正成为AI时代竞争的关键入口,其角色从信息窗口转变为融合搜索、决策与执行的智能伙伴。浏览器形态成为AI助手(如豆包)、AI搜索(如夸克)、AI知识库(如ima)及Agent工具(如扣子空间)的共同选择。
考志愿填报结束啦!敲锣打鼓ing我长舒一口气。当然不是因为我要上大学,而是这段时间兼职了一把“志愿顾问”。过去十天里,我帮亲戚、朋友、朋友的朋友、朋友的朋友的朋友......生成了快四五十份报告,给夸克这几周生成的1000万份高考志愿报告贡献了0.0005%
你有没有想过,销售这件事情可能彻底变了?传统的销售方式正在从单纯依赖人工拨打电话、发送邮件,转向将AI agent视为驱动整个销售流程的核心力量。这不是什么小调整,而是一场彻底的范式转变。
过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。
这两天读到开源的代码 Agent,Cline 团队的一篇博客,《Why Cline Doesn't Index Your Codebase (And Why That's a Good Thing) 》,做了一些整理和探索,来分享一下这篇博客内容。
最近,硅谷的一家新成立的名叫「Genesis AI」的公司吸引了我们的注意,他们在最近的种子轮融资中拿到了 1.05 亿美元。据外媒 TechCrunch 报道,这轮融资由美国顶级风投机构 Khosla Ventures、Eclipse 联合领投。前者是 OpenAI 的最早的机构投资者,后者是特斯拉产业背景团队机器人赛道的专业机构。