AI资讯新闻榜单内容搜索-GUI

独家｜让AI接手真实操作，字节系团队、GUI Agent平台Core-Mate获数千万元融资

独家获悉，GUI Agent（图形用户界面智能体）执行平台「Core-Mate」近日宣布完成数千万人民币融资。核心团队主要来自字节跳动，成员在用户产品、业务增长和商业化落地中积累了系统经验。在团队看来，下一代 AI 产品的关键不只在模型能力，也在入口、场景和用户行为。

来自主题: AI资讯

10850 点击 2026-06-11 11:46

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

如何让 Agent 把浏览器用得更 6，一直是一个还没有完美解答的课题。周末躺床上刷 GitHub trending，看到一个项目名字叫 BrowserAct。简介写着：AI Agent 操作真实浏览器。

来自主题: AI资讯

10559 点击 2026-06-11 00:44

浏览器秒变手机！中科院开源Agent训练场，微信、原神都能跑

中科院自动化所模式识别实验室开源MobileGym，运行在浏览器里的高并发安卓仿真平台，完全自定义，告别模拟器风控与真机成本，一个平台搞定Mobile Agent训练与评测，甚至还能玩原神！

来自主题: AI技术研报

6016 点击 2026-06-02 16:17

GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究，围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作，相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。

来自主题: AI技术研报

7989 点击 2026-06-02 11:23

爆肝两周，我把 Codex 最全实战指南开源了

大家好，我是苍何。今天，我们正式推出 CodexGuide。

来自主题: AI资讯

7831 点击 2026-06-01 10:29

GUI Agent轨迹获取新范式：有限状态机合成无限轨迹数据，平均每条轨迹成本低至0.04美元

训练一个真正会用网页的GUI Agent，最自然的思路通常是：去真实网站上操作，收集轨迹，再拿来训练。

来自主题: AI技术研报

10689 点击 2026-05-29 09:40

开源个 Skill｜彻底解决小红、小绿书配图难题

前段时间开源了 guizang-ppt-skill，之后我自己用它做内容的时候发现一件事。

来自主题: AI技术研报

6891 点击 2026-05-28 11:25

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近，来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live，试图正面解决这个矛盾。论文于 2026 年 4 月 26 日发布在 arXiv。该方法将异步双流扩散（Asynchronous Dual-Stream Diffusion）与人类偏好引导蒸馏（Human-Centric Preference-Guided DMD）结合起来

来自主题: AI技术研报

8569 点击 2026-05-24 10:20

无需构造偏好对：TGO用标量反馈对齐视觉生成模型｜ICML'26

生成模型的偏好对齐，可能正在进入一个新的阶段。

来自主题: AI技术研报

10596 点击 2026-05-18 09:54

告别云端依赖！字节开源新作DreamLite让手机秒变 AI 画板

近日，字节跳动智能创作部门（Intelligent Creation Lab）提出新作 DreamLite，一个主干网络仅有 0.39B 参数的轻量级统一扩散模型，在单一网络内同时支持文生图（Text-to-Image）和图像编辑（Text-guided Image Editing）两个任务，是目前已知首个实现这一能力的端侧模型。

来自主题: AI技术研报

9210 点击 2026-05-13 10:30