AI资讯新闻榜单内容搜索-GUI

浏览器秒变手机！中科院开源Agent训练场，微信、原神都能跑

中科院自动化所模式识别实验室开源MobileGym，运行在浏览器里的高并发安卓仿真平台，完全自定义，告别模拟器风控与真机成本，一个平台搞定Mobile Agent训练与评测，甚至还能玩原神！

来自主题: AI技术研报

5307 点击 2026-06-02 16:17

GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究，围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作，相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。

来自主题: AI技术研报

7213 点击 2026-06-02 11:23

爆肝两周，我把 Codex 最全实战指南开源了

大家好，我是苍何。今天，我们正式推出 CodexGuide。

来自主题: AI资讯

6889 点击 2026-06-01 10:29

GUI Agent轨迹获取新范式：有限状态机合成无限轨迹数据，平均每条轨迹成本低至0.04美元

训练一个真正会用网页的GUI Agent，最自然的思路通常是：去真实网站上操作，收集轨迹，再拿来训练。

来自主题: AI技术研报

9946 点击 2026-05-29 09:40

开源个 Skill｜彻底解决小红、小绿书配图难题

前段时间开源了 guizang-ppt-skill，之后我自己用它做内容的时候发现一件事。

来自主题: AI技术研报

6223 点击 2026-05-28 11:25

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近，来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live，试图正面解决这个矛盾。论文于 2026 年 4 月 26 日发布在 arXiv。该方法将异步双流扩散（Asynchronous Dual-Stream Diffusion）与人类偏好引导蒸馏（Human-Centric Preference-Guided DMD）结合起来

来自主题: AI技术研报

7789 点击 2026-05-24 10:20

无需构造偏好对：TGO用标量反馈对齐视觉生成模型｜ICML'26

生成模型的偏好对齐，可能正在进入一个新的阶段。

来自主题: AI技术研报

10129 点击 2026-05-18 09:54

告别云端依赖！字节开源新作DreamLite让手机秒变 AI 画板

近日，字节跳动智能创作部门（Intelligent Creation Lab）提出新作 DreamLite，一个主干网络仅有 0.39B 参数的轻量级统一扩散模型，在单一网络内同时支持文生图（Text-to-Image）和图像编辑（Text-guided Image Editing）两个任务，是目前已知首个实现这一能力的端侧模型。

来自主题: AI技术研报

8522 点击 2026-05-13 10:30

压进我十年设计经验的 PPT Skills，迎来大波更新

上次开源 guizang-ppt-skill（github.com/op7418/guizang-ppt-skill）之后，大家都非常喜欢，短短几周 Github Star 来到了 6000 多。

来自主题: AI技术研报

10290 点击 2026-05-11 09:35

GitHub前创始人拿了a16z的1700万美元，GitButler要做Agent时代的Git

GitButler最近发布的CLI工具引起了我很大的兴趣。这不是一个简单的Git包装器，而是从根本上重新思考了命令行工具应该如何设计。Scott提到了一个有趣的观察：大约80%的开发者仍然使用命令行工具来操作Git，即使有各种GUI工具存在。

来自主题: AI资讯

7980 点击 2026-04-20 09:39