AI资讯新闻榜单内容搜索-GE

00后下场整顿Agent：啥都不学就能用好AI，这才是正确打开方式

AI圈有个怪现象：模型越来越强，确实是好事；但随着AI用法越发多样，用起来的门槛却越来越高。

来自主题: AI资讯

8399 点击 2026-05-07 15:31

0%完成率！Claude、GPT、Gemini 全灭，SWE-Bench作者新作把AI圈干沉默了

SWE-Bench 的创建者，刚刚又放出了一个地狱级新 benchmark。

来自主题: AI技术研报

9765 点击 2026-05-07 15:31

打破碎片化瓶颈！浙大&哈佛开源UniGeo，高保真相机可控编辑

UniGeo通过视频模型的连续视角先验与统一几何引导，实现稳定、高质量的相机可控图像生成，全面超越现有方法，在不同幅度的相机运动中提升跨视角一致性与结构稳定性。

来自主题: AI技术研报

5920 点击 2026-05-07 15:04

Anthropic让AI先读员工手册再上岗：失控率从54%降到7%

Anthropic最新研究让AI先读懂规范背后的意义，再接受行为示范，在特定实验中将Agent失控率从54%压到7%。

来自主题: AI资讯

5355 点击 2026-05-07 15:03

一年磨一剑，今年最炸机器人Demo来了！1亿美元种子轮团队出手，单个模型解锁单手打蛋解魔方弹钢琴

看过的人已经傻眼了，因为这可能是今年为止最炸的机器人demo。

来自主题: AI技术研报

8367 点击 2026-05-07 15:03

TACO: 让 CLI Agent 在自主迭代中学会丢掉无用上下文

随着代码智能从 code foundation models 走向 autonomous coding agents，CLI/terminal 正在成为智能体进入真实软件工程工作流的重要入口。

来自主题: AI技术研报

5139 点击 2026-05-07 15:03

嘘，Claude正在「做梦」！睡一觉疯狂进化，一夜暴涨6倍战力

Claude开发者大会来了！这一次，Anthropic让Agent学会了「做梦」，两次干活的间隙自动反刍记忆、自我进化。配合多Agent兵团作战和自动评分官，AI任务完成率直接暴涨6倍。

来自主题: AI资讯

9691 点击 2026-05-07 15:01

CopilotKit完成2700万美元融资，让你不用重写一行代码，应用就能拥有AI agent

最近，一家叫 CopilotKit 的公司宣布完成 2700 万美元的 A 轮融资，由 Glilot Capital、NfX 和 SignalFire 联合领投。这不只是一条融资新闻，它背后指向的是一个更大的问题：当 AI agent 已经可以真正嵌入应用、理解用户意图、生成动态界面、自主执行任务，我们今天所熟悉的软件交互方式，还能撑多久？

来自主题: AI资讯

7909 点击 2026-05-07 12:03

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

SWE-Bench上能拿72%的模型，换张考卷直接归零！Meta联合斯坦福、哈佛放出ProgramBench，200个项目从零手写，9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网，就有模型在36%的任务里跑去GitHub扒源码。

来自主题: AI技术研报

6000 点击 2026-05-07 12:03

号称1200万token上下文的模型来了，数据亮眼但疑点重重

当地时间 5 月 5 日，迈阿密一家名为 Subquadratic 的公司走出隐身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 称作“a major breakthrough in LLM intelligence”（LLM 智能领域的重大突破），

来自主题: AI资讯

6840 点击 2026-05-07 12:02