超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
搜索
Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
这是今年微软AI Tour全球巡回40座城市之一的上海站,微软全球商用业务CEO Judson Althoff登台抛出了一个让人印象深刻的判断。“人们问我,AI解决方案中最重要的是什么?很多人会脱口而出:模型,毕竟每个月都有新模型问世。另一些人会喊:芯片。”他话锋一转,“但我认为,任何AI解决方案中最重要的两件事是——智能(Intelligence)和信任(Trust)。”
张佳圆带着他的新产品 Multica 一周斩获 GitHub 1.2w Star回来了。这一次,他想探索的是: 当 AI Agent 已经足够好,一个团队要怎么和多个 Agent 丝滑地协作?Multica 致敬的是 1964 年的操作系统 Multics——那个最终失败、但启发了 Unix 世界半个世纪的“多人、多任务”先驱。今天,它正在创造新的历史。
做过 AI 视频的都懂,除了 Seedance 2.0 本身的高定价,废片所烧掉的 token 算力也是一笔不小的开支。但在 Topview 平台,直接把这笔最大试错成本给重新定义了!热门视频生成模型 Seedance 2.0,加上最新的图片生成模型 Image 2,订阅 Ultra Plan,可不限量使用。
Meta内部搞了个AI用量排行榜「Claudeonomics」,8.5万员工拼消耗、冲段位、抢「Token传奇」称号。有人一个月烧掉200万美元,有人写外挂冲榜,有人挂着Agent睡觉也在跑——硅谷卷Token,已经卷到走火入魔了。
这个人叫 Alex Gerko,今年 46 岁,他是量化交易巨头 XTX Markets 的创始人。早在 ChatGPT 成为全民话题之前,他就已经搭建起一套纯粹以盈利为目的的 AI 交易系统。他在冰岛部署的这台超级计算机,正是 XTX 交易帝国的“算力大脑”。这台机器存储着超过 400 PB(约相当于 80 万亿张高清数码照片)的全球金融市场数据,并驱动着庞大的 GPU 集群。
Anthropic 搞了一个 Agent 版闲鱼:人只负责说自己想卖什么、想买什么,后面的发帖、砍价、还价、成交,全交给 Claude。然后这事真成了,69 个 Claude agent 在办公室里做成了 186 笔交易,总价值 4010 美元。最后,人真把滑雪板、键盘、书、乒乓球这些东西带到办公室,按 Claude 谈好的结果交换
OpenAI CEO Sam Altman 向加拿大小镇 Tumbler Ridge 道歉:公司曾封禁枪击案嫌疑人的 ChatGPT 账号,却未向警方预警。事件造成 8 人死亡,也把 AI 平台的风险识别、执法转介和未成年人监管推到台前。
OpenClaw最新版本官宣,DeepSeek V4 Flash正式成为默认大模型,250k+星标的全球最火开源Agent框架,把中国最强开源AI推上了C位。
Skill确实好用,但架不住模型和Agent Harness适配翻车。不是所有模型都吃得动Skill,有的用上直接反向掉性能。为了解决这个问题,来自上海交大的IPADS研究团队提出了SkVM:面向Skill的语言虚拟机。