画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026
画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美,但一遇到需要逻辑推理的生成任务就频频翻车。
搜索
当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美,但一遇到需要逻辑推理的生成任务就频频翻车。
一通视频电话、三次被拒的追问、一份挤爆Google Docs的请愿书……人们以为这是一场宫斗。Brockman第一次在播客中完整复盘奥特曼被罢免那72小时,讲出的却是故事的另一面:一家相信自己在造AGI的公司,治理结构如何崩塌,又如何重建。
判断 Agent 靠谱与否,核心指标只有一个:是不是真干完活了
大语言模型在地图、城市、交通等空间领域的应用越来越广泛。对于这些场景来说,问题往往不只是 “查一个地点” 或 “调用一次路线 API” 就能解决的,而是需要把用户的自然语言问题组织成一段可执行、可验证的地理分析流程。
4个月烧光全年AI预算,天价Token账单正在屠杀硅谷!今天,高性能Agent模型SkyClaw-v1.0出世,性能直逼Opus 4.6、DeepSeek V4 Pro,百万上下文性价比拉满。
DeepSeek这半年生态铺得很快。现在好几个渠道可以免费或极低成本用上DeepSeek模型,从V4 Flash到V4 Pro都有。整理一下最实用的三条路。
马斯克在X上发帖透露,xAI自家的Grok基础模型V9-Medium(1.5T)已经完成训练。预计再过2到3周,差不多就能正式对外发布啦:马斯克特意提到,V9-Medium的补充训练中加入了大量Cursor数据,后续还会继续添加。
SpaceX 2025 年全年营收是187 亿美元。这是这家火箭公司用了 23 年积累下来的成果——从 2002 年创立,到把猎鹰 9 号变成最可靠的运载火箭,再到星链卫星互联网,23 年换来的年收入数字。然后 Anthropic 来了一份合同:每年 150 亿美元。
一年前,我们还在调侃「鉴别内容是否由 AI 创作,像赛博时代的刻舟求剑」。
我们知道,世界是三维的。