EvaLearn:AI下半场的全新评测范式!
EvaLearn:AI下半场的全新评测范式!在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
搜索
在三个月前,OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出,AI 研究正在从 “能不能做” 转向 “学得是否有效”,传统的基准测试已经难以衡量 AI 的实际效用,他指出现有的评估方式中,模型被要求独立完成每个任务,然后取平均得分。这种方式忽略了任务之间的连贯性,无法评估模型长期适应能力和更类人的动态学习能力。
微软对浏览器下手了! 刚刚,Edge浏览器推出“Copilot模式”,直接把传统浏览器改造成了一个AI智能体。
房产交易AI第一股登陆资本市场,房产服务新机会悄悄爆发。
这一波华人 AI 项目里,估值超过 100 亿美金的项目并不多,除了 Scale AI,其竞争对手 Surge 也差不多超 100 亿美金估值了,毕竟其在没有怎么融资的情况下 ARR 还超过了 Scale AI。
两个月前,我在文章里第一次提到 Vibe Coding 这个新名词的时候,还在犹豫要不要加几句解释,怕大多数人看不明白。没想到这么快,至少在 AI 圈里,Vibe Coding 已经成了人人都懂的新概念。
爱刷短视频的朋友或许能够察觉到,今年的短视频平台和往年相比,AI内容正以势不可挡的力量席卷整个平台。
一句话概括:与其训练一个越来越大的“六边形战士”AI,不如组建一个各有所长的“复仇者联盟”,这篇论文就是那本“联盟组建手册”。
在社交平台上,「AI 帮我选基金,结果赚了 8%」、「AI 自动炒股,秒杀巴菲特?」之类的帖子不时刷屏,炒股机器人、对话式理财助手有关的 Agent 也不断涌现。
搞Agent开发也有开源一条龙了!这不,扣子的两款子产品已于近期正式开源:扣子开发平台(Coze Studio)和扣子罗盘(Coze Loop)。才过了一个周末,两个项目就拿下了9K Star~
从 OpenAI、字节跳动,到一众创业团队,今年几乎所有 AI 公司都在推进自己的 Agent 战略:有人做工具执行器,有人做工作流代理,有人主打插件调度,有人想做全能副驾……