AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
由Anysphere 的 Cursor 和 Anthropic 的 Claude Code 等 AI 编程工具共同创造的收入已突破 31 亿美元。据直接了解 Cognition 财务状况的人士透露,这其中包括 Cognition 的 Devin 编程代理产生的近 4 亿美元年化收入——这一数字此前未被报道过。
AI Everywhere。 我们正进入一个万物皆 AI 的世界。 从《钢铁侠》中无所不能的助理「贾维斯」(him),到电影《她》里善解人意的情感伴侣「萨曼莎」(her),这些一度只存在于科幻中的场景
时隔两年后,AI PC的概念已经不再是一个小众的词汇。
从浪漫订婚到失落痛哭,AI爱情正在撕开新的社会裂缝。在哈佛MIT,一项研究揭示:AI伴侣既能抚慰孤独,也可能让人陷入依赖。当《Her》变成现实,我们或许才刚刚面对真正的挑战。
天气预报的时代真的变了。谷歌DeepMind最新发布的WeatherNext 2,让查天气这件事升级成了小时级、实时化。它的运行速度比上一代快8倍,分辨率提高到小时级,也就是说不再是传统预报里的“明天下午有雨”,而是可以细到“明天2–3点有小雨,3–4点雨势增强,5–6点逐渐停止”的节奏。
淘金者可能一无所获,但只要有人去淘金,铲子就总有销路。
在AI技术飞速发展的当下,「驻场交付工程师」(FDE)正成为连接实验室与市场的关键角色。他们兼具算法能力与业务洞察,深入客户现场,将抽象模型转化为可落地的解决方案。OpenAI、Anthropic、Cohere等公司纷纷扩充FDE团队,这个趋势也开始在国内蔓延,以打通AI落地的「最后一公里」。
11 月 2 日,英伟达首次把 H100 GPU 送入了太空,参阅报道《英伟达发射了首个太空 AI 服务器,H100 已上天》。而刚刚谷歌宣布,他们也要让 TPU 上天。
美国当地时间 10 月 29 日,据外媒消息,AI 编码工具 Cursor 背后的公司 Anysphere 的联合创始人 Arvid Lunnemark 已离职。Cursor 最初由四位联合创始人创立,除了 Lunnemark 之外,还有 Aman Sanger、Michael Truell 和 Sualeh Asif。