AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。
“后来,人工智能(AI)变得无处不在。如今我们‘勉强’接受NeuroAI这个称呼,只为大众能理解其含义。”
就在刚刚,DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型:DeepSeek-Math-V2。顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO,显著提升了数学推理能力。
最近 AI 音乐圈的大新闻是一个接一个,但今天这个,简直就是核弹级的!那个让无数人又爱又恨的Suno,和音乐巨头华纳音乐集团(WMG),居然官宣合作了!你没听错,是合作!而且是全球首个大型“正版授权 AI 音乐”合作框架!这可不是小打小闹,这意味着 AI 音乐的“野蛮生长”时代可能要翻篇了。
全面融合千问,夸克AI浏览器全面升级!不切应用、不换标签,随时唤起千问AI助手,实现操作系统级全局唤起的交互形态。学生党、打工人的真正生产力神器来了。
u1s1,现在模型能力是Plus了,但Rollout阶段的速度却越来越慢……
脑机接口(Brain-Computer Interface, BCI)被视为连接人类智能与人工智能的终极界面。要真正实现这一愿景,核心在于高精度的脑信号解码,即让通用 AI 模型能够真正「读懂」复杂多变的脑活动。
AI闹推出了新栏目 AI 实践派(AI Practitioners)
当所有人都以为AI发展的剧本是「英伟达卖铲子,OpenAI挖金矿」时,谷歌用Gemini 3告诉世界:如果我自己造了一台全自动挖掘机,还需要买谁的铲子,谁能挖得过我?
近日,总部位于东京的初创企业 NGA 宣布,旗下亚洲领先的人工智能招聘平台 HelloBoss 完成 A 轮融资,由 BAI Capital 领投。这笔交易也是贝塔斯曼集团通过 BAI Capital 在日本市场完成的首笔创新风险投资。