
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!
大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!
解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。
Max Tegmark团队又出神作了!他们发现,LLM中居然存在人类大脑结构一样的脑叶分区,分为数学/代码、短文本、长篇科学论文等部分。这项重磅的研究揭示了:大脑构造并非人类独有,硅基生命也从属这一法则。
Notion 今天举行了一个叫 Make with Notion 的发布会,这次发布会发布了一系列的新功能和产品,包括了表单(Forms)、布局(Layouts)、自动化(Automations)、Notion AI、交易市场(Marketplace) 以及大家最期待的 Notion Email。
多年来,浙江大学周晟老师团队与阿里安全交互内容安全团队持续开展产学研合作。近日,双⽅针对标签噪声下图神经⽹络的联合研究成果《NoisyGL:标签噪声下图神经网络的综合基准》被 NeurIPS Datasets and Benchmarks Track 2024 收录。本次 NeurIPS D&B Track 共收到 1820 篇投稿,录⽤率为 25.3%。
随着LLM的进步,它将超越代码补全(“Copilot”)的功能,进入代码创作(“Autopilot”)的领域。随着LLM变得越来越复杂,它们能够释放的经济价值也会越来越大。AGI的经济价值仅受我们的想象力限制。
11x.ai 开发的人工智能“数字员工”如 Alice 和 Jordan,能够自动化处理销售开发、客户服务等重复性任务,帮助企业提升效率,降低成本,释放人力专注于更具战略价值的工作。客户可以根据完成的任务量或实际取得的销售成果进行付费,提供更定制化的服务。
中科大成果,拿下图学习“世界杯”单项冠军! 由中科大王杰教授团队(MIRA Lab)提出的首个具有最优性保证的大语言模型和图神经网络分离训练框架,在国际顶级图学习标准OGB(Open Graph Benchmark)挑战赛的蛋白质功能预测任务上斩获「第一名」,该纪录从2023年9月27日起保持至今。
国产 3A 大作属实让人热血沸腾,但 AI Native 游戏也同样让人着迷。
苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。