
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到
2025 IMO真题撕碎AI数学神话,全球顶尖模型齐翻车!冠军铜牌都拿不到AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。
AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。
如今,人工智能已成为化学研究不可或缺的工具,广泛应用于化合物性质预测、反应优化和材料设计等领域。
LLM用得越久,速度越快!Emory大学提出SpeedupLLM框架,利用动态计算资源分配和记忆机制,使LLM在处理相似任务时推理成本降低56%,准确率提升,为AI模型发展提供新思路。
就像是播放音乐,Prompt Engineering是在调音响的音量,那Context Engineering就是在设计整个音响系统,从音源、功放、音箱到房间声学,每个环节都要精心设计。Context Engineering本质上是设计和优化AI模型整个上下文窗口的工程学科。这不只是一个技术升级,更像是思维模式的根本转变。
今年已经过去了一半,突然心血来潮,来更新一期「2025 年上半年,我最推荐的 AI 清单」了。 综合我半年使用的个人看法,不覆盖所有的产品,凭自己印象,直接码出这篇文章。 实在没记起来的好产品,也就不算“我的上半年推荐”了,还请包容。
据权威媒体报道,Anthropic正在紧锣密鼓地测试代号为“Claude Neptune v3”的全新AI模型。这一消息引发了AI社区的广泛关注,许多业内人士推测,Neptune v3可能是Claude4.5的雏形,甚至可能在未来数周内正式发布。作为Anthropic在AI安全与性能领域的又一力作,Neptune v3的亮相无疑将为行业带来新的期待。
近日,一则消息在网络上引发热议。有媒体称,“DeepSeek就AI模型违规关联王一博与‘李爱庆腐败案’,作出道歉。”
AI新进展,救命的那种。现在,只需做一次体检时常规的CT检查,再用AI分析,就有可能在癌症还没有露出明显症状之前——比如提前半年——把它揪出来。
刚刚,浙江省肿瘤医院联合阿里巴巴达摩院召开发布会,发布全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶,并联合全国20个中心近10万人的大规模临床研究中大幅提升胃癌检出率。相关成果登上国际顶级期刊《自然·医学》(Nature Medicine)。
长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。