
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。
深夜重磅!阿里发布并开源首个端到端全模态大模型——
3 月 27 日凌晨,阿里通义千问团队发布 Qwen2.5-Omni。
就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——
3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。
本文介绍了Search-R1技术,这是一项通过强化学习训练大语言模型进行推理并利用搜索引擎的创新方法。实验表明,Search-R1在Qwen2.5-7B模型上实现了26%的性能提升,使模型能够实时获取准确信息并进行多轮推理。本文详细分析了Search-R1的工作原理、训练方法和实验结果,为AI产品开发者提供了重要参考。
7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主?
日前,阿里国际站总裁张阔在接受《南华早报》等多家外媒专访时透露,面向海外买家推出的AI搜索引擎Accio企业用户已超百万。2月,阿里国际站的全线AI产品相继接入Qwen2.5、DeepSeek等先进推理模型,尤其是原生AI应用Accio的推出,让阿里国际站的AI应用引发全球高度关注。
见识过32B的QwQ追平671的DeepSeek R1后——刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事?新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。
2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B