
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?
黑科技来了!开源LLM微调神器Unsloth近期更新,将GRPO训练的内存使用减少了80%!只需7GB VRAM,本地就能体验AI「啊哈时刻」。
就在刚刚,历史性的一刻出现了。DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。热度最高的DeepSeek-V3,Star数如今已达7.7万。
月6日,专注于下一代人工智能技术的公司Paige近日宣布其旗舰产品Paige PanCancer Detect实现了重大升级。这款AI应用是首个能够检测多种组织和器官癌症的工具,最初于2024年初推出时已能帮助病理学家检测超过17种不同的组织癌症。
DeepSeek的V3模型仅用557.6万的训练成本,实现了与OpenAI O1推理模型相近的性能,这在全球范围内引发连锁反应。由于不用那么先进的英伟达芯片就能实现AI能力的飞跃,英伟达在1月27日一天跌幅高达17%,市值一度蒸发6000亿美元。
我是2024年7月毕业的博士,找工作是从2023年农历新年之后开始的,我一般只和主动联系上来的公司聊,最开始联系到的,是华为计算产品线的计算研究部昇腾和鲲鹏lab,随后联系的有上海人工智能实验室,幻方AI(年底改名为deepseek)。
2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。
大约一年前,Torres 又创立了 Agency,一家致力于用 AI 技术革新客户成功管理领域的初创公司。这家公司迅速获得了 1200 万美元的种子轮融资,展现了市场对 AI 客户管理解决方案的巨大需求。
Ilya Sutskever 在 NeurIPS 会上直言:大模型预训练这条路可能已经走到头了。上周的 CES 2025,黄仁勋有提到,在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。
AI硬件的风吹了一年,消费电子的销量好起来了,但和AI的关系不大。经历了2023年的低谷期后,智能手机、PC都在2024年迎来了不同程度的复苏。根据Canalys数据,2024年全球智能手机出货量达到12.2亿台,同比增长了7%,结束了连续两年的下滑趋势;PC在经历了漫长的行业寒冬后,也实现了3.8%的同比增幅。