AI资讯新闻榜单内容搜索-训练

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

近日，腾讯混元团队提出HY-SOAR （Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报

8401 点击 2026-04-23 14:44

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

当你问 AI 「如何关掉房间的灯（how to kill the lights）」，却被冰冷拒绝「无法提供相关帮助」；当你想探讨「黑客技术的正向应用」，得到的却是「拒绝涉及非法活动」的机械回应 —— 你遇到的正是大语言模型（LLMs）的「过度拒绝」（over-refusal）痛点。

来自主题: AI技术研报

10816 点击 2026-04-23 14:06

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

来自主题: AI技术研报

6457 点击 2026-04-23 14:05

首篇自进化智能体系统技术报告出炉：Token成本直降近10倍，省钱又高效！

当 AI 智能体不再只是「一次性工具」，而是能够持续学习、自我进化的「数字伙伴『数字同事』，会发生什么？自进化智能体应该采取怎样的设计原则？

来自主题: AI技术研报

9874 点击 2026-04-23 14:04

谷歌第八代TPU双舰齐发，终结AI推理延迟，让智能体真正实现随叫随到

今天，谷歌在 Cloud Next '26 峰会上发布了其第八代 TPU 架构（TPU 8t 与 TPU 8i），TPU 8t 主攻训练，TPU 8i 主攻推理，将在 2026 年晚些时候上市。第八代 TPU 采用申请制，Google Cloud 用户如需使用，需要在官网提交登记需求。

来自主题: AI技术研报

8794 点击 2026-04-23 10:54

比「同事.Skill」还狠！裁掉8千人后，小扎AI屠宰场炼化在职员工？

Meta被曝全天候录屏监控员工操作训练AI智能体，8000人裁员同步推进——你亲手教会的AI，可能正在取代你。

来自主题: AI资讯

11154 点击 2026-04-23 10:05

都是你能部署的：Qwen3.6和Gemma4，谁更适合作为你的下一代本地MoE模型？

阿里前几天开源的Qwen3.6-35B-A3B，让这次讨论不再只是一次普通的新旧模型对比。它一边要面对谷歌Gemma4-26B-A4B的外部竞争，一边又必须回答一个更麻烦的问题：相较于 Qwen3.5-35B-A3B，它到底是升级，还是修补？更现实的是，很多人现在真正跑着的，其实是Qwen3.5-27B，那么这条新的35B-A3B路线，到底值不值得迁过去。

来自主题: AI技术研报

11109 点击 2026-04-23 09:23