AI资讯新闻榜单内容搜索-o1

黑化威胁操纵人类！Claude勒索，o1自主逃逸，人类「执剑人」紧急上线

从撒谎到勒索，再到暗中自我复制，AI 的「危险进化」已不仅仅是科幻桥段，而是实验室里的可复现现象。

来自主题: AI技术研报

8483 点击 2025-07-01 15:21

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

9867 点击 2025-06-27 10:03

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

只训练数学，却在物理化学生物战胜o1！强化学习提升模型推理能力再添例证。

来自主题: AI技术研报

9112 点击 2025-06-23 14:29

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

扩散模型在视频合成任务中取得了显著成果，但其依赖迭代去噪过程，带来了巨大的计算开销。尽管一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展，直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报

10244 点击 2025-06-19 10:13

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

10627 点击 2025-06-13 10:48