
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。
复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。
即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?
大语言模型遇上加密数据,即使是最新Qwen3也直冒冷汗!
马上端午节了,我准备出去旅游。
信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:
现在,人类越来越想让“冯·诺依曼架构”退休了。因为存储墙和功耗墙问题,冯·诺依曼架构愈发触碰瓶颈。
来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。
Horizon3.ai 是一家提供自主渗透测试等工具的网络安全初创公司,该公司本周在提交给美国证券交易委员会的文件中透露,正在寻求新一轮 1 亿美元的融资,并已锁定至少 7300 万美元。
当前顶尖AI模型是否真能“看懂”物理图像?
2025年,英伟达创始人兼CEO黄仁勋提出的“AI工厂”,正在中国半导体行业落地生根——不同于传统工厂将原材料转化为产品,AI工厂是将数据和算力转化为智能服务,帮助企业降本增效。