AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。

来自主题: AI技术研报
4757 点击    2025-05-28 14:52
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。

来自主题: AI技术研报
8935 点击    2025-05-28 09:55
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B

上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

来自主题: AI技术研报
5839 点击    2025-05-28 09:42
One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!

One RL to See Them All?一个强化学习统一视觉-语言任务!

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍有待深入探索。

来自主题: AI技术研报
8081 点击    2025-05-27 17:33
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。

来自主题: AI技术研报
9125 点击    2025-05-27 16:53