AI资讯新闻榜单内容搜索-TIM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: TIM
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报
7334 点击    2025-07-05 12:46
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。

来自主题: AI技术研报
8466 点击    2025-07-04 09:44
一AI日记应用获600万美金融资,顶级VC领投,小众赛道里跑出来的大生意有何特别?

一AI日记应用获600万美金融资,顶级VC领投,小众赛道里跑出来的大生意有何特别?

一AI日记应用获600万美金融资,顶级VC领投,小众赛道里跑出来的大生意有何特别?

近日,一款名为Rosebud的AI日记应用获得了600万美元的种子轮融资,由Bessemer Venture Partners领投,Fuel Captial、Initialized Capital、766、Avenir 及知名投资人 Tim Ferriss 等跟投。据官方透露,Rosebud自推出以来已经累计了5亿字书写、8000+用户,使用时长超过3000万分钟。

来自主题: AI资讯
8260 点击    2025-06-25 16:00
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

来自主题: AI技术研报
7709 点击    2025-06-19 11:31
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式

测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?

来自主题: AI技术研报
7869 点击    2025-06-10 16:18
3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成

Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。

来自主题: AI技术研报
7283 点击    2025-06-09 15:54
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报
7785 点击    2025-06-09 11:02
扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报
6748 点击    2025-06-09 10:25
马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值

马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值

马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值

真是屋漏偏逢连夜雨! 就在特斯拉创下单日最大跌幅,市值蒸发1500亿美元(折合人民币约10784亿元)之际,马斯克又痛失一位悍将——

来自主题: AI技术研报
7542 点击    2025-06-07 14:04