
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。
近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。
智能体元年,处处都是智能体。甚至刚落幕的ISC.AI 2025第十三届互联网安全大会,主题直接就是“ALL IN AGENT”。
忘掉繁琐交互流程,也不用再蹲Veo 3了! 现在分钟级高质量的AI创意大片,能够一键生成了。 比如一张人物图+提示词脚本,就能生成记者第一视角下采访西游记的视频特辑。
今年以来 Coding 领域的最大变量是 AI labs 们的加入,模型大厂纷纷发力,和创业公司共同竞争这一关键场景:两周前,all-in coding 的 Anthropic 更新了 Artifacts 功能,用户可以在聊天界面里直接生成、预览和编辑代码,实现类 vibe coding 的体验;
前些天,GPT-4o的多模态生图上线之后,引发全球AI社区广泛的关注,吉卜力图画全网风靡。
DreamTech,由牛津大学、南京大学等顶尖高校研究者组成的AI创业团队,在春节期间公布了他们在3D生成方向上的新工作成果——Neural4D 2.0(初版名为Direct3D),提出了创新性的3D Assembly Generation算法思路及更高效的模型架构
从代码补全到全流程开发,AI正以前所未有的速度改变软件开发的规则。本文深入解析了L1到L5五个等级的AI编程工具,展望了AI编程的全面自动化。
36氪获悉,Bridgewise LTD(以下简称「Bridgewise」)宣布完成数千万美元的战略融资,本轮融资由SIX集团、Group 11和L4 Venture Builder等战略投资者主导。本轮融资的资金主要用于AI平台的研发以及全球市场的扩张。
通过深入分析这些 GPU 的性能指标,我们将探讨它们在模型训练和推理任务中的适用场景,以帮助用户在选择适合的 GPU 时做出明智的决策。同时,我们还会给出一些实际有哪些知名的公司或项目在使用这几款 GPU。
舍得砸钱只是第一步