AI资讯新闻榜单内容搜索-模型训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型训练

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

10038 点击 2025-08-08 11:22

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

来自主题: AI资讯

8457 点击 2025-08-08 11:06

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+MCP=王炸？开源框架教AI在MCP中玩转工具解决任务，实测效果超越GPT！

强化学习+任意一张牌，往往就是王炸。专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

来自主题: AI资讯

8490 点击 2025-08-08 10:53

北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA

北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA

北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA

近日，一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究，提出了一种名为「SWE-Swiss」的完整「配方」，旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B，在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率，在同尺寸级别中达到了新的 SOTA。

来自主题: AI技术研报

8233 点击 2025-08-08 10:43

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

近期，基于大语言模型的智能体（LLM-based agent）在学术界和工业界中引起了广泛关注。对于智能体而言，记忆（Memory）是其中的重要能力，承担了记录过往信息和外部知识的功能，对于提高智能体的个性化等能力至关重要。

来自主题: AI技术研报

8188 点击 2025-08-07 17:03

JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

JinaVDR: 一个图文混排文档搜索任务的基准集

大部分现有的文档检索基准（如MTEB）只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中，这些基准就无能为力。为了更好的开发下一代向量模型和重排器，我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报

11634 点击 2025-08-07 14:43

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

当AI智能体（Agent）开发的浪潮涌来，很多一线工程师却发现自己站在一个尴尬的十字路口：左边是谷歌、OpenAI等巨头深不可测的“技术黑盒”，右边是看似开放却暗藏“付费墙”的开源社区。大家空有场景和想法，却缺少一把能打开未来的钥匙。

来自主题: AI资讯

8256 点击 2025-08-07 11:04

RAGFlow切片方法深度实测：Manual/Book/Laws等对比分析

RAGFlow切片方法深度实测：Manual/Book/Laws等对比分析

RAGFlow切片方法深度实测：Manual/Book/Laws等对比分析

团队在自研知识库底座的过程中，想对比参考下RAGFlow，发现其切片方法缺乏详细说明和清晰案例，如果你也遇到以下问题，本文能帮你节省大量试错时间

来自主题: AI资讯

9420 点击 2025-08-06 16:48

“神经-符号”融合规划器性能显著超越o1：借鉴人类运动学习机制｜中国科学院磐石研发团队

“神经-符号”融合规划器性能显著超越o1：借鉴人类运动学习机制｜中国科学院磐石研发团队

“神经-符号”融合规划器性能显著超越o1：借鉴人类运动学习机制｜中国科学院磐石研发团队

科研er看过来！还在反复尝试材料组合方案，耗时又耗力？新型“神经-符号”融合规划器直接帮你一键锁定高效又精准的科研智能规划。

来自主题: AI技术研报

9283 点击 2025-08-06 16:01

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA

当前先进制造领域的产线良率往往超过 98%，因此异常样本（也称为缺陷样本）的搜集和标注已成为⼯业质检的核⼼瓶颈，过少的异常样本显著限制了模型的检测能⼒，利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择，但现有⽅法存在明显局限

来自主题: AI技术研报

8611 点击 2025-08-06 15:46

上一页当前第203页,共432页下一页