AI资讯新闻榜单内容搜索-AI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报
5943 点击    2025-07-05 12:46
差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

从「与GPT-3.5畅聊」到「ChatGPT」,OpenAI团队如何在混乱中拍板上线、又怎样被用户「点赞」调教成「赛博舔狗」?从产品发布、命名内幕、团队文化到AI时代核心竞争力,深度访谈揭开幕后全过程!

来自主题: AI资讯
5430 点击    2025-07-05 12:40
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报
5358 点击    2025-07-05 12:33
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。

来自主题: AI技术研报
6136 点击    2025-07-05 12:10
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

来自主题: AI资讯
8034 点击    2025-07-05 11:38
不学美国砸钱烧AI,欧洲科技巨头另辟蹊径

不学美国砸钱烧AI,欧洲科技巨头另辟蹊径

不学美国砸钱烧AI,欧洲科技巨头另辟蹊径

欧洲科技巨头的CEO最新表示,欧洲在人工智能领域展开竞争时并不需要大量建立数据中心,这一说法与上月黄仁勋访欧时提出的说法相悖。当地时间周四(7月3日),德国思爱普公司(SAP)首席执行官柯睿安(Christian Klein)在接受采访时说道:“我们真的需要建五个数据中心再把高性能芯片放进去吗?”

来自主题: AI资讯
7201 点击    2025-07-05 11:33
Perplexity发布Max订阅计划:每月200美元解锁无限AI生产力

Perplexity发布Max订阅计划:每月200美元解锁无限AI生产力

Perplexity发布Max订阅计划:每月200美元解锁无限AI生产力

Perplexity近日正式推出其最高级别的订阅计划——Perplexity Max。该计划定价为每月200美元或每年2000美元,主要面向需要进行频繁查询和复杂项目处理的专业用户。Perplexity Max为用户提供了无限调用Perplexity Labs、抢先体验新功能

来自主题: AI资讯
7444 点击    2025-07-04 22:31
野生DeepSeek火了,速度碾压官方版,权重开源

野生DeepSeek火了,速度碾压官方版,权重开源

野生DeepSeek火了,速度碾压官方版,权重开源

没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体!这两天,一个名为「DeepSeek R1T2」的模型火了!这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。

来自主题: AI资讯
7572 点击    2025-07-04 22:18
DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测

DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测

DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测

DeepSeek-R2,终于要来了?大模型竞技场秘密上线了一个叫steve的神秘模型,在对话中透露自己来自DeepSeek。不过,网友们并不满足于知道steve的厂商,开始讨论起了steve的具体身份。

来自主题: AI资讯
7197 点击    2025-07-04 13:14