AI资讯新闻榜单内容搜索-o3

Recap | Prompt实战全景图：探索AI在编程、教育、创作、音乐中的可能性

MT Park 的第12场AI分享会顺利进行！~🎉 感谢向阳乔木老师非常细致地分享了：他探索 Prompt 的多场景实践，从 Cursor、Windsurf 等 vibe 编程工具，到 Veo3 的视频生成，覆盖编程、教育、内容创作等多个方向，带你快速上手 AI 最实用的玩法。

来自主题: AI资讯

10670 点击 2025-07-01 10:46

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

10400 点击 2025-06-27 10:03

坏了！R1的秘密被Deepmind发现了！「啊哈时刻」首次被披露，现已可量化！

自年初起，DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世，展现出令人惊叹的智能水平，但它们为什么突然变得这么聪明？东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯

7534 点击 2025-06-21 13:01

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

10628 点击 2025-06-19 11:03

微软已为Agent悄然调转船头，当大厂都在卷“通用Agent”

您有没有这样的体验？一天的工作里，您可能用GPTo3写了个方案，然后切换到Cursor或者Trae里写代码，接着又打开Notion或者飞书整理文档。每个工具都挺聪明，但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码，写代码的Cursor也不清楚您的整体规划是什么。

来自主题: AI技术研报

8842 点击 2025-06-18 10:36

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏，也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏，而且表现还都不错，直接突破了benchmark上限

来自主题: AI技术研报

10727 点击 2025-06-16 17:26

高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕！在人工智能领域，各家大模型向数学卷发起了挑战。

来自主题: AI技术研报

10529 点击 2025-06-16 17:04

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

AI两天爆肝12年研究，精准吊打人类！多大、哈佛MIT等17家机构联手放大招，基于GPT-4.1和o3-mini，筛选文献提取数据，效率飙3000倍重塑AI科研工作流。

来自主题: AI技术研报

10267 点击 2025-06-16 09:55

程序员从此不再写代码！红杉专访Codex团队，o3白菜价真相曝光

红杉专访OpenAI Codex团队揭示AI编程的未来：从工具协作迈向「异步自主Agent」时代。Codex正从代码补全演化为可独立完成任务的智能体。此外还有更大爆料！

来自主题: AI资讯

8169 点击 2025-06-13 12:39

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

11395 点击 2025-06-13 10:48