AI资讯新闻榜单内容搜索-推理模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 推理模型
别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例

别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例

别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例

还记得DeepSeek-R1发布时AI圈的那波狂欢吗?"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏,连不少技术大佬都在转发。再到最近,“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验,狠狠打了所有人的脸!

来自主题: AI技术研报
7452 点击    2025-06-12 11:59
MiniMax将发布文本推理模型,还计划推出独立的音频应用|新皮层独家

MiniMax将发布文本推理模型,还计划推出独立的音频应用|新皮层独家

MiniMax将发布文本推理模型,还计划推出独立的音频应用|新皮层独家

第一财经「新皮层」独家获悉,MiniMax即将推出文本推理模型,并将开源。半个月前,MiniMax刚刚发布和开源了视觉推理模型Orsta(One RL to See Them All)。MiniMax今年3月做出产品线调整,将旗下现有产品「海螺AI」更名为「MiniMax」,与公司同名,聚焦文本理解和生成;

来自主题: AI资讯
8170 点击    2025-06-11 23:11
Mistral的首个强推理模型:拥抱开源,推理速度快10倍

Mistral的首个强推理模型:拥抱开源,推理速度快10倍

Mistral的首个强推理模型:拥抱开源,推理速度快10倍

强推理终于要卷速度了。 大模型强推理赛道,又迎来一位重量级玩家。

来自主题: AI技术研报
6847 点击    2025-06-11 16:46
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

“欧洲的OpenAI”Mistral AI终于发布了首款推理模型——Magistral。 然而再一次遭到网友质疑:怎么又不跟最新版Qwen和DeepSeek R1 0528对比?

来自主题: AI资讯
7688 点击    2025-06-11 14:23
刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

刚刚,OpenAI最强推理模型o3-pro诞生!碾压Gemini 2.5 Pro击穿底价

最强推理模型一夜易主!深夜,o3-pro毫无预警上线,刷爆数学、编程、科学基准,强势碾压o1-pro和o3。更惊艳的是,o3价格直接暴降80%,叫板Gemini 2.5 Pro。

来自主题: AI技术研报
6725 点击    2025-06-11 13:20
OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密

SemiAnalysis全新硬核爆料,意外揭秘了OpenAI全新模型的秘密?据悉,新模型介于GPT-4.1和GPT-4.5之间,而下一代推理模型o4将基于GPT-4.1训练,而背后最大功臣,就是强化学习。

来自主题: AI技术研报
6687 点击    2025-06-11 12:20
o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟

o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟

o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟

OpenAI深夜放大招,正式推出“最新最强版”推理模型o3-pro! 而且同一时间,o3模型降价80%不降智。官方测评结果显示,在专家评估中,所有人一致更偏爱o3-pro而非o3的回答。

来自主题: AI资讯
9209 点击    2025-06-11 10:50
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了

让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案,超60%的案例中模型并未真正理解风险。

来自主题: AI技术研报
5074 点击    2025-06-10 11:00
扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报
5763 点击    2025-06-09 10:25