AI资讯新闻榜单内容搜索-o1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: o1
推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷 token 了,无需显式思维链,推理模型也能实现高效且准确的推理。

来自主题: AI技术研报
6901 点击    2025-04-19 14:39
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。

来自主题: AI技术研报
7049 点击    2025-04-18 15:20
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。

来自主题: AI资讯
8133 点击    2025-04-18 10:37
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。

来自主题: AI资讯
9090 点击    2025-04-17 08:43
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。但它们为何如此强大呢?

来自主题: AI技术研报
8108 点击    2025-04-16 15:00
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个亟待解决的难题。传统的过程奖励模型(PRM)虽能验证推理步骤,但受限于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报
7017 点击    2025-04-14 14:39
推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

研究发现,推理模型(如DeepSeek-R1、o1)遇到「缺失前提」(MiP)的问题时,这些模型往往表现失常:回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究,深入剖析推理模型在MiP问题上的「过度思考」现象,揭示其背后的行为模式,带你一窥当前AI推理能力的真实边界。

来自主题: AI技术研报
5880 点击    2025-04-14 14:05
为什么李飞飞团队经常cue通义千问?

为什么李飞飞团队经常cue通义千问?

为什么李飞飞团队经常cue通义千问?

Qwen 3还未发布,但已发布的Qwen系列含金量还在上升。2个月前,李飞飞团队基于Qwen2.5-32B-Instruct 模型,以不到50美元的成本训练出新模型 S1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今,他们的视线再次投向了这个国产模型。

来自主题: AI资讯
6702 点击    2025-04-12 12:02
UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!

OpenAI o1/o3-mini级别的代码推理模型竟被抢先开源!UC伯克利和Together AI联合推出的DeepCoder-14B-Preview,仅14B参数就能媲美o3-mini,开源代码、数据集一应俱全,免费使用。

来自主题: AI技术研报
7059 点击    2025-04-10 11:52