AI资讯新闻榜单内容搜索-GPT-4

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT-4
沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

沃顿商学院已发布4篇「Prompt」报告|重磅

宾夕法尼亚大学沃顿商学院(The Wharton School)今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型(如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等),在极高难度的博士级基准测试(GPQA Diamond)上进行了数万次的严谨测试。

来自主题: AI技术研报
7806 点击    2025-12-10 16:11
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报
8028 点击    2025-12-05 14:46
OpenAI大溃败!GPT-5「换皮」GPT-4o,两年半预训练0突破

OpenAI大溃败!GPT-5「换皮」GPT-4o,两年半预训练0突破

OpenAI大溃败!GPT-5「换皮」GPT-4o,两年半预训练0突破

OpenAI,亟需一场翻身仗!今天,全网最大的爆料:GPT-5基石实为GPT-4o。自4o发布之后,内部预训练屡屡受挫,几乎沦为「弃子」。

来自主题: AI资讯
7030 点击    2025-12-01 10:03
DeepSeek强势回归,开源IMO金牌级数学模型

DeepSeek强势回归,开源IMO金牌级数学模型

DeepSeek强势回归,开源IMO金牌级数学模型

就在刚刚,DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型:DeepSeek-Math-V2。顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO,显著提升了数学推理能力。

来自主题: AI资讯
8474 点击    2025-11-27 22:47
中兴发了一篇论文,洞察AI更前沿的探索方向

中兴发了一篇论文,洞察AI更前沿的探索方向

中兴发了一篇论文,洞察AI更前沿的探索方向

当大模型参数量冲向万亿级,GPT-4o、Llama4 等模型不断刷新性能上限时,AI 行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界脱节等问题日益凸显,通用人工智能(AGI)的实现路径亟待突破。

来自主题: AI技术研报
7023 点击    2025-11-26 13:47
GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

GPT-4o准确率仅为24%!权威中文教育基准:知识+情商的双重考验

华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。

来自主题: AI技术研报
7029 点击    2025-11-15 10:15
仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

来自主题: AI技术研报
7006 点击    2025-11-09 15:33
开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

生成式AI技术的成熟,让智能编程逐渐成为众多开发者的日常,然而一个大模型API选型的“不可能三角”又随之而来:追求顶级、高速的智能(如GPT-4o/Claude 3.5),就必须接受高昂的调用成本;追求低成本,又往往要在性能和稳定性上做出妥协。开发者“既要又要”的正义,谁能给?

来自主题: AI产品测评
9705 点击    2025-11-05 10:25
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

来自主题: AI技术研报
7831 点击    2025-11-04 10:43