AI资讯新闻榜单内容搜索-GPT-4

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT-4
仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

来自主题: AI技术研报
7699 点击    2025-11-09 15:33
开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

开发者生产力“平替”?MiniMax M2全面测评:代码、速度与迁移成本

生成式AI技术的成熟,让智能编程逐渐成为众多开发者的日常,然而一个大模型API选型的“不可能三角”又随之而来:追求顶级、高速的智能(如GPT-4o/Claude 3.5),就必须接受高昂的调用成本;追求低成本,又往往要在性能和稳定性上做出妥协。开发者“既要又要”的正义,谁能给?

来自主题: AI产品测评
11213 点击    2025-11-05 10:25
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

来自主题: AI技术研报
8600 点击    2025-11-04 10:43
OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI公开未来路线图!具体到28年3月AI研究员将完全自主,奥特曼承认“关于GPT-4o我们搞砸了”

OpenAI完成史上最重要的一次组织架构调整后,紧接着开了一场直播。首次公开了内部研究目标的具体时间表,其中最引人注目的是“在2028年3月实现完全自主的AI研究员”,具体到月份。

来自主题: AI资讯
8141 点击    2025-10-29 12:04
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测

在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

来自主题: AI技术研报
7591 点击    2025-10-25 14:26
AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升,甚至超越GPT-4o

斯坦福等新框架,用在线强化学习让智能体系统“以小搏大”,领先GPT-4o—— AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力。

来自主题: AI技术研报
6682 点击    2025-10-25 14:03
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
7969 点击    2025-10-13 15:58
吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事

吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事

吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事

吴恩达又出新课了,这次的主题是—Agentic AI。 在新课中,吴恩达将Agentic工作流的开发沉淀为四大核心设计模式:反思、工具、规划与协作,并首次强调评估与误差分析才是智能体开发的决定性能力:

来自主题: AI资讯
11009 点击    2025-10-13 11:54
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

游戏理解领域模型LynkSoul VLM v1,在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。背后厂商逗逗AI,亦在现场吸引了不少关注的目光。

来自主题: AI资讯
9566 点击    2025-10-11 17:25