AI资讯新闻榜单内容搜索-GPT-4o

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT-4o
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!

来自主题: AI技术研报
4863 点击    2025-03-10 10:22
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报
5974 点击    2025-03-04 14:28
Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。

来自主题: AI资讯
7128 点击    2025-03-03 16:00
微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。

来自主题: AI技术研报
4997 点击    2025-02-28 14:11
AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送

AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送

AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送

谷歌Gemini 2.0代码助手免费,每月18万次代码补全,支持超大上下文窗口。微软Copilot语音与深度思考功能,同样免费!OpenAI也免费推出了GPT-4o mini高级语音模式。

来自主题: AI资讯
7059 点击    2025-02-27 16:42
OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

OpenAI刚刚发布SWE-Lancer编码基准测试,直接让AI模型挑战真实外包任务!这些任务总价值高达100万美元。有趣的是,测试结果显示,Anthropic的Claude 3.5 Sonnet在「赚钱」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

来自主题: AI技术研报
8180 点击    2025-02-19 15:19