
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。
视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。
上下文学习(In-Context Learning, ICL)、few-shot,经常看我文章的朋友几乎没有人不知道这些概念,给模型几个例子(Demos),它就能更好地理解我们的意图。但问题来了,当您精心挑选了例子、优化了顺序,结果模型的表现还是像开“盲盒”一样时……有没有可能,问题出在一个我们谁都没太在意的地方,这些例子,到底应该放在Prompt的哪个位置?
谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。
ChatGPT用多了会变傻?官方回应来了! OpenAI教育主管Leah Belsky明确表示:AI本质上是一个工具,关键在于如何使用它。
刚刚,硅谷爆出新料:OpenAI企业市场份额断崖式下跌,Anthropic全面反超!
一个 Agent(智能体)不够用?Manus 干脆给你拉来 100 个。 今天凌晨,Manus 推出了一项新功能:Manus Wide Research。这项功能的核心亮点在于,用户只需一键即可开启大规模并行 Agent 协作,轻松处理原本需要耗费数小时、动用数百个数据源的复杂调研任务。
GPT-5更近了!今天,神秘模型Horizon Alpha火遍全网,编码首测性能逆天,各种三方基准实测相继放出。就在发布前夕,OpenAI核心大脑专访坦言模型还有瓶颈,但坚信Scaling Law没有尽头。
就在一夜之间,用 AI 帮忙搞科研,不是再只是想想了。 最近,科研圈里越来越多的人在讨论一种叫 SciMaster 的「AI 科学助手」,有让它做实验的,有让他帮忙开题的,还有跟他聊科幻的。
Ilya之后,谁是支撑起OpenAI研究的人? GPT-5发布前夕,奥特曼公开了他背后的两位90后得力干将。
中国在人工智能领域已经成为全球竞争的重要力量。根据斯坦福 2025 年 AI 指数报告,美国虽然仍领先于顶级模型数量,但中国正在迅速缩小差距 —— 在 MMLU、HumanEval 等基准测试中的差距已从几乎双位数下降到几乎持平。