AI资讯新闻榜单内容搜索-GPT-4o

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

近日，由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别（ASR）模型 MOSS-Transcribe-Diarize，不但可以语音转文字，还可以将音频片段与对话中不同的说话者关联起来，性能超过了 GPT-4o、Gemini、豆包等一众模型。

来自主题: AI资讯

8257 点击 2026-01-21 12:05

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

9232 点击 2026-01-06 16:46

对标GPT-4o和香蕉！浙大开源ContextGen：布局身份协同新SOTA

浙江大学ReLER团队开源ContextGen框架，攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构，通过双重注意力机制，实现布局精准锚定与身份高保真隔离，在基准测试中超越开源SOTA模型，对标GPT-4o等闭源系统，为定制化AI图像生成带来新突破。

来自主题: AI技术研报

8887 点击 2025-12-22 16:08

沃顿商学院已发布4篇「Prompt」报告｜重磅

宾夕法尼亚大学沃顿商学院（The Wharton School）今年发布了一系列名为《Prompting Science Reports》的重磅研究报告。他们选取了2024-2025最常用的模型（如GPT-4o, Claude 3.5 Sonnet, Gemini Pro/Flash等），在极高难度的博士级基准测试（GPQA Diamond）上进行了数万次的严谨测试。

来自主题: AI技术研报

8190 点击 2025-12-10 16:11