
GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了
GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了新模型在MATH上(以数学竞赛为主)动辄跑分80%甚至90%以上,却一用就废。
新模型在MATH上(以数学竞赛为主)动辄跑分80%甚至90%以上,却一用就废。
多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。
最近,一支来自UCSD和清华的研究团队提出了一种全新的微调方法。经过这种微调后,一个仅80亿参数的小模型,在科学问题上也能和GPT-4o一较高下!或许,单纯地卷AI计算能力并不是唯一的出路。
OpenAI开发者日新加坡站今天启幕,果不其然,ChatGPT又出手了: Gemini刚在竞技场头把交椅上坐了不到一周,最新版ChatGPT轻轻一更新,第一再次易主。
OpenAI出了个新功能,直接让ChatGPT输出的速度原地起飞! 这个功能叫做“预测输出”(Predicted Outputs),在它的加持之下,GPT-4o可以比原先快至多5倍。
一群大模型玩你画我猜,人类一旁围观超起劲儿。 就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。
把《我的世界》交给大模型,会怎么样?
昨天,Kimi突然给我打了个电话,我这才发现自己被“灰度”了。 灰度测试的内容是Kimi的语音通话功能。 现在进入Kimi App,就能看到底部问答框旁边多了一个电话的图标,点击即可发起语音通话。
英伟达开源了超强模型Nemotron-70B,后者一经发布就超越了GPT-4o和Claude 3.5 Sonnet,仅次于OpenAI o1!AI社区惊呼:新的开源王者又来了?业内直呼:用Llama 3.1训出小模型吊打GPT-4o,简直是神来之笔!
国产大模型首次在公开榜单上超过GPT-4o! 就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning(闪电)。