AI TNT— 让一部分先用AI实现商业化

MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。

来自主题: AI技术研报

8384 点击 2024-09-16 21:08

AI的能力终于癫成了和这个世界匹配的样子——来自UCB等机构的研究者们用GPT-4o，开发出了一个「AI预言家」。

来自主题: AI资讯

6840 点击 2024-09-11 17:33

在OpenAI最早提出打造「Her」想法的的人，也离职创业了。

来自主题: AI资讯

5483 点击 2024-09-11 13:35

即便是最强大的语言模型（LLM），仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外，有没有更系统的方法解决这一问题呢？

来自主题: AI资讯

8975 点击 2024-09-08 15:57

提示工程师Riley Goodside小哥，依然在用「Strawberry里有几个r」折磨大模型们，GPT-4o在无限次PUA后，已经被原地逼疯！相比之下，Claude坚决拒绝PUA，是个大聪明。而谷歌最近的论文也揭示了本质原因：LLM没有足够空间，来存储计数向量。

来自主题: AI技术研报

4583 点击 2024-09-07 17:07

开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为Reflection 70B，使用一种全新训练技术，让AI学会在推理过程中纠正自己的错误和幻觉。

来自主题: AI资讯

4976 点击 2024-09-06 15:33

大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。

来自主题: AI技术研报

8496 点击 2024-09-04 22:03

视觉与机器人学习的深度融合。

来自主题: AI资讯

5712 点击 2024-09-03 14:50

大模型竞技场规则更新，GPT-4o mini排名立刻雪崩，跌出前10。

来自主题: AI技术研报

6934 点击 2024-08-31 15:19

OpenAI推出GPT-4o模型微调功能。

来自主题: AI资讯

5920 点击 2024-08-22 09:11