AI TNT— 让一部分先用AI实现商业化

OpenAI o1，在IQ测试中拿到了第一名！大佬Maxim Lott，给o1、Claude-3 Opus、Gemini、GPT-4、Grok-2、Llama-3.1等进行了智商测试，结果表明，o1稳居第一名。

来自主题: AI资讯

3703 点击 2024-09-14 16:02

谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。

来自主题: AI资讯

3777 点击 2024-08-02 15:29

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

来自主题: AI技术研报

8943 点击 2024-07-18 17:21

没眼看……“9.11和9.9哪个大”这样简单的问题，居然把主流大模型都难倒了？？

来自主题: AI资讯

9126 点击 2024-07-16 20:05

大力出奇迹，也是一个新思路。

来自主题: AI资讯

9095 点击 2024-07-05 14:34

LLM能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连Claude 3.5也无法幸免。

来自主题: AI资讯

7844 点击 2024-07-01 12:21

还有12款大模型全军覆没……

来自主题: AI资讯

8941 点击 2024-06-25 10:36

如今很多大模型都声称擅长数学，谁有真才实学？谁是靠背测试题“作弊”的？有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。

来自主题: AI技术研报

2409 点击 2023-11-16 14:20