AI资讯新闻榜单内容搜索-大模型测试

被困在考场里的大模型

昨天，大名鼎鼎的 Claude 4.8 发布了。科技圈照例是一片欢呼。看官方放出来的一堆评测数据，依然是碾压级别的，尤其是说代码（Coding）能力有了史诗级的提升，简直像交了一份满分答卷。

来自主题: AI资讯

8115 点击 2026-05-30 10:50

当大模型训练进入深水区，竞争的关键已经不再只是「模型参数怎么调」，而逐渐转向一个更核心、也更难系统解决的问题：模型在训练过程中究竟看到了什么数据、以什么比例看到、哪些样本应该被更频繁地学习。

来自主题: AI资讯

8660 点击 2026-04-16 11:16

拷打AI的难度还在升级？这不，图像推理又出现了新难题。

来自主题: AI资讯

7303 点击 2025-05-20 10:49

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

来自主题: AI技术研报

11582 点击 2024-07-18 17:21

大力出奇迹，也是一个新思路。

来自主题: AI资讯

12009 点击 2024-07-05 14:34

还有12款大模型全军覆没……

来自主题: AI资讯

11636 点击 2024-06-25 10:36

随着大语言模型（LLM）的发展，很多研究发现LLM能够展现出稳定的人格特质，模仿人类细微的情绪与认知模式，还能辅助各种各样的社会科学仿真实验，为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域，提供了新的研究思路。

来自主题: AI技术研报

5255 点击 2024-03-13 11:15