AI资讯新闻榜单内容搜索-模型

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？北京大学宋国杰教授团队最新综述论文（共 63 页，包含 500 篇引文），首次尝试系统性梳理答案。

来自主题: AI技术研报

9202 点击 2025-05-27 16:13

印度国家级大模型上线两天仅 300 余次下载，投资人直呼“尴尬”：韩国大学生模型都有20万！

作为首批入选印度“IndiaAI Mission”国家级项目、承担构建印度主权基础大模型任务的公司之一，Sarvam AI 近日发布了名为 Sarvam-M 的模型。这是一个基于 Mistral Small 构建的 240 亿参数、权重开放的混合语言模型。

来自主题: AI资讯

10428 点击 2025-05-27 14:44

红杉中国xbench全球首发，AI智能体真实战力揭榜！

刚刚，全新AI基准测试工具xbench诞生，通过双轨评估体系和长青评估机制，追踪模型能力与实际场景价值。

来自主题: AI技术研报

10443 点击 2025-05-27 14:04

3步轻松微调Qwen3，本地电脑就能搞，这个方案可以封神了！【喂饭级教程】

大家好，我是袋鼠帝今天给大家带来的是一个带WebUI，无需代码的超简单的本地大模型微调方案（界面操作），实测微调之后的效果也是非常不错。

来自主题: AI技术研报

8819 点击 2025-05-27 13:38

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

来自主题: AI技术研报

7222 点击 2025-05-27 13:21