AI资讯新闻榜单内容搜索-语言模型

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

多模态大语言模型（MLLM）在具身智能和自动驾驶“端到端”方案中的应用日益增多，但它们真的准备好理解复杂的物理世界了吗？

来自主题: AI技术研报

9946 点击 2025-04-15 14:56

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

9688 点击 2025-04-15 14:29

过程奖励模型也可以测试时扩展？清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火，大语言模型（LLM）的推理能力增强和测试时扩展（TTS）受到广泛关注。然而，在复杂推理问题中，如何精准评估模型每一步回答的质量，仍然是一个亟待解决的难题。传统的过程奖励模型（PRM）虽能验证推理步骤，但受限于标量评分机制，难以捕捉深层逻辑错误，且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报

9817 点击 2025-04-14 14:39

中科大、中兴提出新后训练范式：小尺寸多模态模型，成功复现R1推理

近年来，随着大型语言模型（LLMs）的快速发展，多模态理解领域取得了前所未有的进步。像 OpenAI、InternVL 和 Qwen-VL 系列这样的最先进的视觉-语言模型（VLMs），在处理复杂的视觉-文本任务时展现了卓越的能力。

来自主题: AI技术研报

6534 点击 2025-04-14 13:57

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

在大模型迈向推理时代的当下，数学推理能力已成为衡量语言模型智能上限的关键指标。

来自主题: AI技术研报

5907 点击 2025-04-14 09:01

全球首个！中科院推出合成生物AI大语言模型，网页版已免费上线！

中国科学院深圳先进技术研究院娄春波团队与北京大学定量生物学中心钱珑团队成功推出一款生物制造大语言模型SYMPLEX。SYMPLEX是全球首个面向合成生物学元件挖掘与生物制造应用的大语言模型。

来自主题: AI资讯

9571 点击 2025-04-13 21:07

7B小模型写好学术论文，新框架告别AI引用幻觉，实测100%学生认可引用质量

学术写作通常需要花费大量精力查询文献引用，而以ChatGPT、GPT-4等为代表的通用大语言模型（LLM）虽然能够生成流畅文本，但经常出现“引用幻觉”（Citation Hallucination），即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。

来自主题: AI技术研报

10163 点击 2025-04-11 10:20

大语言模型火爆的今天，我们为什么还要拥抱世界模型？

多点发力，协同并进，才能让AI的成长有更多道路可走

来自主题: AI资讯

8161 点击 2025-04-09 09:07

拿20年前的苹果“古董”笔记本跑模型推理：九分之一现代CPU速度，但成功了

众所周知，大语言模型（LLM）往往对硬件要求很高。

来自主题: AI资讯

5239 点击 2025-04-09 08:51

用思维干预直接干预LRM内部推理，三种方式实现DeepSeek-R1有效控制。 | 最新

推理增强型大语言模型LRM（如OpenAI的o1、DeepSeek R1和Google的Flash Thinking）通过在生成最终答案前显式生成中间推理步骤，在复杂问题解决方面展现了卓越性能。然而，对这类模型的控制仍主要依赖于传统的输入级操作，如提示工程（Prompt Engineering）等方法，而你可能已经发现这些方法存在局限性。

来自主题: AI技术研报

4934 点击 2025-04-08 08:50