AI资讯新闻榜单内容搜索-语言模型

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

学好数理化，走遍天下都不怕！这一点这在大语言模型身上也不例外。

来自主题: AI技术研报

8789 点击 2025-07-09 14:54

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报

9277 点击 2025-07-09 10:59

DNA大模型天梯图出炉！30+模型混战，中国黑马震撼登场，DNA、RNA、蛋白质全拿捏！

蛋白质之后，DNA正成为AI+生命科学的下一个热门领域。

来自主题: AI资讯

9335 点击 2025-07-08 10:47

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率，华为诺亚提出代码HLCE终极基准

大语言模型（LLM）在标准编程基准测试（如 HumanEval,Livecodebench）上已经接近 “毕业”，但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力？

来自主题: AI技术研报

8027 点击 2025-07-07 10:39

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。

来自主题: AI技术研报

7671 点击 2025-07-06 14:56

LeCun团队揭示LLM语义压缩本质：极致统计压缩牺牲细节

那问题来了：大型语言模型（LLM）虽然语言能力惊人，但它们在语义压缩方面能做出和人类一样的权衡吗？为探讨这一问题，图灵奖得主LeCun团队，提出了一种全新的信息论框架。该框架通过对比人类与LLM在语义压缩中的策略，揭示了两者在压缩效率与语义保真之间的根本差异：LLM偏向极致的统计压缩，而人类更重细节与语境。

来自主题: AI技术研报

6980 点击 2025-07-06 11:17

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

8096 点击 2025-07-05 19:00

首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust

MLA-Trust 是首个针对图形用户界面（GUI）环境下多模态大模型智能体（MLAs）的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系，精心设计了 34 项高风险交互任务，横跨网页端与移动端双重测试平台，对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估，系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报

8585 点击 2025-07-05 13:02

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

8809 点击 2025-07-05 12:10

超CLIP准确率11%！伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器，从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择，在组合语义理解与长文本任务上观察到大幅提升。

来自主题: AI技术研报

8032 点击 2025-07-03 11:00