AI资讯新闻榜单内容搜索-大模型

CVPR 2026 | 别卷推理了！当前大模型 STEM 短板在于「视觉感知」，代码才是破局关键

当多模态大语言模型（MLLMs）在面对科学、技术、工程和数学（STEM）领域的视觉推理题时频频「翻车」，一个根本性的问题摆在了所有研究者面前：大模型做不出理科题，究竟是因为「脑子笨」（推理能力受限），还是因为「眼神差」（视觉感知缺陷）？

来自主题: AI技术研报

7149 点击 2026-05-11 16:08

大模型自信且短视！Next-ToBE破除Next Token预测诅咒 | ICLR'26

大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标，让模型在每一步预测时兼顾未来token分布，从而提升整体推理能力。

来自主题: AI技术研报

6915 点击 2026-05-11 09:03

中国移动与火山引擎共推机密模型服务模式，让企业更安全的使用大模型！

2026移动云大会，中国移动和火山引擎，一个运营商国家队，一个AI圈顶流，共同宣布了一个叫「机密大模型」的服务模式。

来自主题: AI资讯

10849 点击 2026-05-11 09:03

告别Prompt抽卡和评分通胀：一个让AI游戏真正「机制化迭代」的框架

让大模型写一个小游戏，已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面，甚至还能补上按钮、分数和简单动画。但真正的问题是：这些游戏到底有没有新的玩法？它们是在创造，亦或只是把已有游戏换了一层皮？

来自主题: AI技术研报

10730 点击 2026-05-11 09:02

怎么判断大模型是真懂还是假懂？浙大x爱丁堡大学新指标NCB：给它的知识邻域也打分

当大模型看起来很自信时，它真的“相信”自己说的话吗？

来自主题: AI技术研报

7406 点击 2026-05-11 09:01

只要24GB 内存，能在本地 Mac上跑无限制的Gemma 4 31B了

有个31B参数的大模型，正常需要80GB显存才能跑。但现在，24GB显存就能跑满血版。这个版本叫Gemma-4-31B-JANG_4M-CRACK——"CRACK"这个词不要理解歪了，它本质是量化压缩加上对齐微调之后的部署版本，不是什么黑客攻击，就是工程优化。24GB，MacBook Pro，直接跑。苹果用户优先优化，MLX原生支持，月下载13000次。

来自主题: AI资讯

9735 点击 2026-05-10 11:39

蚂蚁万亿参数思考模型Ring-2.6-1T来了！实测AIME真题难不倒，会写爽文、规划出行

今天，蚂蚁百灵大模型发布Ring-2.6-1T。这是一款面向真实复杂任务场景的万亿级思考模型，目前已上线OpenRouter，并开放限时一周免费体验，后续将正式开源。Ring-2.6-1T加入了可调节的Reasoning Effort机制。开发者可以在high和xhigh两种推理强度之间选择：high面向Agent、Coding、多步工具调用等高频任务

来自主题: AI资讯

9801 点击 2026-05-09 21:30

大模型不认识马嘉祺？我们做了一次全链路排查

MiniMax M2 系列受到了开发者社区的广泛关注，不少用户在深度使用中发现了一些个例问题，其中“模型无法说出马嘉祺”这个问题引发了较多讨论。我们也注意到，社区中有不少开发者对这个现象进行了高质量

来自主题: AI技术研报

9689 点击 2026-05-09 10:35

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA），撬开这个黑箱。

来自主题: AI技术研报

9829 点击 2026-05-08 14:33

170亿！阶跃星辰即将完成中国大模型最大融资

据消息人士透露，阶跃星辰将完成近25亿美元（约合人民币170亿元）融资，并已拆除红筹架构，加速筹备赴港IPO，或将成为智谱、MiniMax之外又一家赴港上市的国产大模型公司。

来自主题: AI资讯

10585 点击 2026-05-08 14:12