只要24GB 内存，能在本地 Mac上跑无限制的Gemma 4 31B了

8712点击 2026-05-10 11:39

有个31B参数的大模型，正常需要80GB显存才能跑。

但现在，24GB显存就能跑满血版。

对，就是一台普通MacBook Pro的显存水平。

这个版本叫Gemma-4-31B-JANG_4M-CRACK——"CRACK"这个词不要理解歪了，它本质是量化压缩加上对齐微调之后的部署版本，不是什么黑客攻击，就是工程优化。24GB，MacBook Pro，直接跑。苹果用户优先优化，MLX原生支持，月下载13000次。

说白了：Google做了一个很强的基础模型，但它对硬件要求太高，普通人的机器跑不动。现在有人把它压缩了，压到中高端Mac就能跑——而且压完之后MMLU还能保持在74.5%，只降了2%，几乎无损。

这个数字什么概念？知识理解能力基本没丢，但显存占用从80GB降到了24GB。你的Mac突然就从"跑不动大模型"变成了"能跑31B"。

为什么这次不一样

过去两年，每次聊本地部署大模型，评论区必有人问"Mac能不能跑"——现在答案是能。

Apple Silicon的统一内存架构让24GB统一内存的MacBook Pro成了最性价比的大模型机器。不是最贵的，但最刚好。CPU和GPU共享内存，不需要单独的显卡，不需要服务器，不需要云端——一台笔记本插电跑，就是这么简单。

31B是什么水平？它是目前开源社区最活跃的参数区间之一。足够大，能做复杂推理；又足够小，普通人还能摸到。Google最初发布Gemma 4的时候大家都在讨论，但都面临同一个问题：参数太大，Mac跑不动。现在这个问题被量化压缩解决了。

去限制版本是什么

说清楚一件事：这个版本去掉了Google原版的安全对齐层。

不是"破解"，是"去限制版本"——用于安全研究和模型评估。发布者说得很清楚：仅供研究用途，使用者自负法律责任。

那为什么有人要这个东西？因为安全研究员想知道Gemma的真实能力边界在哪。HarmBench的合规分数是"加了限制器之后跑出来的"，限制器本身会不会影响模型的能力上限？去限制版本才能回答这个问题。开发者想本地跑一个没有过多限制的模型做测试——这个需求100%合理。

所以月下载量是13000次——这不是"大量普通人在干坏事"，而是"技术社区在认真研究它"。真正需要这种去限制版本的，恰恰是做安全研究的人，不是普通人。

怎么跑

如果你在这几个群体里：安全研究员在评估模型能力边界、ML开发者在做本地测试、或只是想在自己Mac上试试大模型能做什么——HuggingFace上有完整的部署指南，MLX支持意味着可以用苹果官方工具链直接跑，不需要配置特殊环境，不需要命令行老手，参照文档一步步来就行。

链接：https://huggingface.co/dealignai/Gemma-4-31B-JANG_4M-CRACK

这不是大模型的终局，但可能是苹果用户本地跑大模型的开始。

24GB统一内存，31B参数，基本够用了——前提是你真的想折腾。

文章来自于微信公众号 "森森AI笔记"，作者 "森森AI笔记"

关键词: AI新闻 , Gemma 4 31B , Gemma-4-31B-JANG_4M-CRACK , 本地模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner