让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

8742点击 2025-10-29 17:10

DeepSeek-OCR这段时间非常火，但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”，而不是“跨设备跨后端”的通吃实现，因此无法直接在苹果设备上运行，对于Mac用户来说，在许多新模型诞生的第一时间，往往只能望“模”兴叹。得益于开源社区的探索，如今已有了可行路径，我在此基础上写了一个能让DeepSeek-OCR在Macos上跑起来的项目 DeepSeek-OCR_macOS。目前已开源，欢迎大家使用反馈。

https://github.com/xiumaoprompt/DeepSeek-OCR_macOS

基本介绍

DeepSeek-OCR_macOS 不仅仅是让模型能在Mac上“跑起来”，我希望提供的是一种“开箱即用”的、顺滑流畅的完整体验。

它是一个集成了以下特性的完整工作流：

一键式配置: 我编写了一个独创的setup.py自动化脚本。用户无需手动修改任何代码、处理复杂的路径问题或担心Python的导入错误，只需运行一个命令，脚本就会像一位贴心管家，引导你完成所有环境配置。
Gradio图形界面: 项目配备了简洁易用的Gradio Web UI，你只需要在浏览器中拖拽上传图片或PDF，点击按钮，即可获得高质量的OCR结果。
macOS兼容: 在 Apple Silicon 与 Intel 的 CPU 上稳定运行；提供 MPS（Apple GPU）实验性支持。
纯本地化运行: 所有计算都在你的本地设备上完成，完美保障了你的数据隐私和安全。项目的目标是：让在Mac上部署和使用DeepSeek-OCR，变得像安装一个普通软件一样简单。

操作流程：只需三步

项目把复杂的流程封装到了极致。你只需要跟随下面三个简单的步骤，就能在自己的Mac上运行起DeepSeek-OCR。

第一步：下载项目和模型

首先，你需要把项目代码和DeepSeek的官方模型克隆到本地。

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

# 1. 克隆项目

git clone https://github.com/xiumaoprompt/DeepSeek-OCR_macOS.git

cd DeepSeek-OCR_macOS

# 2. 克隆官方模型 (需要先安装 git-lfs)

git lfs install

git clone https://huggingface.co/deepseek-ai/DeepSeek-OCR

第二步：呼叫“管家” (运行自动化配置)

这是整个流程中最“神奇”的一步。运行我为你准备的setup.py脚本：

python setup.py

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

这位“管家”会启动一个交互式程序，一步步引导你：

找到模型：让你把刚刚下载的DeepSeek-OCR文件夹拖进终端，它会自动获取并验证路径。
施行“手术”：自动用我修改过的、兼容macOS的文件，替换掉模型中原有的核心脚本。
搭建“桥梁”：为你处理好Python的模块导入问题。
写入“记忆”：将模型路径永久记录在配置文件中。

你无需理解这背后的复杂原理，只需跟着提示按几下回车。

第三步：启动引擎！

当“管家”告诉你一切就绪后，你就可以安装依赖并启动Web UI了。

# 安装所有依赖

pip install -r pip-requirements.txt

# 启动Gradio应用

python -m macos_workflow.app

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

现在，打开浏览器，访问终端中显示的地址（如 http://127.0.0.1:7860），一个强大的本地OCR工具就在你面前了。

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

原理揭秘

从“无法运行”到“顺畅使用”，此项目的核心主要解决了一个核心问题：设备不兼容。

1.核心“手术”：修改`modeling_deepseekocr.py`

这是整个移植工作的核心。在huggingface上的原始代码充满了device='cuda'这样的硬编码，并且使用了一些在macOS的MPS后端上支持不佳或效率低下的数据类型（如bfloat16）。

“手术”主要包括：

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

解除设备绑定：将所有写死的'cuda'设备指定，改为了一个从配置文件读取的、动态的device变量。这样，代码就能自动适应'mps'或'cpu'。
数据类型适配：将一些在MPS上可能出错的数据类型（如torch.bfloat16）替换为更稳定、兼容性更广的torch.float32，确保模型能在不同硬件上稳定运行。
修正张量操作：确保所有参与计算的Tensor（张量）在进行运算前，都被正确地移动到了用户指定的设备上，避免了“张量不在同一设备”的常见PyTorch错误。

这个过程就像是把一个只习惯用右手写字的人，教会他如何用左手同样流利地书写。

写在最后

这个项目源于一个简单的个人需求，但它最终演变成了一个遵循开源精神的完整解决方案。如果你也对这个项目感兴趣，欢迎加群一起讨论！

文章来自于“Al修猫Prompt”，作者“Al修猫Prompt”。

关键词: AI , 模型训练 , DeepSeek-OCR , Mac AI部署

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

让你的Mac用上DeepSeek-OCR：一个从0到1的开源适配之旅

基本介绍

操作流程：只需三步

原理揭秘

1.核心“手术”：修改modeling_deepseekocr.py

写在最后

1.核心“手术”：修改`modeling_deepseekocr.py`