AI资讯新闻榜单内容搜索-llama.cpp

国产双开源：让Mac成为你的私人AI工作站

2026 年 3 月底，Ollama 发布了一则更新公告：其 Mac 版本的底层推理引擎，将从沿用多年的 llama.cpp 切换为苹果的 MLX 框架。

来自主题: AI技术研报

7898 点击 2026-05-06 15:19

几周前，我们发布了 jina-embeddings-v4 模型的 GGUF 版本，大幅降低了显存占用，提升了运行效率。不过，受限于 llama.cpp 上游版本的运行时，当时的 GGUF 模型只能当作文本向量模型使用而无法支持多模态向量的输出。

来自主题: AI技术研报

9585 点击 2025-09-20 09:42

T-MAC是一种创新的基于查找表（LUT）的方法，专为在CPU上高效执行低比特大型语言模型（LLMs）推理而设计，无需权重反量化，支持混合精度矩阵乘法（mpGEMM），显著降低了推理开销并提升了计算速度。

来自主题: AI资讯

7299 点击 2024-08-13 17:42