AI资讯新闻榜单内容搜索-模型

线性扩散模型LiT来了，用极简线性注意力助力扩散模型AIPC时代端侧部署

香港大学联合上海人工智能实验室，华为诺亚方舟实验室提出高效扩散模型 LiT：探索了扩散模型中极简线性注意力的架构设计和训练策略。LiT-0.6B 可以在断网状态，离线部署在 Windows 笔记本电脑上，遵循用户指令快速生成 1K 分辨率逼真图片。

来自主题: AI技术研报

8537 点击 2025-02-01 18:37

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27 页综述，354 篇参考文献！史上最详尽的视觉定位综述，内容覆盖过去十年的视觉定位发展总结，尤其对最近 5 年的视觉定位论文系统性回顾，内容既涵盖传统基于检测器的视觉定位，基于 VLP 的视觉定位，基于 MLLM 的视觉定位，也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

来自主题: AI技术研报

7981 点击 2025-02-01 18:11

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150+天才集结，开出千万年薪

外媒SemiAnalysis的一篇深度长文，全面分析了DeepSeek背后的秘密——不是「副业」项目、实际投入的训练成本远超600万美金、150多位高校人才千万年薪，攻克MLA直接让推理成本暴降......

来自主题: AI资讯

9826 点击 2025-02-01 13:49

首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

就在刚刚，OpenAI深夜紧急发布了最新推理模型，o3-mini系列。一共包含三个版本：low、medium和high。其中o3-mini和o3-mini-high已经上线：

来自主题: AI资讯

11282 点击 2025-02-01 12:39

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

来自主题: AI技术研报

8653 点击 2025-01-31 13:53

ModernBERT 为我们带来了哪些启示？

当谷歌在 2018 年推出 BERT 模型时，恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。

来自主题: AI技术研报

9879 点击 2025-01-31 12:34

Fullmoon 可以在完全断网的情况下在苹果手机上使用AI 大语言模型

1月13日Mainframe公司发布了可以离线运行在苹果系统（Mac，iPad，iPhone）的本地大语言模型fullmoon: local intelligence

来自主题: AI资讯

8117 点击 2025-01-30 18:05

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

首个FP4精度的大模型训练框架来了，来自微软研究院！

来自主题: AI技术研报

9240 点击 2025-01-30 15:11

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

2025 年伊始，全球 AI 业界被 DeepSeek 刷屏。当 OpenAI 宣布 5000 亿美元的「星际之门」计划，Meta 在建规模超 130 万 GPU 的数据中心时，这个来自中国的团队打破了大模型军备竞赛的既定逻辑：用 2048 张 H800 GPU，两个月训练出了一个媲美全球顶尖水平的模型。

来自主题: AI资讯

7975 点击 2025-01-30 14:58

了解GRPO，你可能会反思Deepseek R1的提示词方法，看AI顿悟《了凡四训》后的Aha时刻

"Deepseek R1不就是一个参数更大的语言模型吗？随便问问题就行了，还需要什么特殊技巧？"——当你说出这句话时，是否意识到自己正像《西游记》里高举紫金葫芦的妖怪，对着齐天大圣叫嚣："我叫你的名字，你敢答应吗？"

来自主题: AI技术研报

11786 点击 2025-01-30 13:53