AI资讯新闻榜单内容搜索-DeepSeek-V

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

来自主题: AI技术研报

9257 点击 2025-08-08 11:52

万亿参数狂欢！一文刷爆2025年七大顶流大模型架构

从GPT-2到DeepSeek-V3和Kimi K2，架构看似未变，却藏着哪些微妙升级？本文深入剖析2025年顶级开源模型的创新技术，揭示滑动窗口注意力、MoE和NoPE如何重塑效率与性能。

来自主题: AI技术研报

8922 点击 2025-08-04 12:05

为什么 DeepSeek 大规模部署很便宜，本地很贵

为什么 DeepSeek-V3 据说在大规模服务时快速且便宜，但本地运行时却太慢且昂贵？为什么有些 AI 模型响应很慢，但一旦开始运行就变得很快？

来自主题: AI技术研报

9713 点击 2025-07-08 11:14

14种主流Prompt技术，顶级团队2000次实验，只有这几种真能打

现在市面上有46种Prompt工程技术，但真正能在软件工程任务中发挥作用的，可能只有那么几种。来自巴西联邦大学、加州大学尔湾分校等顶级院校的研究者们，花了大量时间和计算资源，调研了58种，整理了46种，最终筛选测试了14种主流提示技术在10个软件工程任务上的表现，用了4个不同的大模型（包括咱们的Deepseek-V3），总共跑了2000多次实验。

来自主题: AI技术研报

11730 点击 2025-06-11 11:51

换模型就得重新优化提示词？用下MetaSPO，专门优化系统提示的Meta-Learning框架 | 最新

每次更换语言模型就要重新优化提示词？资源浪费且效率低下！本文介绍MetaSPO框架，首个专注模型迁移系统提示优化的元学习方法，让一次优化的提示可跨模型通用。我在儿童教育场景的实验验证了效果：框架自动生成了五种不同教育范式的系统提示，最优的"苏格拉底式"提示成功由DeepSeek-V3迁移到通义千问模型，评分从0.3920提升至0.4362。

来自主题: AI技术研报

8482 点击 2025-05-19 10:11