AI资讯新闻榜单内容搜索-deepseek

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: deepseek
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

来自主题: AI资讯
8493 点击    2026-02-10 16:27
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。

来自主题: AI技术研报
8760 点击    2026-02-10 14:19
ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

2025 年 1 月 20 日,DeepSeek 发布了推理大模型 DeepSeek-R1,在学术界和工业界引发了对大模型强化学习方法的广泛关注与研究热潮。 研究者发现,在数学推理等具有明确答案的任务

来自主题: AI技术研报
6016 点击    2026-02-08 11:52
曝DeepSeek春节不发大招,友商疯狂偷家

曝DeepSeek春节不发大招,友商疯狂偷家

曝DeepSeek春节不发大招,友商疯狂偷家

就在刚刚,据《南华早报》援引知情人士最新消息,智谱 AI 计划在未来两周内,也就是春节前发布其新旗舰模型 GLM-5。与此同时,MiniMax 也预计将于春节前发布 M2.2 模型,这是在原有 M2.1 基础上进行的小幅更新,重点提升编程能力。

来自主题: AI资讯
13374 点击    2026-02-02 23:07
开源免费!推荐一款基于DeepSeek大模型RAG知识库与知识图谱平台,打通飞书、企业微信、钉钉

开源免费!推荐一款基于DeepSeek大模型RAG知识库与知识图谱平台,打通飞书、企业微信、钉钉

开源免费!推荐一款基于DeepSeek大模型RAG知识库与知识图谱平台,打通飞书、企业微信、钉钉

语析Yuxi-Know 是基于大模型RAG知识库与知识图谱技术构建的智能问答平台,支持多种知识库文件格式,如PDF、TXT、MD、Docx,支持将文件内容转换为向量存储,便于快速检索。

来自主题: AI技术研报
5304 点击    2026-02-02 13:23
字节阿里DeepSeek决战春节:一场关乎14亿人的重磅AI大战

字节阿里DeepSeek决战春节:一场关乎14亿人的重磅AI大战

字节阿里DeepSeek决战春节:一场关乎14亿人的重磅AI大战

这个春节,中国 AI 迎来「决战时刻」。据《The Information》援引内部消息人士透露:字节或将祭出全模态三件套;阿里除了或将发布强大的全新旗舰模型 Qwen 3.5 外,也会让千问打通支付与电商,挑战豆包;DeepSeek V4 或将携最强代码能力突袭。这不仅是技术竞赛,更是对 14 亿用户生活入口与未来互联网秩序的终极争夺。

来自主题: AI资讯
7980 点击    2026-01-30 19:21
Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

没想到吧,Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力:Agentic Vision(智能体视觉)。(难道是被DeepSeek-OCR2给刺激到了?)

来自主题: AI资讯
9494 点击    2026-01-28 18:06