AI资讯新闻榜单内容搜索-大模型训练

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？

来自主题: AI技术研报

8237 点击 2025-03-04 10:08

卷赢大模型训练成本之后，DeepSeek正在重塑全球AI竞争格局。

来自主题: AI资讯

7591 点击 2025-02-22 16:28

36氪获悉，具身智能创业公司“自变量机器人（X Square Robot）”完成数亿元Pre-A++轮融资。本轮融资由光速光合与君联资本领投、北京机器人产业基金、神骐资本跟投。融资将用于下一代统一具身智能通用大模型的训练与场景落地。

来自主题: AI资讯

5011 点击 2025-02-18 10:00

首个FP4精度的大模型训练框架来了，来自微软研究院！

来自主题: AI技术研报

7232 点击 2025-01-30 15:11

12月31日，上海高级别自动驾驶引领区数据采集车发车仪式在上海浦东举行，30辆全新的智己L6数据采集车盛装列队并集中发车。上海正谋划打造人工智能“模塑申城”，建设高级别自动驾驶引领区，按照“单车智能为基础，车路云协同为关键支撑”技术路线，持续推动上海智能网联汽车产业生态培育。

来自主题: AI资讯

7062 点击 2025-01-02 13:27

DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。

来自主题: AI技术研报

6719 点击 2024-12-28 11:19

枢途科技（深圳）有限公司（以下简称「枢途科技」）近日完成数百万元天使轮融资，本轮由奇绩创坛投资，主要用于多模态大模型训练迭代、通用复合机器人结构升级等技术与产品的研发和交付。

来自主题: AI资讯

7204 点击 2024-11-30 16:05

只要改一行代码，就能让大模型训练效率提升至1.47倍。

来自主题: AI技术研报

5709 点击 2024-11-27 14:25

网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算，它可以帮你预订酒店。既拥有海量常识，又能做长期规划的大语言模型（LLM），自然成为了智能体常用的基础模块。

来自主题: AI技术研报

3697 点击 2024-11-06 15:34

近年来，大语言模型（Large Language Models, LLMs）的研究取得了重大进展，并对各个领域产生了深远影响。然而，LLMs的卓越性能来源于海量数据的大规模训练，这导致LLMs的训练成本明显高于传统模型。

来自主题: AI技术研报

3433 点击 2024-11-01 10:15