AI资讯新闻榜单内容搜索-训练

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

站在 2026 年的开端回望，LLM 的架构之争似乎进入了一个新的微妙阶段。过去几年，Transformer 架构以绝对的统治力横扫了人工智能领域，但随着算力成本的博弈和对推理效率的极致追求，挑战者们从未停止过脚步。

来自主题: AI技术研报

9452 点击 2026-01-14 15:25

国产Nano Banana开源！用华为AI芯片训练，1张图只要1毛钱

今天，首个在国产芯片上完成全程训练的SOTA（最佳水平）多模态模型开源。这是智谱联合华为开源的图像生成模型GLM-Image。从数据到训练的全流程，该模型完全基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成构建。

来自主题: AI资讯

9969 点击 2026-01-14 14:09

把RoPE扔掉，AI更能看懂长上下文！Transformer作者团队开源大模型预训练新方法

针对大模型长文本处理难题，Transformer架构的核心作者之一Llion Jones领导的研究团队开源了一项新技术DroPE。

来自主题: AI资讯

7995 点击 2026-01-14 10:49

AI4S又一瓶颈被攻克：两个AI「吵架」，让科研代码部署成功率突破95%

过去几十年里，科学计算领域积累了数量空前的开源软件工具。

来自主题: AI技术研报

10194 点击 2026-01-14 10:01

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

假如你是一个致力于将 AI 引入传统行业的工程团队。现在，你有一个问题：训练一个能看懂复杂机械图纸、设备维护手册或金融研报图表的多模态助手。这个助手不仅要能专业陪聊，更要能精准地识别图纸上的零件标注，或者从密密麻麻的财报截图中提取关键数据。

来自主题: AI技术研报

10456 点击 2026-01-13 16:38

向量数据库一定会消失：从 seekdb 看 OLTP 与 Vector 的原生融合。

故事得从我们那个行业交流群说起。

来自主题: AI技术研报

6539 点击 2026-01-13 16:37

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

“软工任务要改多文件、多轮工具调用，模型怎么学透？高质量训练数据稀缺，又怕轨迹含噪声作弊？复杂 RL 训练成本高，中小团队望而却步？”

来自主题: AI技术研报

5957 点击 2026-01-13 16:36

一个模型统一4D世界生成与重建，港科大One4D框架来了

近年来，视频扩散模型在 “真实感、动态性、可控性” 上进展飞快，但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频，却缺少对三维几何的显式建模。这让许多世界模型（world model）导向的应用（空间推理、具身智能、机器人、自动驾驶仿真等）难以落地，因为这些任务不仅需要像素，还需要完整地模拟 4D 世界。

来自主题: AI技术研报

8309 点击 2026-01-13 16:13

美团龙猫LongCat技术升级！新注意力机制解码速度快10倍，还能处理1M超长文本

256K文本预加载提速超50%，还解锁了1M上下文窗口。

来自主题: AI技术研报

9438 点击 2026-01-13 16:10

拆解AI黑箱，深度解读“机制可解释性”｜2026年十大突破性技术

现在，我们越来越多地将大语言模型应用于搜索、编程、内容生成和决策辅助等现实场景中。尽管每天有数百万人使用大模型，但它的问题也随之而来，例如有时会产生幻觉，甚至在特定情境下表现出误导或欺骗用户的倾向。

来自主题: AI资讯

8473 点击 2026-01-13 16:09