AI技术研报-这里有最前沿的人工智能技术解读

70年AI研究得出了《苦涩的教训》：为什么说AI创业也在重复其中的错误？

Ilya Sutskever 在 NeurIPS 会上直言：大模型预训练这条路可能已经走到头了。上周的 CES 2025，黄仁勋有提到，在英伟达看来，Scaling Laws 仍在继续，所有新 RTX 显卡都在遵循三个新的扩展维度：预训练、后训练和测试时间（推理），提供了更佳的实时视觉效果。

来自主题: AI技术研报

4225 点击 2025-02-05 13:38

DeepSeek无视电脑配置本地部署私人知识库，复刻自己解决问题的思维

能够给读者惊喜，一直都是我的特色。我探讨出来的解决方案，第一无需理会刚才说到的硬件问题、终端问题和容量问题，第二全程网页操作与客户端操作，第三完全免费且快速安全。

来自主题: AI技术研报

7398 点击 2025-02-05 13:33

ICLR 2025｜高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法 CityGaussianV2，能够在快速实现训练和压缩的同时，得到精准的几何结构与逼真的实时渲染体验。该论文已接受于 ICLR`2025，其代码也已同步开源。

来自主题: AI技术研报

5594 点击 2025-02-05 13:18

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

关注NLP领域的人们，一定好奇「语言模型能做什么？」「什么是o1？」「为什么思维链有效？」

来自主题: AI技术研报

5926 点击 2025-02-04 20:15

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

过年这几天，DeepSeek 算是彻底破圈了，火遍大江南北，火到人尽皆知。虽然网络版和 APP 版已经足够好用，但把模型部署到本地，才能真正实现独家定制，让 DeepSeek R1 的深度思考「以你为主，为你所用」。

来自主题: AI技术研报

6239 点击 2025-02-04 19:57

Go语言开发AI智能体有多丝滑？字节重磅开源Eino框架，内含保姆级教程

开发基于大模型的软件应用，就像指挥一支足球队：组件是能力各异的队员，编排是灵活多变的战术，数据是流转的足球。

来自主题: AI技术研报

5284 点击 2025-02-04 19:15

从零到一：3小时用Cursor魔改WebRTC直播画面实录

WebRTC（Web Real-Time Communication）是一个Google开源项目，允许浏览器/移动端直接进行实时音视频流传输，典型应用场景：视频会议、屏幕共享、文件传输、远程控制。

来自主题: AI技术研报

6053 点击 2025-02-04 14:02

字节跳动BitsAI-CR：基于LLM的代码审查系统技术揭秘

在人工智能浪潮席卷全球的今天，大语言模型 (LLM) 正在重塑软件开发流程。近日，字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节，展示了 AI 在提升企业研发效率方面的重要进展。

来自主题: AI技术研报

6618 点击 2025-02-03 18:01

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

7478 点击 2025-02-02 19:07

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

本研究探讨了LLM是否具备行为自我意识的能力，揭示了模型在微调过程中学到的潜在行为策略，以及其是否能准确描述这些行为。研究结果表明，LLM能够识别并描述自身行为，展现出行为自我意识。

来自主题: AI技术研报

6113 点击 2025-02-02 18:38

万字长文解读Scaling Law的一切，洞见LLM的未来

近日，资深机器学习研究科学家 Cameron R. Wolfe 更新了一篇超长的博客文章，详细介绍了 LLM scaling 的当前状况，并分享了他对 AI 研究未来的看法。

来自主题: AI技术研报

6124 点击 2025-02-02 17:39

线性扩散模型LiT来了，用极简线性注意力助力扩散模型AIPC时代端侧部署

香港大学联合上海人工智能实验室，华为诺亚方舟实验室提出高效扩散模型 LiT：探索了扩散模型中极简线性注意力的架构设计和训练策略。LiT-0.6B 可以在断网状态，离线部署在 Windows 笔记本电脑上，遵循用户指令快速生成 1K 分辨率逼真图片。

来自主题: AI技术研报

6417 点击 2025-02-01 18:37

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27 页综述，354 篇参考文献！史上最详尽的视觉定位综述，内容覆盖过去十年的视觉定位发展总结，尤其对最近 5 年的视觉定位论文系统性回顾，内容既涵盖传统基于检测器的视觉定位，基于 VLP 的视觉定位，基于 MLLM 的视觉定位，也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

来自主题: AI技术研报

6151 点击 2025-02-01 18:11

从2025年春节DeepSeek官网遭黑客攻击说起--AI狂飙暗流与安全对齐

2025年春节，正当千万人沉浸在团圆的喜悦中，DeepSeek，这家被誉为“中国版OpenAI”的AI明星企业，却迎来了有史以来最严重的安全危机：攻击规模：黑客发起了史无前例的3.2Tbps DDoS攻击，相当于每秒钟传输130部4K电影；

来自主题: AI技术研报

9839 点击 2025-02-01 16:02

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

来自主题: AI技术研报

6408 点击 2025-01-31 13:53

ModernBERT 为我们带来了哪些启示？

当谷歌在 2018 年推出 BERT 模型时，恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。

来自主题: AI技术研报

8105 点击 2025-01-31 12:34

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

首个FP4精度的大模型训练框架来了，来自微软研究院！

来自主题: AI技术研报

7186 点击 2025-01-30 15:11

了解GRPO，你可能会反思Deepseek R1的提示词方法，看AI顿悟《了凡四训》后的Aha时刻

"Deepseek R1不就是一个参数更大的语言模型吗？随便问问题就行了，还需要什么特殊技巧？"——当你说出这句话时，是否意识到自己正像《西游记》里高举紫金葫芦的妖怪，对着齐天大圣叫嚣："我叫你的名字，你敢答应吗？"

来自主题: AI技术研报

9078 点击 2025-01-30 13:53

最新研究揭示AI数据之殇：科技巨头垄断权力，「西方中心」数据加剧模型偏见

相比LLM和Agent领域日新月异、高度成熟的进展相比，数据收集方面的规范有明显滞后。由超过50名研究人员组成的「数据溯源计划」（DPI）旨在回答这样一个问题：AI训练所需的数据究竟来自何处？

来自主题: AI技术研报

5830 点击 2025-01-30 13:00

UC伯克利等最新实锤：LLM就是比人类啰嗦，「提问的艺术」仍难参透

基于一段文本提问时，人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题，而人类倾向于提出更直接、基于事实的问题。

来自主题: AI技术研报

4721 点击 2025-01-29 13:32

原来，这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外，知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。

来自主题: AI技术研报

7919 点击 2025-01-29 13:26

医疗具身智能发展到哪了？看这一篇综述就够了！

由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线，中南大学刘艺灏为第一作者

来自主题: AI技术研报

4926 点击 2025-01-29 13:18

超全推理语言模型蓝图来了！揭开o1、o3、DeepSeek-V3神秘面纱

ETH Zurich等机构提出了推理语言模型（RLM）蓝图，超越LLM局限，更接近AGI，有望人人可用o3这类强推理模型。

来自主题: AI技术研报

6834 点击 2025-01-28 12:20

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型，能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解，预测下一个scale完成视觉生成，展现出强大的混合模态输入输出能力。

来自主题: AI技术研报

6785 点击 2025-01-28 12:07

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

知识蒸馏通过训练一个紧凑的学生模型来模仿教师模型的 Logits 或 Feature Map，提高学生模型的准确性。迁移学习则通常通过预训练和微调，将预训练阶段在大规模数据集上学到的知识通过骨干网络共享应用于下游任务。

来自主题: AI技术研报

3670 点击 2025-01-28 11:57

CityDreamer4D: 下一个世界模型，何必是视频生成模型？

在过去的两年里，城市场景生成技术迎来了飞速发展，一个全新的概念 ——世界模型（World Model）也随之崛起。当前的世界模型大多依赖 Video Diffusion Models（视频扩散模型）强大的生成能力，在城市场景合成方面取得了令人瞩目的突破。然而，这些方法始终面临一个关键挑战：如何在视频生成过程中保持多视角一致性？

来自主题: AI技术研报

5148 点击 2025-01-28 11:53