AI技术研报-这里有最前沿的人工智能技术解读

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

在当今的人工智能领域，Transformer 模型已成为解决诸多自然语言处理任务的核心。然而，Transformer 模型在处理长文本时常常遇到性能瓶颈。传统的位置编码方法，如绝对位置编码（APE）和相对位置编码（RPE），虽然在许多任务中表现良好，但其固定性限制了其在处理超长文本时的适应性和灵活性。

来自主题: AI技术研报

8520 点击 2024-10-12 14:29

李飞飞：不要数字孪生，要数字表兄弟，一张照片生成机器人训练场景

不百分百还原出虚拟场景，效果反而更好。

来自主题: AI技术研报

8170 点击 2024-10-12 14:22

米开朗基罗怎么说？谷歌DeepMind推出长上下文评估新框架

近日，来自谷歌DeepMind的研究人员提出了Michelangelo，「用米开朗基罗的观点」来测量任意上下文长度的基础模型性能。

来自主题: AI技术研报

5272 点击 2024-10-12 11:07

NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

本文是一篇发表在 NeurIPS 2024 上的论文，单位是香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。论文主要探讨了大型语言模型（LLMs）的词表大小对模型性能的影响。

来自主题: AI技术研报

8315 点击 2024-10-11 13:55

苏姿丰2小时激情演讲！发布AMD最强AI芯片，旗舰CPU单颗10万，OpenAI微软都来站台

猛，实在是猛！就在今日，老牌芯片巨头AMD交出了一份令人印象深刻的AI答卷。

来自主题: AI技术研报

8577 点击 2024-10-11 11:37

首个AI Kaggle特级大师诞生，o1夺7金封王！OpenAI放出AGI大招：L3级智能体明年要来？

OpenAI即将要兑现L3级智能体承诺了！MLE-bench新基准汇聚75个Kaggle竞赛，o1首测便拿下7金，多次尝试性能还能飙升17%，堪称首个AI Kaggle特级大师。

来自主题: AI技术研报

8176 点击 2024-10-11 11:14

诺贝尔文学奖要颁给ChatGPT？奥特曼得奖呼声高，Hinton怒斥：他不配！

本届诺奖的AI含量，实在是过高了！今晚的文学奖会颁给ChatGPT或者奥特曼吗？已经有一大波网友下注了。另一边，Hinton已经炮轰起了奥特曼，力挺Ilya当初赶走他；而LSTM之父则怒斥Hinton不配诺奖。

来自主题: AI技术研报

9002 点击 2024-10-10 19:02

NeurIPS 2024｜SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

该研究主要探讨了大语言模型的全局剪枝方法，旨在提高预训练语言模型的效率。该成果的发表为大模型的剪枝与优化研究提供了新的视角，并在相关领域具有重要的应用潜力。

来自主题: AI技术研报

6438 点击 2024-10-10 17:17

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构Differential Transformer，从注意力模块入手，实现了Transformer的核心能力提升。

来自主题: AI技术研报

9453 点击 2024-10-10 14:24

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

来自主题: AI技术研报

10084 点击 2024-10-10 12:21

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

Transformer 的强大实力已经在诸多大型语言模型（LLM）上得到了证明，但该架构远非完美，也有很多研究者致力于改进这一架构，比如机器之心曾报道过的 Reformer 和 Infini-Transformer。

来自主题: AI技术研报

7780 点击 2024-10-10 12:15

上交大发布首个OpenAI o1复现项目进展报告，满满的经验洞察

在人工智能领域掀起巨浪的 OpenAI o1 模型发布三周后，一支由高校年轻研究者组成的团队今天发布了题为 "o1 Replication Journey: A Strategic Progress Report (o1 探索之旅：战略进展报告)" 的研究进展报告。

来自主题: AI技术研报

6578 点击 2024-10-09 12:55

重要的事情说两遍！Prompt「复读机」，显著提高LLM推理能力

众所周知，人类的本质是复读机。我们遵循复读机的自我修养：敲黑板，划重点，重要的事情说三遍。 but，事实上同样的方法对付AI也有奇效！

来自主题: AI技术研报

4678 点击 2024-10-08 18:54

陈丹琦等人组织的COLM奖项公布：被ICLR拒稿的Mamba入选杰出论文

会议组织者都是 NLP 头部科学家，在语言建模方面有着相当的成果。

来自主题: AI技术研报

9899 点击 2024-10-08 17:48

「乘法变加法」！MIT清华校友全新方法优化Transformer：Addition is All You Need

Transformer计算，竟然直接优化到乘法运算了。MIT两位华人学者近期发表的一篇论文提出：Addition is All You Need，让LLM的能耗最高降低95%。

来自主题: AI技术研报

5311 点击 2024-10-08 17:32

TPAMI | 安全强化学习方法、理论与应用综述，慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战，尤其是如何保证系统的安全性。为了解决这一问题，安全强化学习（Safe Reinforcement Learning, Safe RL）应运而生，成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报

5248 点击 2024-10-08 17:23

重磅：Mila和谷歌DeepMind以及微软联合发布，并非所有LLM推理者都具备相同能力

Mila、谷歌DeepMind和微软的研究团队近期联合发布了一项重要研究成果，揭示了LLM在推理能力上存在的显著差异。这项研究不仅挑战了我们对LLM推理能力的认知，也提醒我们在开发AI应用时，LLM的选择上要多考虑一些因素，尤其是需要注意Prompt的敏感性和一致性。

来自主题: AI技术研报

5498 点击 2024-10-07 16:19

破解大模型“黑盒”问题？DeepMind科学家联手，试图提高生成式AI的可解释性

Goodfire于2024年在旧金山成立，研发用于提高生成式AI模型内部运作可观察性的开发工具，希望提高AI系统的透明度和可靠性，帮助开发者更好地理解和控制AI模型。

来自主题: AI技术研报

5917 点击 2024-10-07 14:35

ECCV 2024 | 新梦幻场景生成方法，高质量、视角一致、可编辑3D场景

来自中国科学技术大学数据空间研究中心、香港科技大学、香港理工大学以及奥胡斯大学的研究者们提出一种新的场景生成方法 DreamScene，只需要提供场景的文本就可以生成高质量，视角一致和可编辑的 3D 场景。

来自主题: AI技术研报

6591 点击 2024-10-07 14:29

ECCV 2024 | 像ChatGPT一样，聊聊天就能实现三维场景编辑

chatGPT，AI，AI 3D，CE3D，扩散模型

来自主题: AI技术研报

8547 点击 2024-10-05 13:35

Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑

视频生成领域真是越来越卷且越来越迈向实用性！

来自主题: AI技术研报

7569 点击 2024-10-05 13:26

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

OpenAI的o1模型在通用语言任务上展现了显著的性能，最新测评展现了o1模型在医学领域的表现，主要关注理解、推理和多语言能力，结果大幅超越以往的模型！

来自主题: AI技术研报

10600 点击 2024-10-04 19:27

5秒内快速生成、直出工业级PBR资产，三维扩散模型3DTopia-XL开源

是否还在苦恼于开源图生 / 文生三维模型无法直接嵌入到 CG 工作流中？是否在寻找具备高质量几何与物理材质的三维生成大模型？

来自主题: AI技术研报

8687 点击 2024-10-04 19:05

ECCV'24论文提出跨域小样本物体检测新数据集｜已开源

解决跨域小样本物体检测问题，入选ECCV 2024。

来自主题: AI技术研报

11124 点击 2024-10-02 11:56

非Transformer架构新模型爆火，从第一性原理出发，MIT CSAIL衍生团队打造

挑战Transformer，MIT初创团队推出LFM（Liquid Foundation Model）新架构模型爆火。

来自主题: AI技术研报

10412 点击 2024-10-02 11:48

J.P. Morgan 2024年AI技术与行业发展研究总结（中文翻译）

摩根大通（J.P. Morgan）在2024年9月发布“Investable AI Summary of J.P. Morgan research and industry developments in 2024”关于人工智能（AI）2024年的研究和行业发展总结。

来自主题: AI技术研报

9073 点击 2024-10-02 11:43

一手训练，多手应用：国防科大提出灵巧手抓取策略迁移新方案

在机器人研究领域，抓取任务始终是机器人操作中的一个关键问题。这项任务的核心目标是控制机械手移动到合适位置，并完成对物体的抓取。近年来，基于学习的方法在提高对不同物体的抓取的泛化能力上取得了显著进展，但针对机械手本身，尤其是复杂的灵巧手（多指机械手）之间的泛化能力仍然缺乏深入研究。由于灵巧手在不同形态和几何结构上存在显著差异，抓取策略的跨手转移一直存在挑战。

来自主题: AI技术研报

10891 点击 2024-10-01 14:31