AI资讯新闻榜单内容搜索-训练

一文看懂LLM推理，UCL汪军教授解读OpenAI ο1的相关方法

OpenAI 最近发布的 o1 系列模型堪称迈向强人工智能的一次飞跃，其强大的推理能力为我们描绘出了下一代人工智能模型的未来图景。近日，伦敦大学学院（UCL）人工智能中心汪军教授撰写了一份「LLM 推理教程」，深入详细地介绍了 OpenAI ο1 模型背后的相关方法。

来自主题: AI资讯

4495 点击 2024-10-11 14:42

NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

本文是一篇发表在 NeurIPS 2024 上的论文，单位是香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。论文主要探讨了大型语言模型（LLMs）的词表大小对模型性能的影响。

来自主题: AI技术研报

8231 点击 2024-10-11 13:55

NeurIPS 2024｜SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

该研究主要探讨了大语言模型的全局剪枝方法，旨在提高预训练语言模型的效率。该成果的发表为大模型的剪枝与优化研究提供了新的视角，并在相关领域具有重要的应用潜力。

来自主题: AI技术研报

6410 点击 2024-10-10 17:17

CMU副教授：在多智能体流行的当下，不要忽视单智能体系统

「多智能体系统」是人工智能领域最热门的流行词之一，也是开源框架 MetaGPT 、 Autogen 等研究的焦点。但是，多智能体系统就一定是完美的吗近日，来自卡内基梅隆大学的副教授 Graham Neubig 在文章《Don't Sleep on Single-agent Systems》中强调了单智能体系统也不可忽视。

来自主题: AI资讯

6205 点击 2024-10-10 17:06

ChatGPT幕后大佬、o1推理模型作者官宣离职！OpenAI大洗牌，后训练团队换将

就在刚刚，又一位元老级人物官宣离职OpenAI了。 o1推理模型贡献者之一Luke Metz发文称，「我即将离开OpenAI，结束这段超过两年的奇妙旅程」。

来自主题: AI资讯

5605 点击 2024-10-10 16:58

OpenAI获英伟达B200最强超算！GPT-5训练无底洞，微软算力却严重不足

继首台DGX H200之后，OpenAI再次收到了英伟达的首批工程版DGX B200。外媒爆料称，由于微软提供算力不足，OpenAI正与甲骨文开始谈判了。

来自主题: AI资讯

9854 点击 2024-10-10 14:35

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构Differential Transformer，从注意力模块入手，实现了Transformer的核心能力提升。

来自主题: AI技术研报

9417 点击 2024-10-10 14:24

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

来自主题: AI技术研报

10025 点击 2024-10-10 12:21

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

Transformer 的强大实力已经在诸多大型语言模型（LLM）上得到了证明，但该架构远非完美，也有很多研究者致力于改进这一架构，比如机器之心曾报道过的 Reformer 和 Infini-Transformer。

来自主题: AI技术研报

7746 点击 2024-10-10 12:15

开发者火冒三丈炮轰GenAI：垃圾语料太多，模型正在变得越来越笨

生成式AI（GenAI），尤其是以OpenAI的ChatGPT为代表，人们发现，这些大模型在一年多后的性能表现远不及刚发布时那样令人惊艳了。

来自主题: AI资讯

4924 点击 2024-10-08 18:59