AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展,据业内人士分析披露,其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程,o1 基于现有大语言模型的强大推理能力,生成合理的推理过程,并将这些推理融入到其强化学习训练过程中。

来自主题: AI技术研报
9428 点击    2024-10-26 17:01
在Claude 3.5 Sonnet之前,这些AI Agent已能像人类一样操作电脑

在Claude 3.5 Sonnet之前,这些AI Agent已能像人类一样操作电脑

在Claude 3.5 Sonnet之前,这些AI Agent已能像人类一样操作电脑

这两天,Claude 3.5 Sonnet升级版刷爆了朋友圈,满屏都是:它能像人一样操作电脑。 大语言模型(Large Language Model,LLM)能够像人一样操作电脑这件事,看起来蛮炸裂的,但在AI Agent圈子里早已经见多不怪了。

来自主题: AI技术研报
4758 点击    2024-10-25 16:40
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

哈佛大学研究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在面对争议性或信息不足的主题时则容易产生误导性的回答。

来自主题: AI资讯
4132 点击    2024-10-25 14:51
7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

Zamba2-7B是一款小型语言模型,在保持输出质量的同时,通过创新架构实现了比同类模型更快的推理速度和更低的内存占用,在图像描述等任务上表现出色,能在各种边缘设备和消费级GPU上高效运行。

来自主题: AI技术研报
4249 点击    2024-10-25 11:06
Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

现如今,大型语言模型(LLM)生成的内容已经充斥了整个互联网,并且这些模型还能模仿各种类似真人的语气和行文风格,让人难以分辨眼前的文本究竟来自人类还是 AI。

来自主题: AI技术研报
2726 点击    2024-10-24 15:37
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

TL;DR:DuoAttention 通过将大语言模型的注意力头分为检索头(Retrieval Heads,需要完整 KV 缓存)和流式头(Streaming Heads,只需固定量 KV 缓存),大幅提升了长上下文推理的效率,显著减少内存消耗、同时提高解码(Decoding)和预填充(Pre-filling)速度,同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报
3683 点击    2024-10-24 11:33
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
4438 点击    2024-10-22 14:38
深度|如何最大化 GPU 利用效率,让 ROI 最大化?

深度|如何最大化 GPU 利用效率,让 ROI 最大化?

深度|如何最大化 GPU 利用效率,让 ROI 最大化?

前不久在人工智能的帮助下,两位科学家获得了诺贝尔物理学奖。可以说人工智能已经在很多领域被广泛应用了。随着大语言模型(LLM)和深度学习的广泛应用,GPU 也已成为机器学习工程师和研究人员最重要的计算资源之一。

来自主题: AI资讯
7459 点击    2024-10-21 14:14
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

大型语言模型(LLMs)虽然在适应新任务方面取得了长足进步,但它们仍面临着巨大的计算资源消耗,尤其在复杂领域的表现往往不尽如人意。

来自主题: AI技术研报
4377 点击    2024-10-20 16:58
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了

132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了

132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了

牛顿没解决的问题,AI给你解决了? AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一,能否解决高级的数学问题,无疑是衡量语言模型推理水平的一把尺。

来自主题: AI技术研报
3944 点击    2024-10-20 16:41