AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

造大模型的成本,又被打下来了!这次是数据量狂砍95%的那种。陈丹琦团队最新提出大模型降本大法——数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。

来自主题: AI技术研报
4023 点击    2024-02-10 13:15
ICLR 2024 | 单图三维重建数字虚拟人,浙大&字节提出Real3D-Portrait算法

ICLR 2024 | 单图三维重建数字虚拟人,浙大&字节提出Real3D-Portrait算法

ICLR 2024 | 单图三维重建数字虚拟人,浙大&字节提出Real3D-Portrait算法

单图 3D 说话人视频合成 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技术。它旨在从单张图片中重建出目标人的三维化身 (3D Avatar)

来自主题: AI技术研报
3447 点击    2024-02-10 13:06
谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。

来自主题: AI技术研报
5223 点击    2024-02-10 13:02
ICLR 2024 | 首个零阶优化深度学习框架,MSU联合LLNL提出DeepZero

ICLR 2024 | 首个零阶优化深度学习框架,MSU联合LLNL提出DeepZero

ICLR 2024 | 首个零阶优化深度学习框架,MSU联合LLNL提出DeepZero

今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的一篇关于零阶优化深度学习框架的文章 ,本文被 ICLR 2024 接收,代码已开源。

来自主题: AI技术研报
5163 点击    2024-02-09 14:11
进我的收藏夹吃灰吧:大模型加速超全指南来了

进我的收藏夹吃灰吧:大模型加速超全指南来了

进我的收藏夹吃灰吧:大模型加速超全指南来了

2023 年,大型语言模型(LLM)以其强大的生成、理解、推理等能力而持续受到高度关注。然而,训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。

来自主题: AI技术研报
4343 点击    2024-02-09 14:05
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜

混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。

来自主题: AI技术研报
5057 点击    2024-02-09 13:54
「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

AI大模型并非越大越好?过去一个月,关于大模型变小的研究成为亮点,通过模型合并,采用MoE架构都能实现小模型高性能。

来自主题: AI技术研报
5586 点击    2024-02-09 12:11
GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

谷歌&南加大推出最新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。

来自主题: AI技术研报
4873 点击    2024-02-08 19:44
7B开源数学模型干翻千亿GPT-4,中国团队出品

7B开源数学模型干翻千亿GPT-4,中国团队出品

7B开源数学模型干翻千亿GPT-4,中国团队出品

7B开源模型,数学能力超过了千亿规模的GPT-4!它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。

来自主题: AI技术研报
5268 点击    2024-02-08 13:30
小白也能看懂的国内外 AI 芯片概述

小白也能看懂的国内外 AI 芯片概述

小白也能看懂的国内外 AI 芯片概述

随着越来越多的企业将人工智能应用于其产品,AI芯片需求快速增长,市场规模增长显著。因此,本文主要针对目前市场上的AI芯片厂商及其产品进行简要概述。

来自主题: AI技术研报
11978 点击    2024-02-07 11:49
通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。

来自主题: AI技术研报
10544 点击    2024-02-06 15:04
三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法

现有的语义分割技术在评估指标、损失函数等设计上都存在缺陷,研究人员针对相关缺陷设计了全新的损失函数、评估指标和基准,在多个应用场景下展现了更高的准确性和校准性。

来自主题: AI技术研报
3541 点击    2024-02-06 14:47
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

最近,复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现,GPT-4 Agent规划旅行只有0.6%成功率!离在人类复杂环境中做出规划,智能体还任重道远。

来自主题: AI技术研报
9312 点击    2024-02-06 14:37
RECURRENTGPT: 交互式生成(任意的)长文本

RECURRENTGPT: 交互式生成(任意的)长文本

RECURRENTGPT: 交互式生成(任意的)长文本

Transformer的固定尺寸上下文使得GPT模型无法生成任意长的文本。在本文中,我们介绍了RECURRENTGPT,一个基于语言的模拟RNN中的递归机制。

来自主题: AI技术研报
5481 点击    2024-02-06 12:51
MiniCPM:揭示端侧大语言模型的无限潜力

MiniCPM:揭示端侧大语言模型的无限潜力

MiniCPM:揭示端侧大语言模型的无限潜力

MiniCPM 是一系列端侧语言大模型,主体语言模型 MiniCPM-2B 具有 2.4B 的非词嵌入参数量。

来自主题: AI技术研报
8237 点击    2024-02-05 14:42
比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

今天,穆罕默德・本・扎耶德人工智能大学 VILA Lab 带来了一项关于如何更好地为不同规模的大模型书写提示词(prompt)的研究,让大模型性能在不需要任何额外训练的前提下轻松提升 50% 以上。该工作在 X (Twitter)、Reddit 和 LinkedIn 等平台上都引起了广泛的讨论和关注。

来自主题: AI技术研报
5814 点击    2024-02-05 14:39
美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回

美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回

美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回

分手8个月想挽回,女友却爱上了AI男友,怎么破?这位美国博士小哥选择用错误数据毒害模型,训成一个妥妥的负分男友,结果,女友果真来找他了……

来自主题: AI技术研报
11184 点击    2024-02-05 13:57
嵌入式系统中的人工智能包含哪些要点?

嵌入式系统中的人工智能包含哪些要点?

嵌入式系统中的人工智能包含哪些要点?

人工智能,即大家说的AI(Artificial Intelligent),当属最热门的技术之一。今天站在嵌入式的角度给大家分享一下人工智能包含的一些要点。

来自主题: AI技术研报
11565 点击    2024-02-05 13:47
Agent像人一样分工协作,还能“群聊”交换信息|ICLR2024 Oral

Agent像人一样分工协作,还能“群聊”交换信息|ICLR2024 Oral

Agent像人一样分工协作,还能“群聊”交换信息|ICLR2024 Oral

一项名为MetaGPT的研究,通过对智能体角色进行明确分工,并要求多个智能体在协作中采用统一规范的“交流格式”等方法,让智能体性能大增。

来自主题: AI技术研报
6750 点击    2024-02-04 14:09
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报
10699 点击    2024-02-04 13:59
中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。

来自主题: AI技术研报
6208 点击    2024-02-04 13:56
图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

来自主题: AI技术研报
9027 点击    2024-02-03 19:30
陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

在软件工程顶会ESEC/FSE上,来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发表了新的成果,使用LLM解决自动化定理证明问题。

来自主题: AI技术研报
4739 点击    2024-02-03 14:55
史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训

史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训

史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训

艾伦人工智能研究所等5机构最近公布了史上最全的开源模型「OLMo」,公开了模型的模型权重、完整训练代码、数据集和训练过程,为以后开源社区的工作设立了新的标杆。

来自主题: AI技术研报
8123 点击    2024-02-03 14:45