AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告

LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告

LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告

大语言模型提示中,竟有不少「怪癖」:重复某些内容,准确性就大大提高;人名变匿名,准确性就大大下降。最近,马里兰OpenAI等机构的30多位研究者,首次对LLM的提示技术进行了大规模系统研究,并发布75页详尽报告。

来自主题: AI技术研报
8453 点击    2024-06-17 21:41
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。

来自主题: AI技术研报
10355 点击    2024-06-17 21:30
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报
8962 点击    2024-06-17 19:35
GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地表示,世界模型永远都不可能是LLM。

来自主题: AI技术研报
9982 点击    2024-06-16 17:57
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。

来自主题: AI技术研报
10182 点击    2024-06-15 16:20
Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

才用了112台A800,就能训出性能达GPT-4 90%的万亿参数大模型?智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM,有望解决全球算力紧缺难题!此外,全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会,依然是星光熠熠,学术巨佬含量超标。

来自主题: AI技术研报
9606 点击    2024-06-15 16:07
英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!

来自主题: AI技术研报
5096 点击    2024-06-15 15:58
英伟达开源最强通用模型Nemotron-4 340B

英伟达开源最强通用模型Nemotron-4 340B

英伟达开源最强通用模型Nemotron-4 340B

性能超越 Llama-3,主要用于合成数据。

来自主题: AI技术研报
11468 点击    2024-06-15 15:40
万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化

近年来,大语言模型(Large Language Models, LLMs)受到学术界和工业界的广泛关注,得益于其在各种语言生成任务上的出色表现,大语言模型推动了各种人工智能应用(例如ChatGPT、Copilot等)的发展。然而,大语言模型的落地应用受到其较大的推理开销的限制,对部署资源、用户体验、经济成本都带来了巨大挑战。

来自主题: AI技术研报
10164 点击    2024-06-14 10:35