AI资讯新闻榜单内容搜索-大语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大语言模型
如何从头开始编写LoRA代码,这有一份教程

如何从头开始编写LoRA代码,这有一份教程

如何从头开始编写LoRA代码,这有一份教程

作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大语言模型)的流行技术,最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。

来自主题: AI技术研报
6781 点击    2024-03-20 16:16
总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

早在 2020 年,陶大程团队就发布了《Knowledge Distillation: A Survey》,详细介绍了知识蒸馏在深度学习中的应用,主要用于模型压缩和加速。随着大语言模型的出现,知识蒸馏的作用范围不断扩大,逐渐扩展到了用于提升小模型的性能以及模型的自我提升。

来自主题: AI技术研报
4572 点击    2024-03-16 15:28
用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

随着大语言模型(LLM)的发展,很多研究发现LLM能够展现出稳定的人格特质,模仿人类细微的情绪与认知模式,还能辅助各种各样的社会科学仿真实验,为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域,提供了新的研究思路。

来自主题: AI技术研报
3325 点击    2024-03-13 11:15
350亿参数、开放权重,Transformer作者创业后推出新大模型

350亿参数、开放权重,Transformer作者创业后推出新大模型

350亿参数、开放权重,Transformer作者创业后推出新大模型

开源大语言模型宇宙又来了一个强劲对手。Transformer 作者参与创立的 Cohere 公司推出的大模型 Command-R 在可扩展、RAG和工具使用三个方面具有显著的优势。

来自主题: AI技术研报
5616 点击    2024-03-12 18:54
当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」

近年来,大语言模型(LLMs)由于其通用的问题处理能力而引起了大量的关注。现有研究表明,适当的提示设计(prompt enginerring),例如思维链(Chain-of-Thoughts),可以解锁 LLM 在不同领域的强大能力。

来自主题: AI资讯
5242 点击    2024-03-11 17:28
挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

来自主题: AI技术研报
4083 点击    2024-03-08 15:11
ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

模型量化是模型压缩与加速中的一项关键技术,其将模型权重与激活值量化至低 bit,以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言,模型量化显得更加重要。

来自主题: AI技术研报
8257 点击    2024-03-07 13:53
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。

来自主题: AI技术研报
6413 点击    2024-03-03 17:31