AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

近日,来自谷歌和苹果的研究表明:AI模型掌握的知识比表现出来的要多得多!这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。

来自主题: AI技术研报
3966 点击    2024-10-20 17:16
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。

来自主题: AI技术研报
4680 点击    2024-10-20 17:11
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

大型语言模型(LLMs)虽然在适应新任务方面取得了长足进步,但它们仍面临着巨大的计算资源消耗,尤其在复杂领域的表现往往不尽如人意。

来自主题: AI技术研报
4981 点击    2024-10-20 16:58
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

苹果研究者发现:无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,都未被发现任何形式推理的证据,而更像是复杂的模式匹配器。无独有偶,一项多位数乘法的研究也被抛出来,越来越多的证据证实:LLM不会推理!

来自主题: AI技术研报
4473 点击    2024-10-19 16:32
大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

最近,大模型训练遭恶意攻击事件已经刷屏了。就在刚刚,Anthropic也发布了一篇论文,探讨了前沿模型的巨大破坏力,他们发现:模型遇到危险任务时会隐藏真实能力,还会在代码库中巧妙地插入bug,躲过LLM和人类「检查官」的追踪!

来自主题: AI技术研报
4171 点击    2024-10-19 16:24
深度 | OpenAI新董事兼CMU机器学习系主任:虽然数据有限,但AI性能不会停滞不前;LLM行业很可能会整合

深度 | OpenAI新董事兼CMU机器学习系主任:虽然数据有限,但AI性能不会停滞不前;LLM行业很可能会整合

深度 | OpenAI新董事兼CMU机器学习系主任:虽然数据有限,但AI性能不会停滞不前;LLM行业很可能会整合

虽然数据有限,但AI性能不会停滞不前,我们当前的算法还没有从我们拥有的数据中最大限度地提取信息,还有更多的推论、推断和其他过程我们可以应用到我们当前的数据上,以提供更多的价值。

来自主题: AI资讯
7907 点击    2024-10-19 14:41
以图灵机为师:通过微调训练让大语言模型懂执行计算过程

以图灵机为师:通过微调训练让大语言模型懂执行计算过程

以图灵机为师:通过微调训练让大语言模型懂执行计算过程

大型语言模型 (LLM) 在各种自然语言处理和推理任务中表现出卓越的能力,某些应用场景甚至超越了人类的表现。然而,这类模型在最基础的算术问题的表现上却不尽如人意。

来自主题: AI技术研报
4832 点击    2024-10-18 13:54
大模型引领6G革命!最新综述探索「未来通信方式」:九大方向,覆盖多模态、RAG等

大模型引领6G革命!最新综述探索「未来通信方式」:九大方向,覆盖多模态、RAG等

大模型引领6G革命!最新综述探索「未来通信方式」:九大方向,覆盖多模态、RAG等

大语言模型(LLM)正在推动通信行业向智能化转型,在自动生成网络配置、优化网络管理和预测网络流量等方面展现出巨大潜力。未来,LLM在电信领域的应用将需要克服数据集构建、模型部署和提示工程等挑战,并探索多模态集成、增强机器学习算法和经济高效的模型压缩技术。

来自主题: AI技术研报
4730 点击    2024-10-18 13:40
DeepMind最新:发布说话者-推理者架构实现Agents快慢思考 | 融合系统1+系统2

DeepMind最新:发布说话者-推理者架构实现Agents快慢思考 | 融合系统1+系统2

DeepMind最新:发布说话者-推理者架构实现Agents快慢思考 | 融合系统1+系统2

近期,LLM领域有不少关于系统1和系统2思考的讨论,在Agent方向上这方面的讨论还很少。如何让AI agents既能快速响应用户,又能进行深度思考和规划,一直是一个巨大的挑战。

来自主题: AI技术研报
6341 点击    2024-10-17 10:25
新能源大模型:2024遍地开花

新能源大模型:2024遍地开花

新能源大模型:2024遍地开花

2024年是大模型的行业落地的一年,除了教育、通信、金融、医疗之外,能源行业也逐步凸显出对于大模型的拥抱。

来自主题: AI资讯
5672 点击    2024-10-17 10:05