
无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成在长文本理解能力这块,竟然没有一个大模型及格!
在长文本理解能力这块,竟然没有一个大模型及格!
七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。
随着大型语言模型(LLM)技术日渐成熟,各行各业加快了 LLM 应用落地的步伐。为了改进 LLM 的实际应用效果,业界做出了诸多努力。
地球是平的吗? 当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来,现代科学技术已经证明了地球是圆形这一事实。 但是,你有没有想过,如果 AI 被误导性信息 “忽悠” 了,会发生什么? 来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现,他们发现大语言模型在误导信息反复劝说下,非常自信地做出「地球是平的」这一判断。
大模型为何在生成「茶杯中的冰可乐」上失败了?上海交通大学最新揭秘。
最近的英伟达似乎步入了多事之秋。
Llama 3.1刚发布不久,Llama 4已完全投入训练中。 这几天,小扎在二季度财报会上称,Meta将用Llama 3的十倍计算量,训练下一代多模态Llama 4,预计在2025年发布。
简而言之:矩阵 → ReLU 激活 → 矩阵
为了对齐 LLM,各路研究者妙招连连。
大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」,吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大,系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里,系统会崩溃 466 次,平均 2.78 小时一次!