清华唐杰团队新作:一口气生成2万字,大模型开卷长输出
清华唐杰团队新作:一口气生成2万字,大模型开卷长输出一口气生成2万字,大模型输出也卷起来了!
一口气生成2万字,大模型输出也卷起来了!
最近的论文表明,LLM等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅8B的Llama 3.1模型搜索100次,即可在Python代码生成任务上达到GPT-4o同等水平。
【新智元导读】一年一度NLP顶会ACL揭晓了最终获奖论文。今年,共有7篇论文荣获最佳论文,时间检验奖颁给斯坦福GloVe、康奈尔大学相似性度量。另外,还有最佳主题奖、最佳社会影响力奖、最佳资源奖、领域主席奖,以及杰出论文奖。
xAI 今天宣布推出 Grok-2 和 Grok-2 mini 测试版,官方说,它的表现比 Claude 3.5 Sonnet 和 GPT-4-Turbo 更好。
没有等来OpenAI的Q*/草莓项目的发布,一家名为MultiOn初创公司却抢先发布了名为Q的智能体。
一直以来,大模型的编程能力都备受关注,超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近,Devin 也迎来了新对手 —— 初创公司 Cosine 推出的自主 AI 程序员 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试 SWE-bench 上的得分为 30%,而 Devin 的得分仅为 13.8%。
哎鸭,鸭鸭摔倒了!
翻车,大翻车。
AI在现实工作环境中如何影响了工作效率?微软发起一项最大规模的调查研究,AI工具在工作场景中最大提效30%。
长文本处理能力对LLM的重要性是显而易见的。在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k,然而今日,128k的上下文长度已经成为衡量模型技术先进性的重要标志之一。那你知道LLMs的长文本阅读能力如何评估吗?