Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新「Scaling Law」诞生?
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新「Scaling Law」诞生?最近的论文表明,LLM等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅8B的Llama 3.1模型搜索100次,即可在Python代码生成任务上达到GPT-4o同等水平。
最近的论文表明,LLM等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅8B的Llama 3.1模型搜索100次,即可在Python代码生成任务上达到GPT-4o同等水平。
首期只招20人。
xAI 今天宣布推出 Grok-2 和 Grok-2 mini 测试版,官方说,它的表现比 Claude 3.5 Sonnet 和 GPT-4-Turbo 更好。
大语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现出令人惊讶的多模态能力。 特别是,GPT-4o 的出现显著推动了 MLLM 领域的发展。然而,与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展,这一点怎么强调也不为过。
苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
在 GPT-4o 进 iPhone 之前,谷歌 Gemini 抢先了一步完成了手机版的落地。 周三凌晨,在人们期待 OpenAI 「草莓大模型」的时候,谷歌在 Made by Google 活动上正式发布了 Gemini Live,以及一系列 Pixel 硬件产品。
谁是万亿搜索赛道上的赢家?
长文本处理能力对LLM的重要性是显而易见的。在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k,然而今日,128k的上下文长度已经成为衡量模型技术先进性的重要标志之一。那你知道LLMs的长文本阅读能力如何评估吗?
我把这些论文的作者们——来自不同AI领域、几大研究派系的那些熠熠生辉的名字,作了详细的统计、分类。
生物医药领域的ChatGPT时刻或许很快会到来。