
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。
当今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。
Llama 3.1又被提前泄露了!开发者社区再次陷入狂欢:最大模型是405B,8B和70B模型也同时升级,模型大小约820GB。基准测试结果惊人,磁力链全网疯转。
苹果最新杀入开源大模型战场,而且比其他公司更开放。 推出7B模型,不仅效果与Llama 3 8B相当,而且一次性开源了全部训练过程和资源。大模型,AI,苹果AI,苹果开源模型
2024年上半年,全球AIGC行业融资总额达到1384亿元,累计发生投资事件363次,总融资金额较去年同期增长23.3%(2023年为1123亿人民币),且在融资次数上猛增307.9%(2023年为89次)
最高端的大模型,往往需要最朴实的语言破解。来自EPFL机构研究人员发现,仅将一句有害请求,改写成过去时态,包括GPT-4o、Llama 3等大模型纷纷沦陷了。
GPT-4o mini头把交椅还未坐热,Mistral AI联手英伟达发布12B参数小模型Mistral Nemo,性能赶超Gemma 2 9B和Llama 3 8B。
小模型,正在成为 AI 巨头的新战场。
近日,前坚果投影CPO王骁逸的创业项目Even Realities,官宣了首款产品G1。这是一款时尚智能眼镜,可以语音和AI交互,还有AR显示,拥有记录、翻译、导航、演讲提词以及大模型问答等功能,预售价为599美元起,计划在8月开始发货。
《2024 中国开发者调查报告》深度揭示开发者现状。
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。