陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。
GPT-4o二折平替千亿国产大模型出海!刚刚,全球头部模型托管平台Fireworks AI宣布了最新消息。这是继登陆英伟达官网之后,Yi-Large再次入驻美国主流平台。
超越扩散模型!自回归范式在图像生成领域再次被验证——
能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理,团队还在实验中发现,它设计的新蛋白质相当于模拟自然界5亿年的进化。
从排名Top20的美国AI教育产品中,一窥 AI 战略背后的产品取胜关键。
自 OpenAI 的 Q* 项目曝光后,引发业内众多讨论。据现有信息汇总,Q* 项目被视作 OpenAI 在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。
还有12款大模型全军覆没……
最近在美国最火的社交软件是哪一款?答案列表上,一定有Character AI的一席之地。但和其他所有同类产品不同的是,用户是在和AI聊天机器人而非真实人类进行互动。
请问我可以成为你的网上邻居吗?ChatGPT 是助手,Character.AI 是伴侣,评论罗伯特是评论机器人,但还没有哪个 AI,是我们在冲浪时遇到的「网友」。