GPT-4o弱点暴露了,PDF长文档阅读理解仅45分
GPT-4o弱点暴露了,PDF长文档阅读理解仅45分图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。
图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。
谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。
这么强的模型,谷歌给大家免费试用。
起猛了,GPT-4o被谷歌新模型超越了!
有 AI 在的科技圈,似乎没有中场休息。除了大模型发布不断,各家科技大厂也在寻找着第一个「杀手级」AI 应用的落脚之地。
上线仅仅一天,GPT-4o的高级语音功能(Advanced Voice Mode)简直要被玩疯了。无数网友脑洞大开的疯狂测试,GPT-4o这边呢,不仅各种奇葩任务全盘接收,表现好到更是让不少人连连惊呼“Blow my mind”。
今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一,在真实对话任务中比其两倍规模以上的模型表现还要好。
谷歌DeepMind的小模型核弹来了,Gemma 2 2B直接击败了参数大几个数量级的GPT-3.5和Mixtral 8x7B!而同时发布的Gemma Scope,如显微镜一般打破LLM黑箱,让我们看清Gemma 2是如何决策的。
赶在 7 月结束前,GPT-4o 语音功能终于开启。现开启灰度测试,一小部分 ChatGPT Plus 用户已经可以试用。
智东西7月31日消息,根据顶级学术期刊《自然》(Nature)昨日报道,生成式AI在学术写作中的使用已迎来爆发式增长。相关研究显示生物医学领域最大数据库PubMed上10%的论文摘要都有AI写作嫌疑,相当于每年15万篇论文中都有AI的参与。