最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
随着 AI 工具的不断增多,各家模型的能力也日益提升,现在无论哪款大模型几乎都能够处理各种翻译难题。
GPT-4o或许还得等到今年秋季才对外开放。不过,由法国8人团队打造的原生多模态Moshi,已经实现了接近GPT-4o的水平,现场演示几乎0延迟,AI大佬纷纷转发。
Character AI 也要走上 Stability AI 的老路了?
AI 产品刷屏后,你的工作和生活是否因此发生了一些变化。
从智能眼镜,到AI眼镜。
什么?好多大模型的文科成绩超一本线,还是最卷的河南省???
LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。
想要达成通用人工智能 AGI 的终极目标,首先要达成的是模型要能完成人类所能轻松做到的任务。为了做到这一点,大模型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。
近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。