14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。
搜索
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。
在机器学习社区中,ICLR (国际学习表征会议)是较为「年轻」的学术会议,它由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann LeCun 在 2013 年牵头举办。但 ICLR 很快就获得了研究者的广泛认可,并且在 AI 圈拥有了深度学习会议「无冕之王」的称号。
阿里云正式发布通义千问2.5大模型,同时宣布性能全面赶超GPT-4 Turbo。
芝麻粒大小的人脑组织,突触规模就相当于一个GPT-4!
机器学习三大顶会之一的ICLR 2024,正在维也纳如火如荼地举行。
一年前,朱啸虎和傅盛围绕ChatGPT创业的话题,在朋友圈隔空“抬杠”。朱啸虎站在投资者的角度认为,ChatGPT对创业公司很不友好,未来两三年内请大家放弃融资幻想。而傅盛作为创业者代表则认为,大模型相关领域有很多价值机会。
一个服务于1000万日活跃用户数的通用大模型,至少需要年收入100亿元才可能保持收支平衡,如果未来能服务1亿日活用户呢?10亿日活用户呢?
今年开年以来,大模型落地越来越火热。云计算大厂有关AI业务的数据在不断刷新。就在这样的时间节点上,5月9日,阿里云在北京举办AI峰会,除了发布阶段性的进展之外,还重点向与会者介绍了阿里云的大模型生态和落地平台,为大模型落地竞争再添一把火。
近年来,在经历了ChatGPT、Midjourney等国际AIGC产品的飞速发展,以及百度文心、阿里通义、Kimi等国内AIGC产品的激烈追赶后,2024年,几乎每位互联网用户都或多或少接触了AIGC技术产生的内容。从智能手机中的大模型助手,到日常所见的AI生成图片,再到职场中的AIGC工具辅助优化工作,AIGC内容已遍布人们的生活中。
众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportation)被设计出来,它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力,但其背后的确切机制尚不清楚。