中科大等意外发现:大模型不看图也能正确回答视觉问题!
中科大等意外发现:大模型不看图也能正确回答视觉问题!大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。
搜索
大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。
关注 OpenAI核心创始成员Andrej Karpathy 深度分享AI大模型发展及Elon管理法则。近日,OpenAI核心创始成员Andrej Karpathy(已于24年2月离职)在红杉资本进行了一场精彩的分享。
“只需”10万美元,训练Llama-2级别的大模型。尺寸更小但性能不减的MoE模型来了:它叫JetMoE,来自MIT、普林斯顿等研究机构。性能妥妥超过同等规模的Llama-2。
谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths(MoD),改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源,跳过一些不必要计算,显著提高训练效率和推理速度。
一位90岁巨擘的逝世,正在牵动整个科技圈的关注。 正如YC创始人Paul Graham所说: 我关注的每一个人,都在对丹尼尔·卡尼曼表达敬意。
FoundationPose模型使用RGBD图像对新颖物体进行姿态估计和跟踪,支持基于模型和无模型设置,在多个公共数据集上大幅优于针对每个任务专门化的现有方法.
近期,百度在大模型领域的动作引人注目,先是有外媒爆料称,百度与苹果达成合作,将为国行版的 iPhone16、Mac 系统和 iOS 18 提供生成式 AI 功能。紧接着又是官宣优必选的人形机器人 WalkerS 接入百度文心大模型。
3月29日,以“数据驱动,智绘未来”为主题的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。会上,北京国际大数据交易所(以下简称“北数所”)牵头正式发布首批100个人工智能大模型高质量训练数据集,经联盟牵头推荐,中关村数字媒体产业联盟成员单位新华网、山东工艺美术学院、中国搜索、中文在线、北京服装学院、硅星人等院校、企业的高质量数据集入选。
近期,一篇4万字的演讲风靡于国内人工智能(AI)学术圈。原华为"天才少年"、Logenic AI公司联合创始人李博杰博士,日前发表了一篇关于AI Agent思考的文章,题为"AI Agent 应该更有趣还是更有用"。
就在刚刚,特斯拉CV负责人Ethan Knight被曝已经离职,转投xAI。网友纷纷猜测:马斯克这是要放弃特斯拉FSD了?他急忙澄清道:特斯拉在自动驾驶上正在拼命加速,而AI的人才争夺战,才是最疯狂的!