AI资讯新闻榜单内容搜索-GPT-4V

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: GPT-4V
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报
7937 点击    2024-05-01 19:35
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力,成为如今最领先的多模态大模型。

来自主题: AI技术研报
3728 点击    2024-04-07 17:46
中科大等意外发现:大模型不看图也能正确回答视觉问题!

中科大等意外发现:大模型不看图也能正确回答视觉问题!

中科大等意外发现:大模型不看图也能正确回答视觉问题!

大模型不看图,竟也能正确回答视觉问题?!中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是闭源还是开源,语言模型还是多模态,竟然只根据在多模态基准MMMU测试中的问题和选项文本,就能获得不错的成绩。

来自主题: AI技术研报
4858 点击    2024-04-07 13:10
一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V

一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V

一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V

国产大模型独角兽送福利来了,千万token免费用!最近,零一万物API正式开放,三款模型都非常能打,开发者们赶快来开箱吧。零一万物API开放平台,正式向开发者开放了!

来自主题: AI资讯
3069 点击    2024-03-22 16:46
100万token,一次能分析1小时YouTube视频,「大世界模型」火了

100万token,一次能分析1小时YouTube视频,「大世界模型」火了

100万token,一次能分析1小时YouTube视频,「大世界模型」火了

我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。

来自主题: AI技术研报
5920 点击    2024-02-20 11:24
下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

下一代Windows系统曝光:基于GPT-4V,Agent跨应用调度,代号UFO

微软首个为Windows而设的智能体(Agent) 亮相:基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。

来自主题: AI技术研报
8918 点击    2024-02-17 12:25
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用4761个多样化图像序列的集合,全面测试MLLM对碎散图像序列的推理能力!

来自主题: AI技术研报
1707 点击    2024-01-31 11:19
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。

来自主题: AI资讯
7266 点击    2024-01-26 13:17