AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: GPT-4V

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。

来自主题: AI技术研报

3331 点击 2024-04-07 17:46

中科大等意外发现：大模型不看图也能正确回答视觉问题！

中科大等意外发现：大模型不看图也能正确回答视觉问题！

大模型不看图，竟也能正确回答视觉问题？！中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型，不管是闭源还是开源，语言模型还是多模态，竟然只根据在多模态基准MMMU测试中的问题和选项文本，就能获得不错的成绩。

来自主题: AI技术研报

4394 点击 2024-04-07 13:10

一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V

一口气读完《沙丘》，零一万物宝藏API正式开箱！酷炫Demo实测，多模态中文图表体验超越GPT-4V

国产大模型独角兽送福利来了，千万token免费用！最近，零一万物API正式开放，三款模型都非常能打，开发者们赶快来开箱吧。零一万物API开放平台，正式向开发者开放了！

来自主题: AI资讯

2598 点击 2024-03-22 16:46

100万token，一次能分析1小时YouTube视频，「大世界模型」火了

100万token，一次能分析1小时YouTube视频，「大世界模型」火了

我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到，前者可以处理的上下文窗口达百万级别，而后者生成的视频能够理解运动中的物理世界，被很多人称为「世界模型」。

来自主题: AI技术研报

5485 点击 2024-02-20 11:24

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

微软首个为Windows而设的智能体（Agent）亮相：基于GPT-4V，一句话就可以在多个应用中无缝切换，完成复杂任务。整个过程无需人为干预，其执行成功率和效率是GPT-4的两倍，GPT-3.5的四倍。

来自主题: AI技术研报

8518 点击 2024-02-17 12:25

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源

马里兰大学联合北卡教堂山发布首个专为多模态大语言模型（MLLM）设计的图像序列的基准测试Mementos，涵盖了真实世界图像序列、机器人图像序列，以及动漫图像序列，用4761个多样化图像序列的集合，全面测试MLLM对碎散图像序列的推理能力！

来自主题: AI技术研报

1304 点击 2024-01-31 11:19

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。

来自主题: AI资讯

8701 点击 2024-01-26 13:56

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。

来自主题: AI资讯

6837 点击 2024-01-26 13:17

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。

来自主题: AI资讯

4640 点击 2024-01-20 15:01

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。

来自主题: AI资讯

7126 点击 2024-01-03 13:50

上一页当前第2页,共3页下一页