AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了

OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。

来自主题: AI技术研报
7515 点击    2024-06-17 23:41
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报
8837 点击    2024-06-17 19:35
Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

Sora负责人与谢赛宁「隔空对话」,LLM先锋集结中国最硬核AI内行盛会!智源大模型全家桶亮相

才用了112台A800,就能训出性能达GPT-4 90%的万亿参数大模型?智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM,有望解决全球算力紧缺难题!此外,全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会,依然是星光熠熠,学术巨佬含量超标。

来自主题: AI技术研报
9352 点击    2024-06-15 16:07
Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

Mobile-Agent-v2问世,自动化手机操作能力再上新台阶

今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。

来自主题: AI技术研报
9562 点击    2024-06-15 15:58
大模型理解复杂表格,字节&中科大出手了

大模型理解复杂表格,字节&中科大出手了

大模型理解复杂表格,字节&中科大出手了

只要一个大模型,就能解决打工人遇到的表格难题!

来自主题: AI技术研报
8926 点击    2024-06-15 13:28
改变传统,吴恩达开源了一个机器翻译智能体项目

改变传统,吴恩达开源了一个机器翻译智能体项目

改变传统,吴恩达开源了一个机器翻译智能体项目

前段时间,随着 GPT-4o、Sora 的陆续问世,多模态模型在生成式方面取得的成绩无可否认,而人工智能的下一个革命性突破将从何处涌现,引起了大量学者和相关人士的关注。

来自主题: AI技术研报
8403 点击    2024-06-13 10:07