AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节最近真的猛猛开源啊……这一次,他们直接开源了GPT-4o级别的图像生成能力。不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报
8170 点击    2025-05-24 17:34
多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报
7182 点击    2025-05-23 14:52
2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

在谷歌I/O大会后,创始人谢尔盖·布林惊喜现身,与Hassabis深入探讨AI的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调AI时代是计算科学家不应退休的黄金期,AI影响将远超互联网与手机。

来自主题: AI资讯
4951 点击    2025-05-23 11:50
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作为首个系统性探索扩散架构的多模态基础模型,MMaDA 通过三项核心技术突破,成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报
8051 点击    2025-05-22 17:30
独家 | 与微软“代码女王”关于 GitHub、智能编程的一小时对谈

独家 | 与微软“代码女王”关于 GitHub、智能编程的一小时对谈

独家 | 与微软“代码女王”关于 GitHub、智能编程的一小时对谈

5月23-24日AICon上海站,聚焦Agent、多模态、端侧智能、Data for AI 等 50+ 热点话题,涉及 20+ AI 应用案例,兼具实操价值与未来洞见。

来自主题: AI资讯
9102 点击    2025-05-21 14:36
再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

再见Bug!谷歌超级编码智能体Jules上线,免费使用直连GitHub

谷歌Jules震撼发布!这款AI编程神器不仅能写代码,还能自动修Bug、生成PR,免费试用每日5次。多模态Gemini 2.5 Pro模型赋予Jules超强智慧,无论多复杂的代码库,它都能精准拿捏。

来自主题: AI资讯
6944 点击    2025-05-21 10:32
智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

智源3款向量模型发布!代码检索及多模态维度刷新多项SOTA

检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。

来自主题: AI资讯
9138 点击    2025-05-20 15:47
多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满

多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满

多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满

就在刚刚,智源研究员联合多所高校开放三款向量模型,以大优势登顶多项测试基准。其中,BGE-Code-v1直接击穿代码检索天花板,百万行级代码库再也不用怕了!

来自主题: AI技术研报
4916 点击    2025-05-20 14:45