AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 多模态
一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。

来自主题: AI资讯
5486 点击    2024-10-30 15:55
Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架,它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报
7316 点击    2024-10-29 14:46
PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报
3616 点击    2024-10-29 14:32
开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品

原生多模态大模型性能瓶颈,迎来新突破! 上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型Mono-InternVL。 与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。

来自主题: AI技术研报
3819 点击    2024-10-25 15:37
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

北京大学的研究人员开发了一种新型多模态框架FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。

来自主题: AI技术研报
3712 点击    2024-10-25 11:03
自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD,将图像融合和目标检测整合到一个单阶段、端到端框架中,简化训练的同时,提升目标解析性能。 相关论文已入选顶会NeurlPS 2024 Oral,代码、模型均已开源。

来自主题: AI技术研报
4230 点击    2024-10-25 10:56
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

两位清华校友,在OpenAI发布最新研究—— 生成图像,但速度是扩散模型的50倍。 路橙、宋飏再次简化了一致性模型,仅用两步采样,就能使生成质量与扩散模型相媲美。

来自主题: AI资讯
2896 点击    2024-10-24 15:51
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点: 只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。

来自主题: AI资讯
5106 点击    2024-10-21 14:39
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到通用人工智能(AGI)。

来自主题: AI资讯
3160 点击    2024-10-21 14:23