AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

北京大学的研究人员开发了一种新型多模态框架FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。

来自主题: AI技术研报
4382 点击    2024-10-25 11:03
自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD,将图像融合和目标检测整合到一个单阶段、端到端框架中,简化训练的同时,提升目标解析性能。 相关论文已入选顶会NeurlPS 2024 Oral,代码、模型均已开源。

来自主题: AI技术研报
4682 点击    2024-10-25 10:56
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

两位清华校友,在OpenAI发布最新研究—— 生成图像,但速度是扩散模型的50倍。 路橙、宋飏再次简化了一致性模型,仅用两步采样,就能使生成质量与扩散模型相媲美。

来自主题: AI资讯
3316 点击    2024-10-24 15:51
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点: 只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。

来自主题: AI资讯
5591 点击    2024-10-21 14:39
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。

来自主题: AI技术研报
3729 点击    2024-10-21 14:33
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到通用人工智能(AGI)。

来自主题: AI资讯
3633 点击    2024-10-21 14:23
OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

多模态生成新突破,字节&华师团队打造TextHarmony,在单一模型架构中实现模态生成的统一,并入选NeurIPS 2024。

来自主题: AI技术研报
3850 点击    2024-10-20 11:48
大模型引领6G革命!最新综述探索「未来通信方式」:九大方向,覆盖多模态、RAG等

大模型引领6G革命!最新综述探索「未来通信方式」:九大方向,覆盖多模态、RAG等

大模型引领6G革命!最新综述探索「未来通信方式」:九大方向,覆盖多模态、RAG等

大语言模型(LLM)正在推动通信行业向智能化转型,在自动生成网络配置、优化网络管理和预测网络流量等方面展现出巨大潜力。未来,LLM在电信领域的应用将需要克服数据集构建、模型部署和提示工程等挑战,并探索多模态集成、增强机器学习算法和经济高效的模型压缩技术。

来自主题: AI技术研报
4267 点击    2024-10-18 13:40