AI资讯新闻榜单内容搜索-多模态

Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点：只要能够非常好的预测下一个token，就能帮助人类达到通用人工智能（AGI）。

来自主题: AI资讯

7222 点击 2024-10-21 14:39

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

视频多模态大模型（LMMs）的发展受限于从网络获取大量高质量视频数据。为解决这一问题，我们提出了一种替代方法，创建一个专为视频指令跟随任务设计的高质量合成数据集，名为 LLaVA-Video-178K。

来自主题: AI技术研报

5762 点击 2024-10-21 14:33

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点：只要能够非常好的预测下一个 token，就能帮助人类达到通用人工智能（AGI）。

来自主题: AI资讯

5401 点击 2024-10-21 14:23

OCR-Omni来了，字节&华师统一多模态文字理解与生成 | NeurIPS2024

多模态生成新突破，字节&华师团队打造TextHarmony，在单一模型架构中实现模态生成的统一，并入选NeurIPS 2024。

来自主题: AI技术研报

5335 点击 2024-10-20 11:48

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向，覆盖多模态、RAG等

大语言模型（LLM）正在推动通信行业向智能化转型，在自动生成网络配置、优化网络管理和预测网络流量等方面展现出巨大潜力。未来，LLM在电信领域的应用将需要克服数据集构建、模型部署和提示工程等挑战，并探索多模态集成、增强机器学习算法和经济高效的模型压缩技术。

来自主题: AI技术研报

6126 点击 2024-10-18 13:40

冲出“包围圈”，阶跃星辰登顶国内多模态理解大模型榜首

说起阶跃星辰，可以说是 AI 六小强中最低调的一个，但最近这家公司在 AI 圈里频频“闹出动静”。

来自主题: AI资讯

8613 点击 2024-10-18 10:21

百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布Robin3D

Robin3D通过鲁棒指令数据生成引擎（RIG）生成的大规模数据进行训练，以提高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。

来自主题: AI技术研报

8574 点击 2024-10-15 14:39

【人工智能】多模态AI——融合多种数据源的智能系统

多模态AI是一种将不同形式的数据(如文本、图像、音频等)融合在一起的技术，旨在让模型从多个维度感知和理解信息。这种融合使得AI系统能够从每种模态中获取独特的但互补的信息，从而构建出更全面的世界观。例如，在一个自动驾驶场景中，图像数据可以帮助系统识别道路上的行人，而雷达数据则能够感知车距，两者结合能够显著提升决策准确性。

来自主题: AI资讯

8647 点击 2024-10-15 09:56

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

6910 点击 2024-10-14 15:46

长文本、语音、视觉、结构化数据全覆盖，中国移动九天善智多模态大模型震撼发布

善智者，动于九天之上。

来自主题: AI资讯

7852 点击 2024-10-14 09:59