AI资讯新闻榜单内容搜索-Ava

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Ava
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。

来自主题: AI技术研报
3761 点击    2024-10-21 14:33
Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟,研究的探索空间正由预训练转向后期训练(Post-training),OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报
4620 点击    2024-10-14 15:46
Java 离AI还是太远了,这两个Spring AI 框架能稍微接近一下

Java 离AI还是太远了,这两个Spring AI 框架能稍微接近一下

Java 离AI还是太远了,这两个Spring AI 框架能稍微接近一下

自从AI火起来之后,大模型一个接一个的出现,所有的语言、工具、产品似乎都能蹭一蹭大模型的热度。

来自主题: AI资讯
4649 点击    2024-09-24 10:26
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理

扩展多模态大语言模型(MLLMs)的长上下文能力对于视频理解、高分辨率图像理解以及多模态智能体至关重要。这涉及一系列系统性的优化,包括模型架构、数据构建和训练策略,尤其要解决诸如随着图像增多性能下降以及高计算成本等挑战。

来自主题: AI技术研报
7846 点击    2024-09-21 18:19
Atom原班人马做了一款新AI IDE,非常酷

Atom原班人马做了一款新AI IDE,非常酷

Atom原班人马做了一款新AI IDE,非常酷

作为开发者,我们一直在寻找提升工作效率的方法。VS Code 无疑是目前最受欢迎的代码编辑器之一,它几乎成为了我们行业的标准。不过,由于它基于 Electron 和 JavaScript,处理大型代码库时可能会遇到一些性能问题。

来自主题: AI资讯
8127 点击    2024-09-03 16:45
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

来自主题: AI技术研报
10855 点击    2024-08-21 14:28
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

来自主题: AI技术研报
9039 点击    2024-08-11 13:18
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

来自主题: AI技术研报
9343 点击    2024-05-27 16:24
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

来自主题: AI技术研报
7979 点击    2024-05-10 23:32