ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
搜索: 视觉
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。

来自主题: AI资讯
5719 点击    2023-11-29 15:32
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报
4681 点击    2023-11-24 15:10
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报
4667 点击    2023-11-21 12:24
几秒生成高清商拍大片,电商效率直接Pro Max | 虹软科技推出PhotoStudio® AI

家人们,现在搞一套高清商拍大片,简直不要太简单好吧! 只需几秒钟,几个“点击”的动作,就齐活了—这就是虹软科技在今天新鲜出炉的面向电商的创新产品——PhotoStudio® AI智能商拍摄影云工作室(Beta)。

来自主题: AI资讯
5504 点击    2023-10-24 16:00
2023 年改变人工智能的最强大 7 种语言(LLM)和视觉语言模型(VLM)

在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。近年来,在Transformer 架构和BERT 双向升级的基础上,出现了几种突破性的语言模型,突破了机器理解和生成的界限。

来自主题: AI技术研报
3620 点击    2023-08-31 22:43