AI资讯新闻榜单内容搜索-CLIP

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: CLIP
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入,克服了传统视觉编码器(如 CLIP)仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报
7072 点击    2024-12-18 14:21
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本

在当今多模态领域,CLIP 模型凭借其卓越的视觉与文本对齐能力,推动了视觉基础模型的发展。CLIP 通过对大规模图文对的对比学习,将视觉与语言信号嵌入到同一特征空间中,受到了广泛应用。

来自主题: AI技术研报
5210 点击    2024-11-27 14:41
一文读懂 CLIP:多模态 AI 的核心原理与应用

一文读懂 CLIP:多模态 AI 的核心原理与应用

一文读懂 CLIP:多模态 AI 的核心原理与应用

「多模态」这个词,相信各位开发者已经比较熟悉了,多模态的含义是让 AI 同时理解包含如图像和文本在内的多种类型的数据。

来自主题: AI资讯
8004 点击    2024-11-15 10:38
OpusClip创始人赵洋:7个月,500万用户,ARR千万美金

OpusClip创始人赵洋:7个月,500万用户,ARR千万美金

OpusClip创始人赵洋:7个月,500万用户,ARR千万美金

7 个月时间,用户量超过 500 万,ARR 收入接近 1000 万美元。 OpusClip 可以说是目前 AI 视频剪辑工具的头号种子

来自主题: AI资讯
3973 点击    2024-11-02 10:38
一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024

一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024

一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP登ECCV2024

拔草星人的好消息来啦!中科院自动化所和阿里云一起推出了街景定位大模型,只要一张照片就能实现街道级精度的定位。

来自主题: AI资讯
4156 点击    2024-09-14 15:40
对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024

对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024

对比学习滥用隐私数据!中科院等发布「多步误差最小化」方法 | ACM MM2024

多模态对比学习(如CLIP)通过从互联网上抓取的数百万个图像-字幕对中学习,在零样本分类方面取得了显著进展。 然而,这种依赖带来了隐私风险,因为黑客可能会未经授权地利用图像-文本数据进行模型训练,其中可能包括个人和隐私敏感信息。

来自主题: AI技术研报
6881 点击    2024-08-01 15:32
关于大模型「越狱」的多种方式,有这些防御手段

关于大模型「越狱」的多种方式,有这些防御手段

关于大模型「越狱」的多种方式,有这些防御手段

随着人工智能(AI)技术的迅猛发展,特别是大语言模型(LLMs)如 GPT-4 和视觉语言模型(VLMs)如 CLIP 和 DALL-E,这些模型在多个技术领域取得了显著的进展。

来自主题: AI技术研报
9910 点击    2024-07-29 20:32
开发者自述:诞生、爆火、开源、沉寂,一款 AI 相册搜索应用的两年

开发者自述:诞生、爆火、开源、沉寂,一款 AI 相册搜索应用的两年

开发者自述:诞生、爆火、开源、沉寂,一款 AI 相册搜索应用的两年

寻隐(英文名 Queryable)是一款 iOS 上的 AI 照片搜索软件,支持用户使用自然语言搜索本地照片。软件诞生的契机是 OpenAI 发布的 CLIP 模型。

来自主题: AI资讯
10005 点击    2024-07-27 15:35