AI TNT— 让一部分先用AI实现商业化

微软Florence-2官宣开源，一统视觉基础模型！华人团队联手打造

等了半年，微软视觉基础模型Florence-2终于开源了。它能够根据提示，完成字幕、对象检测、分割等各种计算机视觉和语言的任务。网友们实测后，堪称「游戏规则改变者」。

来自主题: AI技术研报

7949 点击 2024-06-24 15:41

无需人类或GPT-4打标签！南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本

不用打标签，也能解决视觉大模型的偏好对齐问题了。

来自主题: AI技术研报

4940 点击 2024-06-23 20:08

商汤披露：50篇论文入选CVPR 2024

CVPR正在进行中，中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报

9158 点击 2024-06-20 09:58

谢赛宁对话Sora 负责人：AI 视觉的基础是对压缩图像的学习

语言将是获得更智能系统的重要组成部分。

来自主题: AI资讯

7964 点击 2024-06-17 19:20

全华人团队推出多模态大模型新基准，GPT-4o准确率仅为65.5%，所有模型最易犯感知错误

GPT-4o再次掀起多模态大模型的浪潮。

来自主题: AI技术研报

7310 点击 2024-06-12 15:17

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。

来自主题: AI技术研报

8161 点击 2024-06-11 10:08

原作者带队，LSTM卷土重来之Vision-LSTM出世

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比，ViL 的性能更胜一筹。

来自主题: AI技术研报

7645 点击 2024-06-08 15:55

物理传热启发的视觉表征模型vHeat来了，尝试突破注意力机制，兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制？中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源，并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型， vHeat 同时兼顾了：计算复杂度（1.5次方）、全局感受野、物理可解释性。

来自主题: AI技术研报

8038 点击 2024-06-03 17:51

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

用卷积能做出一样好的效果。

来自主题: AI资讯

8149 点击 2024-06-01 18:57

清华「天眸芯」登Nature封面：全球首款类脑互补视觉芯片

我国在类脑计算、类脑感知两个重要方向均已取得基础性突破。

来自主题: AI技术研报

7396 点击 2024-05-30 20:03