AI资讯新闻榜单内容搜索-视觉模型

5个AI产品经理必须收藏的RPA框架

github排名第一，视觉模型与自动化这两年，RPA+AI（智能自动化流程）经常被提及，在企业/机构数字化转型过程中，自动化和智能化是提升效能的重要方式，而迈向自动化和智能化的第一步则是机器人流程自动化（RPA）。

来自主题: AI资讯

8963 点击 2025-08-25 15:39

大模型时代，通用视觉模型将何去何从？

过去几年，通用视觉模型（Vision Generalist Model，简称 VGM）曾是计算机视觉领域的研究热点。

来自主题: AI技术研报

10095 点击 2025-07-02 10:52

刚刚，首个能在机器人上本地运行的具身Gemini来了

今天，Gemini 家族迎来了一个新成员：Gemini Robotics On-Device。这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作（VLA）模型，可以帮助机器人更快、更高效地适应新任务和环境，同时无需持续的互联网连接。

来自主题: AI资讯

9553 点击 2025-06-25 09:02

体验完字节送的迷你AI硬件，后劲有点大...

最近也是好起来了，上周四去杭州参加了字节火山的线下meetup开发者大会。在会议现场亲自体验了他们这次新发布的大模型和产品，整个过程还挺有意思的。视觉模型Doubao-1.5-vision-pro也非常nice

来自主题: AI资讯

10630 点击 2025-04-21 17:40

4K分辨率视觉预训练首次实现！伯克利&英伟达多模态新SOTA，更准且3倍加速处理

当前，所有主流的视觉基础模型（如 SigLIP、DINOv2 等）都仍然在低分辨率（如 384 * 384 分辨率）下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率，这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报

7718 点击 2025-04-17 13:54

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

10192 点击 2025-03-17 14:36

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

嘿，各位开发小伙伴，今天要给大家安利一个全新的开源项目 ——VLM-R1！它将 DeepSeek 的 R1 方法从纯文本领域成功迁移到了视觉语言领域，这意味着打开了对于多模态领域的想象空间！

来自主题: AI技术研报

7663 点击 2025-02-21 09:54

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

当下，视频生成备受关注，有望成为处理物理知识的 “世界模型” （World Model），助力自动驾驶、机器人等下游任务。然而，当前模型在从 “生成” 迈向世界建模的过程中，存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报

9539 点击 2025-02-02 19:07

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

如今，多模态大模型（MLLM）已经在视觉理解领域取得了长足进步，其中视觉指令调整方法已被广泛应用。该方法是具有数据和计算效率方面的优势，其有效性表明大语言模型（LLM）拥有了大量固有的视觉知识，使得它们能够在指令调整过程中有效地学习和发展视觉理解。

来自主题: AI技术研报

8835 点击 2024-12-21 11:12

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

通用语言模型率先起跑，但通用视觉模型似乎迟到了一步。究其原因，语言中蕴含大量序列信息，能做更深入的推理；而视觉模型的输入内容更加多元、复杂，输出的任务要求多种多样，需要对物体在时间、空间上的连续性有完善的感知，传统的学习方法数据量大、经济属性上也不理性...... 还没有一套统一的算法来解决计算机对空间信息的理解。

来自主题: AI资讯

10332 点击 2024-12-16 10:48