AI资讯新闻榜单内容搜索-ViT

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: ViT
混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。

来自主题: AI技术研报
7358 点击    2025-11-29 13:43
谷歌24亿美元买个壳?刚发布的“下一代AI IDE”被爆“复制”Windsurf,连Bug一起

谷歌24亿美元买个壳?刚发布的“下一代AI IDE”被爆“复制”Windsurf,连Bug一起

谷歌24亿美元买个壳?刚发布的“下一代AI IDE”被爆“复制”Windsurf,连Bug一起

Google 前天发布了 Antigravity,一款号称“下一代 agentic 开发平台”的全新 IDE。官方宣传强调它能规划、执行、验证整个开发流程,似乎代表着 AI 编程进入了新的阶段。然而,最早一批上手使用的开发者却纷纷吐槽:任务跑着跑着就因“模型过载”中断,信用额度几十分钟内耗尽,连完整测试都难以完成,体验堪称“开局即崩”。

来自主题: AI资讯
8244 点击    2025-11-29 10:52
上线24小时就被黑!曝谷歌新AI编程工具存在严重Bug:哪怕卸载重装,后门仍会「自动复活」

上线24小时就被黑!曝谷歌新AI编程工具存在严重Bug:哪怕卸载重装,后门仍会「自动复活」

上线24小时就被黑!曝谷歌新AI编程工具存在严重Bug:哪怕卸载重装,后门仍会「自动复活」

如果说过去一年里,AI 让开发者生产力翻倍,那么如今它也开始以同样的速度放大风险。 上周,Google 刚刚推出的基于 Gemini 的全新 AI 编码工具 Antigravity,上线不到 24 小时便被一名安全研究员攻破,指出它存在严重的安全Bug。

来自主题: AI资讯
7633 点击    2025-11-28 21:03
Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

Google昨天伴随Gemini3.0pro一同发布了他们的AI IDE产品Antigravity《与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?》。其震撼性的三位一体全流程Agent体验让无数开发者直呼“Cursor危险了”。

来自主题: AI技术研报
7823 点击    2025-11-20 16:24
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法

在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影(artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪影?

来自主题: AI技术研报
7525 点击    2025-11-20 09:33
与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?

与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?

与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?

就在几小时前,Gemini 3.0重磅发布。随着而来的还有其颠覆性的AI原生IDE产品——Antigravity,这不只是一个新工具那么简单。谷歌的这次发布,将三个核心开发工具,AI代理(Agent)、代码编辑器(Editor)和浏览器(Browser) 集成在了一起,构建了由AI驱动、从编码、研究、测试到验证的完整闭环,一举打通了自家的生态。

来自主题: AI资讯
9111 点击    2025-11-19 12:01
谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺

谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺

谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺

凌晨,谷歌终极杀器Gemini 3重磅来袭,一出手就是Pro顶配版,号称「史上最强推理+多模态+氛围编程」三合一AI战神!基准测试横扫全场,就连GPT-5.1也被斩于马下,AI的下一个时代开启。而且,一上来就是顶配的Gemini 3 Pro——迄今推理最强,多模态理解最强,以及「智能体」+「氛围编程」最强的模型!

来自主题: AI资讯
8914 点击    2025-11-19 10:14
AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

AI点外卖哪家强,美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。

来自主题: AI技术研报
7160 点击    2025-10-20 10:13
LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

2 天前,国内最大的 AI 多模态模型社区之一的 LiblibAI 进行了一次大升级,正式推出了 2.0 版本。对许多创作者而言,这个平台并不陌生,LiblibAI 一直是国内开源绘画与 LoRA 文化的重要发源地,也常被称为中国版的 CivitAI (大家常说的 C 站)。

来自主题: AI资讯
8918 点击    2025-10-19 10:45
ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节

针对视觉 Transformer(ViT)因其固有 “低通滤波” 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制(FDAM)模块。它通过巧妙地 “反转” 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检测等密集预测任务上的性能,并取得了 SOTA 效果。

来自主题: AI技术研报
6544 点击    2025-10-16 14:35