
零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。
当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。
最近,扩散语言模型(dLLM)有点火。现在,苹果也加入这片新兴的战场了。
GPT-5,已经被OpenAI员工抢先用上了?就在今天,奥特曼在X上关注了一个神秘人,引起全网猜测。不止两人爆料,自己可能提前体验了GPT-5,甚至也有网友疑似被灰度测试到了。今夏推出的GPT-5,已经掀起全网疯狂!
让机器人下厨房,获数千万元融资!享刻智能正式官宣完成数千万元Pre-A轮系列融资,投资方阵容相当豪华:世纪长河科技集团、启迪之星联合领投,网龙天映创投、广华创投等多家机构跟投。
Agent能“看懂网页”,像人类一样上网?阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。
LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
更适合中国宝宝的体质的 AI 眼镜。昨晚的小米「人车家全生态发布会」,除了万众瞩目的 YU7,最受关注的就是压轴的小米 AI 眼镜。
当地时间 6 月 26 日,在上个月的 Google I/O 上首次亮相预览后,谷歌如今正式发布了 Gemma 3n 完整版,可以直接在本地硬件上运行。
刚刚,OpenAI 研究员Aidan McLaughlin的一条推文引爆了网友们的关注。
前段时间,沉寂了很久的Flux官方团队Black Forest Labs发布了新模型:FLUX.1 Kontext,这是一套支持生成与编辑图像的流匹配(flow matching)模型。FLUX.1 Kontext不仅支持文生图,还实现了上下文图像生成功能,可以同时使用文本和图像作为提示词,并能无缝提取修改视觉元素,生成全新且协调一致的画面。