
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”如何让CLIP模型更关注细粒度特征学习,避免“近视”?360人工智能研究团队提出了FG-CLIP,可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。
如何让CLIP模型更关注细粒度特征学习,避免“近视”?360人工智能研究团队提出了FG-CLIP,可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。
昨天发现Mary Meeker又重新开始发布她每年一次的《互联网趋势报告》,只不过这次开始叫《人工智能趋势报告》了,整份报告有 340 页,非常详细的分析了AI领域的现状。
AI加速药物研发的同时引发专利泛滥问题,AI公司专利申请因缺乏体内实验数据(仅23%含体内实验,传统公司为47%),导致潜在药物后续开发受阻。专家建议提高专利门槛、允许他人二次申请未测试分子,并通过延长监管保护期平衡创新激励与公开风险。
据 BloomBerg 报道,Abridge AI Inc. 是一家利用人工智能转录医疗对话的AI笔记初创公司,目前正在进行一轮由 Andreessen Horowitz 领投的 3 亿美元新融资。
OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飞猛进!但专家警告:最多一年,推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜?
GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。
最近,Yoodli宣布完成了1370万美元的A轮融资,由Neotribe Ventures领投,Madrona和Cercano等现有投资者跟投。这使得他们的累计融资超过2000万美元。但让我感兴趣的不仅仅是融资数字,而是这家公司正在创建的全新品类:AI角色扮演。
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
昨晚,终于等到了DeepSeek-R1-0528官宣。升级后的模型性能直逼o3和Gemini 2.5 Pro。如今,DeepSeek真正坐实了全球开源王者的称号,并成为了第二大AI实验室。
斯坦福Hazy实验室推出新一代低延迟推理引擎「Megakernel」,将Llama-1B模型前向传播完整融合进单一GPU内核,实现推理时间低于1毫秒。在B200上每次推理仅需680微秒,比vLLM快3.5倍。