日前脸书母公司Meta AI实验室推出了一个强大人工智能图像分割软件Segment Anything,可以用自动识别哪些图像像素属于一个对象,并且对图像中各个对象进行自动风格等,可广泛用于分析科学图像、编辑照片等。
为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,但是可以通过AI来实现这样的任务。今天Meta开源的这个项目Segment Anything可以实现无人干涉的像素级图像分割自动化。
Segment Anything由图像分割的工具、数据集和模型构成,系统体系由通用Segment Anything模型(SAM)和Segment Anything 1-Billion掩码数据集 (SA-1B)两部分。
Segment Anything Model(SAM)模型使用开放许可协议Apache 2.0)的开源AI模型。
Segment Anything的提示设计支持与其他系统的灵活集成。SAM可以接收输入提示,例如来自AR/VR耳机的用户注视。
减少对特定于任务的建模专业知识、训练计算和用于图像分割的自定义数据注释的需求是Segment Anything 项目的核心。为了实现项目愿景,需要建立一个图像分割的基础模型:一个可提示的模型,它在不同的数据上进行训练并且可以适应特定的任务,类似于在自然语言处理模型中使用提示的方式。然而,与互联网上丰富的图像、视频和文本不同,训练这种模型所需的分割数据在网上或其他地方并不容易获得。
借助Segment Anything,同时开发一个通用的、可提示的分割模型,并使用它来创建一个规模空前的分割数据集。
以前,要解决任何类型的分割问题,有两类方法。
第一种是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。
第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子),连同计算资源和技术专长一起训练分割模型。
这两种方法都无法实现通用的、全自动的分割方法。
SAM融合这两类方为一个单一的模型,可以轻松地执行交互式分割和自动分割。模型的可提示界面允许以灵活的方式使用它,只需为模型设计正确的提示(点击、框、文本等),就可以完成范围广泛的分割任务。
SAM模型中包括超过10亿个掩码的多样化、高质量数据集上进行训练,这使其能够泛化到新类型的对象和图像,超出其在训练期间观察到的内容。
总而言之,这些功能使SAM能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。
在自然语言处理和最近的计算机视觉领域,最令人兴奋的发展之一是基础模型的发展,这些基础模型可以使用“提示”技术对新数据集和任务执行零样本和少样本学习。 我们从这行工作中汲取了灵感。
SAM被训练为任务图像提示返回有效的分割掩码,其中提示可以是前景/背景点、粗框或掩码、自由格式文本,或者一般来说,指示图像中要分割的内容的任何信息。 掩码的要求有效性,即使有可能提示不明确并且可能指代多个对象(例如,衬衫上的一个点可能表示衬衫或穿着它的人),输出也应该是一个合理的掩码这些对象之一。此任务用于预训练模型并通过提示解决一般的下游分割任务。
预训练任务和交互式数据收集对模型设计施加了特定的约束。特别是,该模型需要在Web浏览器的CPU上实时运行,允许注释者实时交互地使用SAM以高效地进行注释。 然运行时约束意味着质量和运行时之间的权衡,简单的设计在实践中会产生良好的结果。
在引擎盖下,图像编码器为图像生成一次性嵌入,而轻量级编码器将任何提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM可以在50毫秒内根据网络浏览器中的任何提示生成一个片段。
在 Web 浏览器中,SAM 有效地映射图像特征和一组提示嵌入以生成分割掩码。
为了训练模型,需要大量多样的数据源。SA-1B是迄今为止世界上最大的分割数据集。
使用SAM收集数据。标注者使用SAM交互式地标注图像,然后使用新标注的数据依次更新SAM。系统进过多次重复此循环以迭代改进模型和数据集。
通过SAM,收集新的分割掩码比以往任何时候都快。大概只14秒就可以交互式地注释遮罩。每个掩码注释过程仅比注释边界框慢2倍,使用最快的注释接口大约需要7秒。
与之前的大规模分割数据收集工作相比,SAM模型比COCO全手动基于多边形的掩码注释快6.5倍,比之前最大的数据注释工作快2倍。
然而,依靠交互式注释掩码并不能充分扩展来创建10亿掩码数据集。 因此,项目构建了一个数据引擎来创建SA-1B数据集。
该数据引擎具有三个档位。
第一档,通过模型协助注释,如上所述。
第二档,全自动标注与辅助标注相结合,有助于增加收集掩码的多样性。
第三档,全自动创建掩码,并允许的数据集扩展。
最终数据集包括大约1100万张许可和隐私保护图像上收集到的超过11亿个分割掩码。
SA-1B 的掩码比任何现有的分割数据集多400倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美。
Segment Anything的功能是对使用数据引擎收集的数百万张图像和掩码进行训练的结果。结果是一个包含超过10亿个分割掩码的数据集——比之前的任何分割数据集大400倍。
SA-1B 的图像来自多个国家/地区的照片提供商,这些国家/地区跨越不同的地理区域和收入水平。虽然某些地理区域的代表性仍然不足,但与以前的分割数据集相比,SA-1B 拥有更多的图像,并且在所有地区的总体代表性更好。
SA-1B已经做出卓有成效的研究,也支持让其他研究人员能够扩展训练图像分割的基础模型。
后续进一步希望这些数据可以成为带有附加注释的新数据集的基础,例如与每个面具相关的文本描述。
未来,SAM可用于通过AR眼镜识别日常物品,并且即时向用户提示提醒和指示。SAM已经了解了对象是什么的一般概念,它可以为任何图像或任何视频中的任何对象生成掩码,甚至包括它在训练期间没有遇到的对象和图像类型。
SAM的通用性足以涵盖广泛的用例,并且可以开箱即用地用于新的图像“领域”——无论是水下照片还是细胞显微镜——无需额外训练 。
SAM可用于帮助需要在任何图像中查找和分割任何对象的众多领域中的应用程序。
对于AI研究社区和其他人来说,SAM可以成为更大的AI系统的一个子系统,用于对世界进行更一般的多模态理解,例如,理解网页的视觉和文本内容。
在AR/VR领域,SAM可以根据用户的视线选择对象,然后将其“提升”为3D。
对于内容创作者,SAM可以改进创意应用,例如提取图像区域以进行拼贴或视频编辑。SAM还可用于帮助对地球上什至太空中的自然事件进行科学研究,例如,通过定位动物或物体以在视频中进行研究和跟踪。
SAM有可能影响广泛的领域——也许有一天会帮助农业部门的农民或协助生物学家进行研究。
SAM有着广泛的用例,很多其他更多的创意需要大家开动智慧的小脑瓜去挖掘。
展望未来,像素级别的图像理解与视觉内容的更高级别的语义理解之间更紧密的耦合,从而实现更强大的人工智能系统。
文章来自百度百家号 “虫虫搜奇”,作者 虫虫搜奇
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI