“赛博螺丝工”解放双手的时刻来了!
重复手动拉框一直以来都是数据标注中最令人头疼的部分。人工标注不准确且低效,会严重影响数据集的质量。
人工标注费时费力
今天向大家介绍一款全新的交互式AI自动标注工具:T-Rex Label,可以帮助您显著提升标注效率。T-Rex Label 支持在密集场景下进行一键标注,适用于各行各业的数据集。作为一款开箱即用的工具,它将大幅提高您的标注效率。
AI 一键智能标注
相信了解计算机视觉的朋友都会对刷新 SOTA 纪录的 Grounding DINO 和 T-Rex2 模型有所耳闻。这些都是由 IDEA 计算机视觉团队研发的开集目标检测模型,T-Rex Label 是由该团队基于 T-Rex2 推出的自动标注工具。接下来,我们就详细讲讲 T-Rex Label 如何借助 T-Rex2 实现“一键标注”与“检测一切”。
T-Rex2 视觉提示功能相比于语言提示更高效。视觉提示可以直接框选 prompt 生成指令。语言提示在一些情况下则需要反复的措辞与修改,会消耗更多的时间。对于语言描述困难的物体,如复杂的形状或特殊的纹理,视觉提示可以有效降低语言障碍对标注过程的影响,即使在面对罕见的物体时也能提供准确高效的标注。
视觉提示演示
交互式视觉提示则可以让用户立即得到反馈,并在必要时进行快速修正,确保标注的准确性,提升数据质量。
交互式视觉提示演示
因此,T-Rex Label 的工作流程可以概括为:框选目标物体→ AI 一键标注→人工检查与 AI 辅助修正,省去了编排语言指令与手动拉框的过程,大大简化了标注流程,为研究人员节省了不少时间。
在国外学者 Konlavach Mengsuwan 的论文[1] 中,更是直观地展示了 T-Rex 开集物体检测模型在计数方面的优势,远超 GPT-4V 和 YOLOv8!
GPT-4V 作为性能最强的多模态模型模型,在物体计数的速度与准确度上远不及T-Rex。在效率方面,T-Rex 可以实现0.5秒完成一张图片推理,包含物体检测与物体计数。GPT-4V 则需要 1.05 秒才能处理一张图片。在准确度方面,T-Rex 预测准确度 R2 值为 0.923,是 GPT-4V Zero-Shot 的2.5倍,这说明 T-Rex 的图片分析结果更接近真实情况,能实现高精确度的物体检测。
GPT-4 Zero-Shot VS T-Rex
T-Rex Label 的 AI 智能标注功能可以精准地按照提示识别物体。特别是针对高难度的复杂场景,T-Rex Label 更能展现出准确度优势。复杂场景除了物体数量,还存在物体大小、形状、角度的变异性,一些模型会在复杂场景中频频出错,因此还需要大量查缺补漏的时间。但 T-Rex Label 可以精准地识别出绝大部分物体,帮助标注员减少返工的时间。
复杂场景效果演示
使用预训练模型自动标注,通常需要收集数据、标注数据、微调模型、部署模型、再用于自动标注,这个周期较长,且耗时耗力。以 YOLOv8 为例,根据论文[1] 的实验结果,YOLOv8 需要花费大量的时间进行标注和训练,整个流程时长是 T-Rex 的194倍,标注的准确性也不及 T-Rex。
YOLOv8 VS T-Rex
卓越的零样本检测能力,让 T-Rex Label 无需额外的训练成本就可以直接应用到各类场景的标注中,具有极强的泛化能力。目前已知 T-Rex Label 在农业、工业、动物、生物、医药、OCR、零售、电子、运输、物流等多个领域的数据集上都表现优异。
多行业适用
[1] Mengsuwan K, Palacio J C R, Ryo M. ChatGPT and general-purpose AI count fruits in pictures surprisingly well[J]. arXiv preprint arXiv:2404.08515, 2024.
T-Rex Label 无需下载安装,上手成本极低,还支持 Github 账号一键登录!
复制下方链接或点击阅读原文可快速体验:
https://trexlabel.com/?source=wx
文章来自于“OpenCV与AI深度学习”,作者“IDEA-CVR”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0