YOLO-Modelo Mundial
El YOLO-Modelo Mundial introduce un sistema avanzado, en tiempo real Ultralytics YOLOv8-para tareas de Detección de Vocabulario Abierto. Esta innovación permite detectar cualquier objeto dentro de una imagen basándose en textos descriptivos. Al reducir significativamente las demandas computacionales, conservando al mismo tiempo un rendimiento competitivo, YOLO-World surge como una herramienta versátil para numerosas aplicaciones basadas en la visión.
Observa: YOLO Flujo de trabajo de entrenamiento mundial en un conjunto de datos personalizado
Visión general
YOLO-World aborda los retos a los que se enfrentan los modelos tradicionales de detección de Vocabulario Abierto, que a menudo dependen de engorrosos modelos Transformer que requieren amplios recursos computacionales. La dependencia de estos modelos de categorías de objetos predefinidas también restringe su utilidad en escenarios dinámicos. YOLO-World revitaliza el marco YOLOv8 con capacidades de detección de vocabulario abierto, empleando elmodelado de visión-lenguaje y el preentrenamiento en amplios conjuntos de datos para sobresalir en la identificación de una amplia gama de objetos en escenarios de disparo cero con una eficacia inigualable.
Características principales
Solución en tiempo real: Aprovechando la velocidad de cálculo de las CNN, YOLO-World ofrece una solución rápida de detección de vocabulario abierto, que satisface a los sectores que necesitan resultados inmediatos.
Eficacia y rendimiento: YOLO-World reduce drásticamente los requisitos computacionales y de recursos sin sacrificar el rendimiento, ofreciendo una alternativa sólida a modelos como SAM pero a una fracción del coste computacional, lo que permite aplicaciones en tiempo real.
Inferencia con vocabulario fuera de línea: YOLO-World introduce una estrategia de "preguntar y luego detectar", empleando un vocabulario fuera de línea para mejorar aún más la eficacia. Este enfoque permite utilizar indicaciones personalizadas calculadas a priori, como subtítulos o categorías, que se codifican y almacenan como incrustaciones de vocabulario fuera de línea, lo que agiliza el proceso de detección.
Desarrollado por YOLOv8: Basado en Ultralytics YOLOv8, YOLO-World aprovecha los últimos avances en detección de objetos en tiempo real para facilitar la detección de vocabulario abierto con una precisión y velocidad sin precedentes.
Excelencia en los puntos de referencia: YOLO-World supera a los detectores de vocabulario abierto existentes, incluidas las series MDETR y GLIP, en términos de velocidad y eficacia en los puntos de referencia estándar, mostrando la capacidad superior de YOLOv8 en un único NVIDIA V100 GPU.
Aplicaciones versátiles: YOLO-El enfoque innovador de World abre nuevas posibilidades para multitud de tareas de visión, proporcionando mejoras de velocidad de órdenes de magnitud sobre los métodos existentes.
Modelos disponibles, tareas admitidas y modos de funcionamiento
Esta sección detalla los modelos disponibles con sus pesos específicos preentrenados, las tareas que admiten y su compatibilidad con varios modos de funcionamiento como Inferencia, Validación, Entrenamiento y Exportación, denotados por ✅ para los modos admitidos y ❌ para los modos no admitidos.
Nota
Todos los pesos de YOLOv8-World se han migrado directamente desde el repositorio oficial de YOLO-World, destacando sus excelentes contribuciones.
Tipo de modelo | Pesos preentrenados | Tareas admitidas | Inferencia | Validación | Formación | Exportar |
---|---|---|---|---|---|---|
YOLOv8s-mundo | yolov8s-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8s-mundov2 | yolov8s-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
YOLOv8m-mundo | yolov8m-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8m-mundov2 | yolov8m-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
YOLOv8l-mundo | yolov8l-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8l-mundov2 | yolov8l-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
YOLOv8x-mundo | yolov8x-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8x-mundov2 | yolov8x-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
Transferencia de disparo cero en el conjunto de datos COCO
Tipo de modelo | mAP | mAP50 | mAP75 |
---|---|---|---|
yolov8s-mundo | 37.4 | 52.0 | 40.6 |
yolov8s-mundov2 | 37.7 | 52.2 | 41.0 |
yolov8m-mundo | 42.0 | 57.0 | 45.6 |
yolov8m-mundov2 | 43.0 | 58.4 | 46.8 |
yolov8l-mundo | 45.7 | 61.3 | 49.8 |
yolov8l-mundov2 | 45.8 | 61.3 | 49.8 |
yolov8x-mundo | 47.0 | 63.0 | 51.2 |
yolov8x-mundov2 | 47.1 | 62.8 | 51.4 |
Ejemplos de uso
Los modelos YOLO-World son fáciles de integrar en tus aplicaciones Python . Ultralytics proporciona una API Python y comandos CLI fáciles de usar para agilizar el desarrollo.
Uso del tren
Consejo
Recomendamos encarecidamente utilizar yolov8-worldv2
para el entrenamiento personalizado, porque admite el entrenamiento determinista y también es fácil de exportar a otros formatos, como onnx/tensorrt.
Detección de objetos es sencillo con el train
como se ilustra a continuación:
Ejemplo
PyTorch preentrenado *.pt
modelos, así como la configuración *.yaml
pueden pasarse a la función YOLOWorld()
para crear una instancia del modelo en python:
from ultralytics import YOLOWorld
# Load a pretrained YOLOv8s-worldv2 model
model = YOLOWorld("yolov8s-worldv2.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLOv8n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
Predecir el uso
La detección de objetos es sencilla con la función predict
como se ilustra a continuación:
Ejemplo
from ultralytics import YOLOWorld
# Initialize a YOLO-World model
model = YOLOWorld("yolov8s-world.pt") # or select yolov8m/l-world.pt for different sizes
# Execute inference with the YOLOv8s-world model on the specified image
results = model.predict("path/to/image.jpg")
# Show results
results[0].show()
Este fragmento demuestra la sencillez de cargar un modelo preentrenado y ejecutar una predicción sobre una imagen.
Uso de Val
La validación del modelo en un conjunto de datos se racionaliza del siguiente modo:
Ejemplo
Uso de la pista
El seguimiento de objetos con el modelo YOLO-World en un vídeo/imágenes se racionaliza del siguiente modo:
Ejemplo
Nota
Los modelos YOLO-World proporcionados por Ultralytics vienen preconfigurados con las categorías del conjunto de datos COCO como parte de su vocabulario offline, lo que mejora la eficacia para su aplicación inmediata. Esta integración permite a los modelos YOLOv8-World reconocer y predecir directamente las 80 categorías estándar definidas en el conjunto de datos COCO sin necesidad de configuración o personalización adicionales.
Establecer indicaciones
El marco YOLO-World permite la especificación dinámica de clases mediante avisos personalizados, lo que permite a los usuarios adaptar el modelo a sus necesidades específicas sin necesidad de volver a entrenar. Esta función es especialmente útil para adaptar el modelo a nuevos dominios o tareas específicas que no formaban parte originalmente de los datos de entrenamiento. Al establecer indicaciones personalizadas, los usuarios pueden guiar esencialmente el enfoque del modelo hacia objetos de interés, mejorando la relevancia y precisión de los resultados de detección.
Por ejemplo, si tu aplicación sólo requiere detectar objetos "persona" y "autobús", puedes especificar estas clases directamente:
Ejemplo
from ultralytics import YOLO
# Initialize a YOLO-World model
model = YOLO("yolov8s-world.pt") # or choose yolov8m/l-world.pt
# Define custom classes
model.set_classes(["person", "bus"])
# Execute prediction for specified categories on an image
results = model.predict("path/to/image.jpg")
# Show results
results[0].show()
También puedes guardar un modelo después de establecer clases personalizadas. Al hacerlo, creas una versión del modelo YOLO-World especializada para tu caso de uso específico. Este proceso incrusta tus definiciones de clases personalizadas directamente en el archivo del modelo, haciendo que el modelo esté listo para usarse con tus clases especificadas sin más ajustes. Sigue estos pasos para guardar y cargar tu modelo personalizado YOLOv8 :
Ejemplo
Primero carga un modelo YOLO-World, establece clases personalizadas para él y guárdalo:
from ultralytics import YOLO
# Initialize a YOLO-World model
model = YOLO("yolov8s-world.pt") # or select yolov8m/l-world.pt
# Define custom classes
model.set_classes(["person", "bus"])
# Save the model with the defined offline vocabulary
model.save("custom_yolov8s.pt")
Después de guardarlo, el modelo custom_yolov8s.pt se comporta como cualquier otro modelo YOLOv8 preentrenado, pero con una diferencia clave: ahora está optimizado para detectar sólo las clases que hayas definido. Esta personalización puede mejorar significativamente el rendimiento y la eficacia de la detección para tus escenarios de aplicación específicos.
Ventajas de ahorrar con el vocabulario personalizado
- Eficacia: Agiliza el proceso de detección centrándose en los objetos relevantes, reduciendo la carga computacional y acelerando la inferencia.
- Flexibilidad: Permite adaptar fácilmente el modelo a tareas de detección nuevas o nicho sin necesidad de un reentrenamiento o recogida de datos exhaustivos.
- Simplicidad: Simplifica el despliegue al eliminar la necesidad de especificar repetidamente clases personalizadas en tiempo de ejecución, haciendo que el modelo pueda utilizarse directamente con su vocabulario incorporado.
- Rendimiento: Mejora la precisión de detección de las clases especificadas, centrando la atención y los recursos del modelo en el reconocimiento de los objetos definidos.
Este enfoque proporciona un potente medio de personalizar los modelos de detección de objetos más avanzados para tareas específicas, haciendo que la IA avanzada sea más accesible y aplicable a una gama más amplia de aplicaciones prácticas.
Reproducir los resultados oficiales desde cero(Experimental)
Preparar conjuntos de datos
- Datos del tren
Conjunto de datos | Tipo | Muestras | Cajas | Archivos de anotación |
---|---|---|---|---|
Objetos365v1 | Detección | 609k | 9621k | objetos365_entrenamiento.json |
GQA | Toma de tierra | 621k | 3681k | entrenamiento_final_mezclado_no_coco.json |
Flickr30k | Toma de tierra | 149k | 641k | final_flickr_separateGT_train.json |
- Datos Val
Conjunto de datos | Tipo | Archivos de anotación |
---|---|---|
LVIS minival | Detección | minival.txt |
Iniciar la formación desde cero
Nota
WorldTrainerFromScratch
está altamente personalizado para permitir el entrenamiento de modelos yolo-world tanto en conjuntos de datos de detección como en conjuntos de datos de puesta a tierra simultáneamente. Para más detalles, consulta ultralytics.model.yolo.world.train_world.py.
Ejemplo
from ultralytics import YOLOWorld
from ultralytics.models.yolo.world.train_world import WorldTrainerFromScratch
data = dict(
train=dict(
yolo_data=["Objects365.yaml"],
grounding_data=[
dict(
img_path="../datasets/flickr30k/images",
json_file="../datasets/flickr30k/final_flickr_separateGT_train.json",
),
dict(
img_path="../datasets/GQA/images",
json_file="../datasets/GQA/final_mixed_train_no_coco.json",
),
],
),
val=dict(yolo_data=["lvis.yaml"]),
)
model = YOLOWorld("yolov8s-worldv2.yaml")
model.train(data=data, batch=128, epochs=100, trainer=WorldTrainerFromScratch)
Citas y agradecimientos
Extendemos nuestra gratitud al Centro de Visión por Ordenador AILab de Tencent por su trabajo pionero en la detección de objetos de vocabulario abierto en tiempo real con YOLO-World:
Para más información, el documento original YOLO-World está disponible en arXiv. Se puede acceder al código fuente del proyecto y a otros recursos a través de su repositorio GitHub. Agradecemos su compromiso por hacer avanzar el campo y compartir sus valiosos conocimientos con la comunidad.
PREGUNTAS FRECUENTES
¿Qué es el modelo YOLO-Mundo y cómo funciona?
El modelo YOLO-World es un enfoque avanzado de detección de objetos en tiempo real basado en el Ultralytics YOLOv8 marco de trabajo. Destaca en tareas de Detección de Vocabulario Abierto al identificar objetos dentro de una imagen basándose en textos descriptivos. Mediante el modelado del lenguaje de visión y el preentrenamiento en grandes conjuntos de datos, YOLO-World consigue una gran eficacia y rendimiento con una demanda computacional significativamente reducida, lo que lo hace ideal para aplicaciones en tiempo real en diversos sectores.
¿Cómo gestiona YOLO-World la inferencia con indicaciones personalizadas?
YOLO-World es compatible con la estrategia "preguntar y luego detectar", que utiliza un vocabulario offline para mejorar la eficacia. Las indicaciones personalizadas, como subtítulos o categorías específicas de objetos, se codifican previamente y se almacenan como incrustaciones de vocabulario fuera de línea. Este enfoque agiliza el proceso de detección sin necesidad de reentrenamiento. Puedes configurar dinámicamente estas indicaciones dentro del modelo para adaptarlo a tareas de detección específicas, como se muestra a continuación:
from ultralytics import YOLOWorld
# Initialize a YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes
model.set_classes(["person", "bus"])
# Execute prediction on an image
results = model.predict("path/to/image.jpg")
# Show results
results[0].show()
¿Por qué debería elegir YOLO-World en lugar de los modelos tradicionales de detección de vocabulario abierto?
YOLO-World ofrece varias ventajas sobre los modelos tradicionales de detección de Vocabulario Abierto:
- Rendimiento en Tiempo Real: Aprovecha la velocidad de cálculo de las CNN para ofrecer una detección rápida y eficaz.
- Eficiencia y baja demanda de recursos: YOLO-World mantiene un alto rendimiento a la vez que reduce significativamente las demandas computacionales y de recursos.
- Avisos personalizables: El modelo admite la configuración dinámica de avisos, lo que permite a los usuarios especificar clases de detección personalizadas sin necesidad de reentrenamiento.
- Excelencia en los puntos de referencia: Supera a otros detectores de vocabulario abierto, como MDETR y GLIP, tanto en velocidad como en eficacia en los puntos de referencia estándar.
¿Cómo entreno un modelo YOLO-World en mi conjunto de datos?
Entrenar un modelo YOLO-World en tu conjunto de datos es sencillo a través de la API proporcionada Python o de los comandos CLI . He aquí cómo empezar a entrenar utilizando Python:
from ultralytics import YOLOWorld
# Load a pretrained YOLOv8s-worldv2 model
model = YOLOWorld("yolov8s-worldv2.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
O utilizando CLI:
¿Cuáles son los modelos YOLO-World preentrenados disponibles y sus tareas compatibles?
Ultralytics ofrece múltiples modelos preentrenados YOLO-World que admiten diversas tareas y modos de funcionamiento:
Tipo de modelo | Pesos preentrenados | Tareas admitidas | Inferencia | Validación | Formación | Exportar |
---|---|---|---|---|---|---|
YOLOv8s-mundo | yolov8s-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8s-mundov2 | yolov8s-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
YOLOv8m-mundo | yolov8m-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8m-mundov2 | yolov8m-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
YOLOv8l-mundo | yolov8l-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8l-mundov2 | yolov8l-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
YOLOv8x-mundo | yolov8x-world.pt | Detección de objetos | ✅ | ✅ | ✅ | ❌ |
YOLOv8x-mundov2 | yolov8x-worldv2.pt | Detección de objetos | ✅ | ✅ | ✅ | ✅ |
¿Cómo reproduzco los resultados oficiales de YOLO-World desde cero?
Para reproducir los resultados oficiales desde cero, tienes que preparar los conjuntos de datos y lanzar el entrenamiento utilizando el código proporcionado. El procedimiento de entrenamiento consiste en crear un diccionario de datos y ejecutar el programa train
con un entrenador personalizado:
from ultralytics import YOLOWorld
from ultralytics.models.yolo.world.train_world import WorldTrainerFromScratch
data = {
"train": {
"yolo_data": ["Objects365.yaml"],
"grounding_data": [
{
"img_path": "../datasets/flickr30k/images",
"json_file": "../datasets/flickr30k/final_flickr_separateGT_train.json",
},
{
"img_path": "../datasets/GQA/images",
"json_file": "../datasets/GQA/final_mixed_train_no_coco.json",
},
],
},
"val": {"yolo_data": ["lvis.yaml"]},
}
model = YOLOWorld("yolov8s-worldv2.yaml")
model.train(data=data, batch=128, epochs=100, trainer=WorldTrainerFromScratch)