YOLO YOLO11: un análisis en profundidad de la detección de objetos en tiempo real
El panorama de la detección de objetos está en constante evolución, con investigadores e ingenieros que se esfuerzan por equilibrar las exigencias contrapuestas de precisión, velocidad de inferencia y eficiencia computacional. Dos arquitecturas destacadas que han surgido en este ámbito sonYOLO, desarrollada por Alibaba Group, y YOLO11, una potente iteración de Ultralytics.
Mientras queYOLO conceptos novedosos en la búsqueda de arquitectura neuronal (NAS) y la reparametrización intensiva, YOLO11 un enfoque refinado y centrado en el usuario, enfocado en la preparación para la producción y la versatilidad. Esta comparación explora los matices arquitectónicos, las métricas de rendimiento y las consideraciones prácticas de implementación de ambos modelos.
Descripción general de DAMO-YOLO
YOLO un detector de objetos de alto rendimiento propuesto por investigadores de la Academia DAMO de Alibaba. Se distingue por utilizar la búsqueda de arquitectura neuronal (NAS) para diseñar automáticamente estructuras eficientes adaptadas a restricciones específicas.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
- Organización:Alibaba Group
- Fecha: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
La arquitectura integra una RepGFPN (Red Piramidal Generalizada Reparametrizada) especializada para la fusión de características y un cabezal ligero denominado «ZeroHead». Un componente clave de su estrategia de entrenamiento es «AlignedOTA», un método dinámico de asignación de etiquetas diseñado para resolver problemas de desalineación entre tareas de clasificación y regresión. Además, se basa en gran medida en la destilación de modelos «maestros» más grandes para mejorar el rendimiento de variantes más pequeñas.
YOLO11
YOLO11 en el legado de laYOLO Ultralytics YOLO , perfeccionando el diseño de la red CSP (Cross Stage Partial) para maximizar la eficiencia de los parámetros. A diferencia de los modelos centrados en la investigación, que pueden requerir configuraciones complejas, YOLO11 diseñado para su aplicación inmediata en el mundo real, ofreciendo una experiencia «lista para usar».
- Autores: Glenn Jocher y Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- Documentación:https://docs.ultralytics.com/models/yolo11/
- GitHub:https://github.com/ultralytics/ultralytics
YOLO11 el diseño del bloque C3k2 e introduce módulos C2PSA (Cross Stage Partial with Spatial Attention) para capturar mejor el contexto global. Está totalmente integrado en el Ultralytics , lo que permite un entrenamiento, una validación y una implementación perfectos en diversos tipos de hardware, incluyendo CPU, GPU y dispositivos periféricos.
Comparación Técnica
La siguiente tabla destaca las diferencias de rendimiento entre los modelos. Mientras queYOLO un gran rendimiento teórico, YOLO11 ofrecer un perfil más equilibrado en cuanto a velocidad y precisión en escenarios prácticos, especialmente si se tiene en cuenta la sobrecarga que suponen la exportación y la implementación.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Arquitectura y metodologías de formación
YOLO utiliza MAE-NAS (Masked Autoencoder Neural Architecture Search) para descubrir estructuras troncales óptimas bajo restricciones de latencia específicas. Esto da como resultado modelos que son teóricamente eficientes, pero que pueden ser difíciles de modificar o ajustar sin el proceso NAS original. El proceso de entrenamiento es complejo y a menudo requiere un enfoque en dos etapas, en el que primero se entrena un modelo maestro pesado para destilar el conocimiento en el modelo objetivo más pequeño.
YOLO11, por el contrario, utiliza una arquitectura artesanal pero altamente optimizada que equilibra la profundidad, la amplitud y la resolución. El proceso de entrenamiento está optimizado, utilizando aumentos estándar y funciones de pérdida que no requieren modelos de enseñanza auxiliares ni fases de destilación complejas. Esto hace que YOLO11 sea YOLO11 más fácil de entrenar en conjuntos de datos personalizados sin necesidad de tener un profundo conocimiento del dominio.
Advertencia: Complejidad frente a usabilidad
Mientras que el enfoque basado en NASYOLO produce estructuras matemáticamente óptimas, la Ultralytics da prioridad a la usabilidad. Un modelo como YOLO11 se YOLO11 entrenar con un solo CLI . yolo train, mientras que los repositorios de investigación suelen requerir archivos de configuración complejos y una preparación en varios pasos.
La ventaja de Ultralytics
La elección de un modelo va más allá de mAP brutas mAP ; implica todo el ciclo de vida de un proyecto de aprendizaje automático. Ultralytics , como YOLO11y el innovador YOLO26, ofrecen ventajas distintivas que simplifican el desarrollo.
Facilidad de uso y ecosistema sin igual
El Ultralytics está diseñado para reducir la fricción. El entrenamiento de un YOLO11 requiere un código mínimo, y la Python es coherente en todas las versiones del modelo. Esto contrasta conYOLO, donde los usuarios suelen navegar por una base de código de nivel investigador que puede carecer de documentación sólida o mantenimiento a largo plazo.
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)
Además, la Ultralytics proporciona una interfaz perfecta para la gestión de conjuntos de datos, el etiquetado y el entrenamiento en la nube, democratizando de manera efectiva el acceso a capacidades avanzadas de visión artificial.
Versatilidad en todas las tareas
Uno de los argumentos más sólidos para adoptar el Ultralytics es su versatilidad. Mientras queYOLO principalmente un detector de objetos, YOLO11 una amplia gama de tareas de visión artificial dentro del mismo código base:
- Segmentación de instancias: enmascaramiento preciso de objetos.
- Estimación de la postura: detección de puntos clave para el seguimiento del esqueleto humano.
- Cuadro delimitador orientado (OBB): ideal para imágenes aéreas y objetos en ángulo.
- Clasificación: Categorización de la imagen completa.
Equilibrio del rendimiento y eficiencia de la memoria
Ultralytics son conocidos por su eficiente utilización de los recursos. YOLO11 requerir menos CUDA durante el entrenamiento en comparación con las arquitecturas que hacen un uso intensivo de transformadores o los complejos modelos derivados de NAS. Esto permite a los desarrolladores entrenar lotes más grandes en GPU de consumo, lo que acelera el ciclo de iteración.
Para la inferencia, YOLO11 están optimizados para exportarse a formatos como ONNX, TensorRTy CoreML. Esto garantiza que la alta precisión observada en las pruebas de rendimiento se traduzca en un rendimiento en tiempo real en dispositivos periféricos, desde módulos NVIDIA hasta Raspberry Pi.
Perspectivas Futuras: El Poder de YOLO26
Para los desarrolladores que buscan el máximo rendimiento, Ultralytics presentado YOLO26. Este modelo de última generación sustituye a YOLO11 avances revolucionarios:
- Diseño integral NMS: YOLO26 elimina el posprocesamiento de supresión no máxima (NMS). Este enfoque integral nativo simplifica los procesos de implementación y reduce la variación de latencia, una característica explorada por primera vez en YOLOv10.
- Optimizador MuSGD: Inspirado en las innovaciones en el entrenamiento de modelos de lenguaje grandes (LLM) (como Kimi K2 de Moonshot AI), YOLO26 utiliza el optimizador MuSGD para una convergencia más rápida y una mayor estabilidad en el entrenamiento.
- Optimización Edge-First: con la eliminación de Distribution Focal Loss (DFL) y CPU específicas CPU , YOLO26 logra una inferencia hasta un 43 % más rápida en las CPU, lo que lo convierte en la opción superior para la computación periférica.
- ProgLoss + STAL: Las nuevas funciones de pérdida mejoran la detección de objetos pequeños, una capacidad fundamental para las aplicaciones de drones e IoT.
Casos de Uso Ideales
- ElijaYOLO : es un investigador que estudia la eficacia de NAS en las estructuras básicas de la visión, o si tiene una restricción de hardware muy específica que requiere una arquitectura personalizada y dispone de los recursos necesarios para gestionar un complejo proceso de destilación.
- Elija YOLO11 : Necesita un detector robusto y de uso general que equilibre excepcionalmente bien la velocidad y la precisión. Es ideal para aplicaciones comerciales que requieren seguimiento, fácil entrenamiento con datos personalizados y amplia compatibilidad con plataformas.
- Elija YOLO26 si: necesita las velocidades de inferencia más rápidas posibles, especialmente en CPU periféricas, o necesita simplificar su pila de implementación eliminando NMS. Es la opción recomendada para nuevos proyectos que exigen una eficiencia y versatilidad de vanguardia.
Conclusión
TantoYOLO YOLO11 importantes contribuciones al campo de la visión artificial.YOLO el potencial de la búsqueda automatizada de arquitecturas, mientras que YOLO11 la aplicación práctica del aprendizaje profundo centrándose en la usabilidad y el soporte del ecosistema.
Para la mayoría de los desarrolladores y empresas, el Ultralytics , basado en YOLO11 el innovador YOLO26, ofrece la vía más directa hacia el valor. Gracias a una amplia documentación, el apoyo activo de la comunidad y herramientas como la Ultralytics , los usuarios pueden pasar del concepto a la implementación con confianza y rapidez.
Para aquellos interesados en otras arquitecturas, la Ultralytics también ofrece comparaciones con modelos como RT-DETR (Real-Time DEtection TRansformer) y YOLOv9, lo que garantiza que disponga de una visión completa a la hora de seleccionar la herramienta adecuada para sus necesidades de visión artificial.