Ir al contenido

YOLOv6.0 frente a YOLO: comparación técnica para la detección de objetos

Seleccionar la arquitectura de visión por ordenador adecuada es una decisión fundamental para ingenieros e investigadores. El panorama de la detección de objetos es muy competitivo y los gigantes de la industria no dejan de superar los límites de la velocidad y la precisión. En esta página se ofrece una comparación técnica exhaustiva entre YOLOv6.0, un modelo eficiente en hardware de Meituan, y YOLO, una arquitectura repleta de tecnología de Alibaba Group.

Visión general de YOLOv6.0

YOLOv6.0 es un marco robusto diseñado específicamente para aplicaciones industriales. Lanzado por el departamento Vision AI de Meituan, da prioridad a la eficiencia en el mundo real, con el objetivo de ofrecer un alto rendimiento en las limitaciones de hardware estándar que se encuentran en la fabricación y la automatización.

Arquitectura e Innovaciones Clave

YOLOv6.0 perfecciona el paradigma del detector de una sola etapa centrándose en la reparametrización. Esta técnica permite que el modelo tenga una estructura compleja durante el entrenamiento para un mejor aprendizaje, pero se colapsa en una estructura más simple y rápida durante la inferencia.

  • Red troncal de EfficientRep: El backbone utiliza bloques distintos para diferentes tamaños de modelo (EfficientRep para modelos pequeños y CSPStackRep para los más grandes), optimizando la utilización de las capacidades de hardware de GPU .
  • Cuello Rep-PAN: El cuello emplea una topología Rep-PAN, lo que mejora la fusión de características al tiempo que mantiene altas velocidades de inferencia.
  • Autodestilación: Metodología de entrenamiento clave en la que el modelo aprende de sus propias predicciones (en concreto, de una rama maestra dentro de la misma red) para mejorar la precisión sin el coste computacional de un modelo maestro independiente durante el despliegue.

Optimización industrial

YOLOv6 se ha diseñado explícitamente teniendo en cuenta la cuantización. Su arquitectura es compatible con la cuantificación posterior a la formación (PTQ) y la formación consciente de la cuantificación (QAT), lo que la convierte en una firme candidata para su implantación en dispositivos periféricos en los que se prefiere la precisión INT8 en aras de la velocidad.

Más información sobre YOLOv6

Descripción general de DAMO-YOLO

YOLO, desarrollado por el Grupo Alibaba, introduce un conjunto de tecnologías novedosas para optimizar el equilibrio entre rendimiento y latencia. Se distingue por incorporar la búsqueda de arquitectura neuronal (NAS) y técnicas avanzadas de fusión de características.

Arquitectura e Innovaciones Clave

YOLO se aleja de las arquitecturas puramente artesanales y se basa en parte en estrategias de búsqueda automatizadas para encontrar estructuras eficientes.

  • Red troncal potenciada por NAS (MazeNet): La columna vertebral se genera utilizando MAE-NAS (búsqueda de arquitectura neuronal), lo que da como resultado una estructura denominada MazeNet altamente optimizada para presupuestos computacionales variables.
  • RepGFPN eficiente: Utiliza una red piramidal de características generalizadas (GFPN) combinada con la reparametrización. Esto permite una fusión rica de características multiescala, fundamental para detectar objetos de distintos tamaños.
  • ZeroHead: un diseño simplificado del cabezal de detección que reduce el número de parámetros y la complejidad computacional en la fase final de la red.
  • AlignedOTA: Una estrategia dinámica de asignación de etiquetas que resuelve el desajuste entre las tareas de clasificación y regresión durante el proceso de entrenamiento.

Fusión avanzada de funciones

El cuello RepGFPN de YOLO es especialmente eficaz en el manejo de escenas complejas con objetos superpuestos. Al permitir conexiones de salto entre distintos niveles de escala, conserva la información semántica mejor que las estructuras FPN estándar.

Más información sobre DAMO-YOLO

Análisis de rendimiento: Velocidad vs. Precisión

La siguiente comparación utiliza datos del conjunto de datosCOCO val2017. Las métricas ponen de relieve las compensaciones entre los dos modelos a diferentes escalas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6,0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Puntos clave

  1. Líder en latencia:YOLOv6.0n es el modelo más rápido de esta comparativa, con 1,17 ms en una GPU T4. Esto lo hace excepcionalmente adecuado para requisitos de alta velocidad en escenarios de inferencia en tiempo real.
  2. Pico de precisión:YOLOv6.0l alcanza la máxima precisión con un mAP de 52,8, lo que demuestra la eficacia de su espina dorsal pesada y su estrategia de autodestilación, aunque a costa de parámetros y FLOPs más altos en comparación con YOLO.
  3. Eficiencia:DAMO-YOLOs supera a YOLOv6.0s en precisión (46,0 frente a 45,0 mAP) con menos parámetros (16,3 millones frente a 18,5 millones). Esto pone de manifiesto la eficacia de la red troncal de búsqueda NAS en el régimen de modelos pequeños.
  4. Eficacia de los parámetros: En general, los modelos YOLO presentan FLOPs y recuentos de parámetros más bajos para una precisión comparable en el rango medio-grande, lo que valida la eficacia del diseño ZeroHead.

La ventaja Ultralytics

Mientras que YOLOv6.0 y YOLO ofrecen funciones atractivas para nichos específicos, Ultralytics YOLO11 proporciona una solución más holística para el desarrollo de la IA moderna. La elección de un modelo Ultralytics desbloquea un ecosistema integral diseñado para agilizar todo el ciclo de vida del aprendizaje automático.

¿Por qué elegir Ultralytics YOLO?

  • Facilidad de uso inigualable: A diferencia de los repositorios de investigación, que a menudo requieren complejas configuraciones de entorno y la compilación de operadores C++ personalizados, los modelos de Ultralytics pueden instalarse mediante un simple comando pip install ultralytics. La intuición API de Python le permite entrenar y desplegar modelos en unas pocas líneas de código.
  • Equilibrio de rendimiento: YOLO11 está diseñado para proporcionar el equilibrio óptimo entre velocidad de inferencia y precisión, superando a menudo a los competidores en pruebas de referencia del mundo real y manteniendo al mismo tiempo menores requisitos de memoria durante el entrenamiento.
  • Versatilidad de tareas: Mientras que YOLOv6 y YOLO son principalmente detectores de objetos, Ultralytics YOLO admite de forma nativa una amplia gama de tareas, como la segmentación de instancias, la estimación de poses, la clasificación y la detección de cajas delimitadoras orientadas (OBB).
  • Ecosistema bien mantenido: Ultralytics proporciona un ecosistema vivo con actualizaciones frecuentes, amplia documentación y soporte de la comunidad a través de Discord y GitHub. Esto garantiza que su proyecto esté preparado para el futuro y sea compatible con las últimas bibliotecas de hardware y software.
  • Flexibilidad de despliegue: Exporte fácilmente sus modelos entrenados a varios formatos como ONNXTensorRT, CoreML y OpenVINO mediante el modo de exportación integrado, lo que facilita la implementación en todo tipo de dispositivos, desde servidores en la nube hasta Raspberry Pi.

Ejemplo: Ejecución de la detección de objetos con YOLO11

Iniciarse en la detección de vanguardia es notablemente sencillo con Ultralytics:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Conclusión

Tanto YOLOv6.0 como YOLO representan hitos significativos en la evolución de la detección de objetos. YOLOv6.0 destaca en entornos industriales en los que la velocidad bruta y el soporte de cuantización son primordiales, especialmente con su variante Nano. YOLO muestra la potencia de la búsqueda de arquitectura neuronal y la innovadora fusión de características, ofreciendo una gran eficacia y precisión en la gama de modelos pequeños y medianos.

Sin embargo, para los desarrolladores que buscan una solución lista para producción que combine un rendimiento de vanguardia con versatilidad y facilidad de uso, Ultralytics YOLO11 sigue siendo la opción recomendada. Su sólido ecosistema, sus capacidades multitarea y su perfecta integración en los modernos flujos de trabajo de MLOps suponen una clara ventaja para garantizar el éxito de los proyectos.

Explorar Otros Modelos

Para ampliar su comprensión del panorama de la detección de objetos, considere la posibilidad de explorar estas comparaciones de modelos relacionados:


Comentarios