Ir al contenido

YOLOv6.0 frente aYOLO: un enfrentamiento técnico

El panorama de la detección de objetos en tiempo real se caracteriza por una rápida iteración y una competencia por alcanzar el equilibrio óptimo entre velocidad y precisión. Dos contribuciones significativas a este campo son YOLOv6.YOLOv6, desarrollado por Meituan, y YOLO, de la Academia DAMO de Alibaba. Esta comparación explora las innovaciones arquitectónicas, los benchmarks de rendimiento y los escenarios de implementación ideales para ambos modelos, al tiempo que destaca cómo el moderno Ultralytics sigue ampliando los límites de la visión artificial.

Punto de referencia del rendimiento

Ambos modelos están destinados a aplicaciones industriales en tiempo real, pero obtienen sus resultados mediante diferentes estrategias de optimización. La tabla siguiente detalla su rendimiento en el conjunto de datos COCO .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Descripción general de YOLOv6-3.0

Lanzado por Meituan a principios de 2023, YOLOv6.YOLOv6 representa una «recarga a gran escala» de su arquitectura anterior. Se centra en gran medida en modelos de ingeniería optimizados para su implementación en hardware dedicado, como GPU, lo que lo convierte en uno de los favoritos para la automatización industrial.

Características principales:

  • Concatenación bidireccional (BiC): un método mejorado de fusión de características en el cuello que mejora la precisión de la localización sin un coste computacional significativo.
  • Entrenamiento asistido por anclas (AAT): Una estrategia de entrenamiento híbrida que combina paradigmas basados en anclas y sin anclas para estabilizar la convergencia y mejorar la precisión final.
  • Cabezal desacoplado: separa las tareas de clasificación y regresión, un estándar en los detectores modernos, lo que permite refinamientos más precisos del cuadro delimitador.
  • Compatible con cuantificación: la arquitectura está diseñada específicamente para minimizar la pérdida de precisión al cuantificar a INT8 utilizando técnicas como RepOptimizer y destilación por canales.

Más información sobre YOLOv6

Descripción general de DAMO-YOLO

Desarrollado por Alibaba Group y lanzado a finales de 2022, YOLO introduce varias tecnologías novedosas destinadas a superar los límites de la relación entre velocidad y precisión, en particular mediante la búsqueda de arquitectura neuronal (NAS).

Características principales:

  • MAE-NAS Backbone: Utiliza una red troncal descubierta mediante la búsqueda de arquitectura neuronal (NAS) basada en el principio de máxima entropía, lo que garantiza un alto flujo de información y eficiencia.
  • RepGFPN eficiente: un diseño heavyneck que sustituye la PANet estándar por una red piramidal de características generalizadas (GFPN), lo que ofrece una mejor fusión de características multiescala.
  • ZeroHead: un cabezal de detección extremadamente ligero diseñado para reducir la sobrecarga computacional que suele asociarse a los cabezales desacoplados «pesados».
  • AlignedOTA: una estrategia actualizada de asignación de etiquetas que alinea las tareas de clasificación y regresión de manera más eficaz durante el entrenamiento.

Análisis comparativo

Arquitectura y filosofía de diseño

La principal diferencia radica en el origen de su diseño. YOLOv6.YOLOv6 se ha diseñado manualmente prestando especial atención a la «facilidad de implementación», centrándose específicamente en TensorRT en NVIDIA . El uso de convoluciones estándar y bloques de estilo RepVGG lo hace muy predecible en entornos de producción.

Por el contrario, YOLO se basa en gran medida en la búsqueda automatizada (NAS) para encontrar estructuras óptimas. Si bien esto da como resultado una excelente eficiencia teórica (FLOP), las complejas estructuras ramificadas que se encuentran en las estructuras principales derivadas de NAS pueden ser a veces más difíciles de optimizar para compiladores de hardware específicos en comparación con el diseño sencillo de YOLOv6.

Rendimiento en dispositivos periféricos

Para tareas que implican IA de vanguardia, ambos modelos ofrecen variantes competitivas «Tiny» o «Nano». YOLOv6 es excepcionalmente ligero (4,7 millones de parámetros), lo que lo hace adecuado para dispositivos con limitaciones severas.YOLO, aunque es ligeramente más grande, a menudo ofrece una mayor precisión (42,0 mAP) desde el primer momento, lo que podría justificar el coste computacional adicional para aplicaciones que requieren un mayor nivel de detalle.

Metodologías de Entrenamiento

YOLOv6 ampliamente la autodestilación, en la que un modelo maestro más grande guía al modelo alumno durante el entrenamiento. Esto es crucial para su alto rendimiento, pero añade complejidad al proceso de entrenamiento.YOLO un módulo de mejora de la destilación, pero hace hincapié en su asignación de etiquetas AlignedOTA para manejar muestras difíciles de manera más eficaz durante el proceso de aprendizaje.

Consideraciones para la implementación

Al implementar en producción, tenga en cuenta que YOLOv6 a menudo ofrece una mejor compatibilidad inmediata con la cuantificación INT8 a través de TensorRT, lo que puede duplicar la velocidad de inferencia en hardware compatible, como NVIDIA Orin.

La ventaja de Ultralytics

Si bienYOLO YOLOv6 logros impresionantes en materia de investigación, el Ultralytics ofrece una ventaja distintiva para los desarrolladores que priorizan la facilidad de uso, la facilidad de mantenimiento y la preparación para la producción.

Experiencia de desarrollo sin interrupciones

Ultralytics , incluyendo YOLO11 y el innovador YOLO26, se basan en un marco unificado. Esto significa que puede entrenar, validar e implementar modelos utilizando una API sencilla y coherente.

from ultralytics import YOLO

# Load a model (switch freely between versions)
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

Versatilidad en todas las tareas

A diferencia de muchos repositorios especializados, el Ultralytics admite una amplia gama de tareas de visión artificial que van más allá de la simple detección. Esto incluye la segmentación de instancias, la estimación de poses, la clasificación y la detección de cuadros delimitadores orientados (OBB). Esta versatilidad permite a los equipos consolidar sus herramientas de IA en un único flujo de trabajo.

Integración de plataformas

La Ultralytics simplifica aún más el ciclo de vida al proporcionar herramientas para la gestión de conjuntos de datos, la anotación automática y el entrenamiento en la nube con un solo clic. Este enfoque integrado elimina la fricción de configurar entornos locales complejos y gestionar conjuntos de datos dispares.

El futuro: Ultralytics

Para los desarrolladores que buscan lo último en rendimiento e innovación arquitectónica, YOLO26 establece un nuevo estándar.

  • NMS de extremo a extremo: al eliminar la supresión no máxima (NMS), YOLO26 simplifica el proceso de implementación y reduce la variación de la latencia, una característica fundamental para los sistemas de seguridad en tiempo real.
  • CPU : con la eliminación de la pérdida focal de distribución (DFL) y la optimización para las restricciones de borde, YOLO26 alcanza CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en una opción superior para dispositivos sin GPU dedicadas.
  • Estabilidad de entrenamiento avanzado: la incorporación del optimizador MuSGD, inspirado en las técnicas de entrenamiento LLM, aporta una estabilidad sin precedentes al entrenamiento de modelos de visión, lo que garantiza una convergencia más rápida y una mejor generalización.
  • Mejoras específicas para cada tarea: ya sea la estimación de la verosimilitud logarítmica residual (RLE) para una estimación precisa de la pose o las pérdidas de ángulo especializadas para OBB, YOLO26 ofrece mejoras específicas para casos de uso complejos.

Más información sobre YOLO26

Resumen

  • Elija YOLOv6. YOLOv6 si su objetivo principal de implementación son NVIDIA de alto rendimiento (por ejemplo, T4, A100) y necesita compatibilidad con cuantificación madura para la inspección industrial o el análisis de vídeo.
  • ElijaYOLO si le interesan las arquitecturas basadas en NAS y necesita una red troncal altamente eficiente para investigación o escenarios específicos en los que RepGFPN ofrece una mejor fusión de características.
  • Elija Ultralytics para obtener el mejor equilibrio general entre velocidad, precisión y experiencia de desarrollo. Su diseñoNMS, sus bajos requisitos de memoria durante el entrenamiento y su amplio soporte para ecosistemas lo convierten en la opción ideal para escalar desde prototipos rápidos hasta soluciones empresariales de producción.

Lecturas adicionales

Explora más comparaciones y modelos en la Ultralytics :

  • YOLOv8 vs. YOLOv6
  • RT-DETR - Transformador de detección en tiempo real.
  • YOLOv10 : detección de objetos en tiempo real de extremo a extremo.
  • COCO : el punto de referencia estándar para la detección de objetos.

Comentarios