YOLO YOLOv6. YOLOv6: un enfrentamiento técnico para la detección de objetos en tiempo real
El panorama de la detección de objetos en tiempo real se caracteriza por una rápida innovación, en la que la eficiencia arquitectónica y la velocidad de inferencia son fundamentales. Dos competidores importantes en este ámbito son YOLO, desarrollado por Alibaba Group, y YOLOv6.YOLOv6, un sólido marco de trabajo de Meituan. Ambos modelos pretenden lograr el equilibrio perfecto entre latencia y precisión, pero lo consiguen mediante metodologías distintas.
Esta guía completa analiza los matices técnicos de ambas arquitecturas y ofrece a los desarrolladores e investigadores la información necesaria para elegir la herramienta adecuada para sus aplicaciones de visión artificial. Tanto si se está desarrollando para dispositivos periféricos como para servidores en la nube de alto rendimiento, es fundamental comprender estas diferencias.
Punto de referencia del rendimiento
La siguiente tabla ilustra las métricas de rendimiento en el COCO . YOLOv6.YOLOv6 ofrece, en general, un rendimiento superior en GPU gracias a su diseño TensorRT, mientras que YOLO demuestra una gran eficiencia en cuanto a parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
DAMO-YOLO: La Búsqueda de Arquitectura Neuronal se Encuentra con la Eficiencia
YOLO presenta un enfoque novedoso al integrar la búsqueda de arquitectura neuronal (NAS) directamente en el diseño de la columna vertebral. Desarrollado por Alibaba Group, se centra en maximizar el rendimiento bajo estrictas restricciones de latencia.
Características arquitectónicas clave
- MAE-NAS Backbone: Utiliza una búsqueda de arquitectura neuronal con codificador automático multirrama (MAE-NAS) para descubrir estructuras de red óptimas. El resultado es una estructura troncal que extrae características de forma más eficiente que sus homólogas creadas manualmente, como CSPDarknet.
- RepGFPN eficiente: el modelo sustituye la red piramidal de características (FPN) estándar por una FPN generalizada reparametrizada (RepGFPN). Esto mejora la fusión de características en diferentes escalas, al tiempo que mantiene la velocidad de inferencia, ya que las ramas complejas se fusionan en una única ruta durante la implementación.
- ZeroHead: Para reducir aún más el coste computacional,YOLO un «ZeroHead» ligero, que simplifica el diseño del cabezal de detección sin una pérdida significativa de precisión.
- AlignedOTA: El proceso de entrenamiento utiliza la asignación de etiquetas Aligned One-to-Many (AlignedOTA), que asigna etiquetas de forma dinámica para mejorar la velocidad de convergencia y gestionar la ambigüedad en escenas con mucha gente.
YOLO :
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23 de noviembre de 2022
Arxiv | GitHub | Docs
YOLOv6.0: el estándar industrial para GPU
YOLOv6.YOLOv6, a menudo denominado «recarga a gran escala» del marco, está diseñado específicamente para aplicaciones industriales en las que GPU a través de TensorRT es la norma.
Características arquitectónicas clave
- Fusión bidireccional (BiFusion): YOLOv6.0 mejora el cuello con BiFusion, optimizando el flujo de información semántica entre los diferentes niveles de características.
- Entrenamiento asistido por anclajes (AAT): a diferencia de los detectores sin anclajes, YOLOv6. YOLOv6 introduce una rama auxiliar basada en anclajes durante el entrenamiento. Esto estabiliza el proceso de aprendizaje y aumenta la recuperación, mientras que la inferencia sigue sin anclajes para ganar velocidad.
- RepOptimizer: El modelo aprovecha las técnicas de reparametrización no solo en la arquitectura (bloques RepVGG), sino también en el propio proceso de optimización, lo que garantiza que los pasos de descenso del gradiente sean más eficaces para las estructuras reparametrizadas específicas.
- Entrenamiento consciente de la cuantificación (QAT): Una de sus principales ventajas es su compatibilidad nativa con QAT, lo que permite que el modelo mantenga una alta precisión incluso cuando se comprime a precisión INT8 para su implementación en GPU periféricas.
DetallesYOLOv6.YOLOv6:
Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
Organización: Meituan
Fecha: 13/01/2023
Arxiv | GitHub | Docs
Ultralytics de Ultralytics : ¿por qué elegir YOLO modernos YOLO ?
Si bienYOLO YOLOv6.0 ofrecen ventajas distintivas, el Ultralytics proporciona una solución unificada que responde a las necesidades más amplias del desarrollo moderno de IA. Al elegir un Ultralytics , no solo obtienes una arquitectura, sino un flujo de trabajo completo y compatible.
1. Facilidad de uso sin igual
Ultralytics la experiencia del desarrollador («de cero a héroe»). Procesos complejos como el aumento de datos, el ajuste de hiperparámetros y la exportación de modelos se abstraen detrás de una sencilla Python .
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)
2. Versatilidad en las tareas
A diferencia deYOLO YOLOv6, que se centran principalmente en la detección de cuadros delimitadores, Ultralytics son intrínsecamente multimodales. Una única base de código admite:
- Detección de objetos: Identificación de objetos y su ubicación.
- Segmentación de instancias: Delineación de los límites exactos en píxeles de los objetos.
- Estimación de la postura: detección de puntos clave para el seguimiento de personas o animales.
- Clasificación: Asignación de etiquetas globales a las imágenes.
- Cuadro delimitador orientado (OBB): Detección de objetos girados, fundamental para imágenes aéreas y localización de texto.
3. Eficiencia del entrenamiento y uso de la memoria
Ultralytics están optimizadas para minimizar el uso de VRAM durante el entrenamiento. Esta eficiencia permite a los investigadores y aficionados entrenar modelos de última generación en GPU de consumo, lo que supone una ventaja significativa frente a los híbridos transformadores que consumen mucha memoria, como RT-DETR.
4. Ecosistema bien conservado
Ultralytics es uno de los más activos de la comunidad de visión artificial. Las frecuentes actualizaciones garantizan la compatibilidad con las últimas versiones de PyTorch, CUDA y Python, lo que evita la «degradación del código» que suele observarse en los repositorios de investigación estáticos.
El futuro de la IA visual: YOLO26
Para los desarrolladores que buscan lo último en rendimiento y facilidad de implementación, Ultralytics representa la próxima generación de IA visual.
¿Por qué actualizar a YOLO26?
YOLO26 integra funciones de vanguardia que simplifican la implementación al tiempo que aumentan la velocidad y la precisión:
- NMS de extremo a extremo: elimina el posprocesamiento de supresión no máxima (NMS), lo que agiliza la exportación a CoreML y TFLite.
- CPU : CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que permite un rendimiento en tiempo real en dispositivos periféricos que carecen de potentes GPU.
- Optimizador MuSGD: un optimizador híbrido que aprovecha las innovaciones del entrenamiento LLM (inspirado en Kimi K2 de Moonshot AI) para una convergencia y estabilidad más rápidas.
- Detección mejorada de objetos pequeños: El nuevo
ProgLossySTALLas funciones de pérdida mejoran significativamente la detección de objetivos pequeños y difíciles, lo cual es crucial para aplicaciones de drones.
Recomendaciones de casos de uso
A la hora de decidir entre estas arquitecturas, tenga en cuenta su entorno de implementación específico:
Ideal paraYOLO
- Investigación y desarrollo: Excelente para estudiar el impacto de la búsqueda de arquitectura neuronal (NAS) en las estructuras básicas de la visión.
- Hardware personalizado: La estructura puede ofrecer ventajas en NPU específicas que favorecen el diseño RepGFPN.
- Requisitos de baja latencia: El diseño ZeroHead ayuda a reducir milisegundos en entornos con restricciones de tiempo estrictas.
Ideal para YOLOv6.0
- GPU industriales: El gran interés por TensorRT lo convierte en una bestia en las tarjetas NVIDIA y A100.
- Necesidades de cuantificación: si su canalización depende en gran medida del entrenamiento consciente de la cuantificación (QAT) para la implementación de INT8, YOLOv6 herramientas nativas.
- Análisis de alto rendimiento: Escenarios como el procesamiento simultáneo de múltiples flujos de vídeo, en los que el rendimiento por lotes es clave.
Ideal para Ultralytics YOLO11 YOLO26)
- Implementación de uso general: la capacidad de exportar a ONNX, OpenVINO, TensorRT, CoreML y TFLite un solo comando cubre todas las bases.
- CPU móvil y periférica: CPU específicas CPU de YOLO26 y su diseño NMS lo convierten en la opción ideal para implementaciones iOS, Android y Raspberry Pi.
- Tareas complejas: cuando tu proyecto requiere algo más que simples cuadros, como máscaras de segmentación o puntos clave de pose,Ultralytics el único marco unificado que ofrece lo que necesitas.
- Prototipado rápido: la Ultralytics permite gestionar, entrenar e implementar rápidamente conjuntos de datos sin necesidad de gestionar una infraestructura compleja.
Conclusión
Tanto YOLO como YOLOv6.YOLOv6 son contribuciones impresionantes al campo de la visión artificial.YOLO los límites de la búsqueda automatizada de arquitecturas, mientras que YOLOv6 el arte de la inferencia GPU.
Sin embargo, para la gran mayoría de las aplicaciones del mundo real, YOLO Ultralytics ofrecen una solución más equilibrada, versátil y fácil de mantener. Con el lanzamiento de YOLO26, la brecha se ha ampliado aún más, ofreciendo una eficiencia integral y CPU que los modelos de la competencia aún no han podido igualar. Tanto si se trata de una startup que está creando su primer producto de IA como de una empresa que está ampliando su escala a millones de usuarios, la estabilidad y el rendimiento del Ultralytics proporcionan una base sólida para el éxito.
Lecturas adicionales
Explore otros modelos y herramientas de última generación en la Ultralytics :
- YOLOv8 : el modelo SOTA clásico conocido por su estabilidad.
- RT-DETR - Transformador de detección en tiempo real para tareas de alta precisión.
- YOLOv9 - Con información de gradiente programable (PGI).
- YOLOv10 : el pionero del entrenamiento NMS.
- YOLO11 : un potente predecesor de la generación actual.