Ir al contenido

YOLO YOLO26: un enfrentamiento técnico para la detección de objetos en tiempo real

La evolución de la visión artificial ha estado impulsada por la búsqueda constante de eficiencia, velocidad y precisión. Dos nombres destacados en este ámbito sonYOLO, desarrollado por Alibaba Group, y el innovador YOLO26, la última versión de Ultralytics. Mientras queYOLO importantes innovaciones en la búsqueda de arquitectura neuronal (NAS) en 2022, YOLO26 redefine el panorama en 2026 con un diseño integral y NMS, adaptado para la implementación en el borde y la escalabilidad de la producción.

Esta guía ofrece un análisis técnico detallado de estos dos modelos, comparando sus arquitecturas, métricas de rendimiento y adecuación para aplicaciones del mundo real.

YOLO: Innovación en la búsqueda de arquitecturas neuronales

Desarrollado por la Academia DAMO de Alibaba, YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) se centra en automatizar el diseño de estructuras de detección para maximizar el rendimiento bajo restricciones de latencia específicas.

Características arquitectónicas clave

YOLO seYOLO por varias tecnologías avanzadas:

  • Búsqueda de arquitectura neuronal (NAS): a diferencia de las estructuras diseñadas manualmente (como CSPDarknet),YOLO MAE-NAS (método de búsqueda automatizada de arquitectura neuronal eficiente) para descubrir estructuras óptimas. Esto da como resultado una topología de red específicamente ajustada para el equilibrio entre las operaciones de punto flotante (FLOP) y la precisión.
  • RepGFPN: un diseño de cuello pesado que utiliza redes piramidales de características generalizadas (GFPN) combinadas con reparametrización. Esto permite una fusión eficiente de características en diferentes escalas, lo que mejora la detección de objetos de distintos tamaños.
  • ZeroHead: un cabezal de detección simplificado que reduce la carga computacional durante la inferencia.
  • AlignedOTA: Una estrategia de asignación dinámica de etiquetas que resuelve la desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

Rendimiento y limitaciones

YOLO un importante avance en 2022, superando a versiones anteriores como YOLOv6 y YOLOv7 en pruebas de rendimiento específicas. Sin embargo, su dependencia de complejos procesos de entrenamiento —concretamente, la necesidad de una fase de destilación con un modelo maestro de gran tamaño— puede resultar engorrosa para los desarrolladores que necesitan iterar rápidamente en conjuntos de datos personalizados. Además, aunque su RepGFPN es potente, puede consumir mucha memoria en comparación con las arquitecturas modernas optimizadas.

Detalles de DAMO-YOLO:

  • Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun.
  • Organización: Grupo Alibaba
  • Fecha: 23 de noviembre de 2022
  • Arxiv: 2211.15444v2
  • GitHub: YOLO

Ultralytics : La revolución integral del borde

Lanzado en enero de 2026, Ultralytics se basa en el legado de YOLOv8 y YOLO11, introduciendo un cambio fundamental en la forma en que se procesan las detecciones. Está diseñado no solo para obtener altas puntuaciones en las pruebas de rendimiento, sino también para una implementación práctica y fluida en todo tipo de entornos, desde servidores en la nube hasta dispositivos IoT con recursos limitados.

Arquitectura innovadora

YOLO26 incorpora varios avances de última generación que lo diferencian de los detectores tradicionales basados en anclajes o sin anclajes:

  • Diseño integral NMS: Quizás el cambio más significativo sea la eliminación de la supresión no máxima (NMS). Al adoptar una estrategia de emparejamiento uno a uno durante el entrenamiento (pionera en YOLOv10), el modelo genera predicciones finales directamente. Esto elimina la variación de latencia causada por NMS , que a menudo supone un cuello de botella en escenas con mucha gente.
  • Optimizador MuSGD: Inspirado en innovaciones en el entrenamiento de modelos de lenguaje grandes (LLM) como Kimi K2 de Moonshot AI, YOLO26 utiliza un optimizador híbrido que combina SGD Muon. Esto aporta una estabilidad sin precedentes al entrenamiento de visión artificial, lo que conduce a una convergencia más rápida.
  • Eliminación de DFL: Al eliminar la pérdida focal de distribución, se simplifica la capa de salida. Esto facilita la exportación a formatos como ONNX y TensorRT mucho más limpia, lo que mejora significativamente la compatibilidad con dispositivos periféricos y microcontroladores de baja potencia.
  • ProgLoss + STAL: La integración de Progressive Loss y Soft-Target Anchor Labeling (STAL) proporciona mejoras significativas en la detección de objetos pequeños, un requisito fundamental para las imágenes aéreas y la robótica.

Superioridad en el despliegue

YOLO26 está diseñado para ofrecer velocidad. Proporciona CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en la opción ideal para aplicaciones que se ejecutan en Raspberry Pi, CPU móviles o PC Intel .

Más información sobre YOLO26

Detalles de YOLO26:

Análisis comparativo del rendimiento

La siguiente tabla compara el rendimiento deYOLO YOLO26 en distintos tamaños de modelo. YOLO26 demuestra una eficiencia superior, ya que alcanza mAP comparable o superior mAP una latencia significativamente menor, especialmente en CPU , donde destaca NMS .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Ventaja de latencia

El CPU ONNX velocidades de la CPU ONNX para YOLO26 ponen de relieve la enorme ventaja del diseño NMS. Al eliminar el paso de posprocesamiento, YOLO26 garantiza que el tiempo de inferencia sea determinista y consistentemente bajo, lo cual es crucial para el análisis de vídeo en tiempo real.

La ventaja de Ultralytics

Mientras queYOLO interesantes perspectivas académicas sobre la búsqueda arquitectónica, Ultralytics proporciona una solución integral diseñada para los flujos de trabajo de desarrollo modernos.

1. Facilidad de uso y ecosistema

La complejidad del entrenamiento basado en destilaciónYOLO puede suponer una barrera de entrada. Por el contrario, Ultralytics una experiencia «de cero a héroe». Con una Python unificada, los desarrolladores pueden cargar, entrenar e implementar modelos en cuestión de minutos. La Ultralytics simplifica aún más este proceso al ofrecer herramientas de entrenamiento en la nube, gestión de conjuntos de datos y anotación automática.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

2. Versatilidad de Tareas

YOLO principalmente una arquitectura de detección de objetos. Ultralytics , sin embargo, es una potente herramienta multitarea. Un único marco admite:

  • Segmentación de instancias: incluye mejoras específicas para cada tarea, como la pérdida de segmentación semántica.
  • Estimación de la pose: utilización de la estimación de la log-verosimilitud residual (RLE) para puntos clave de alta precisión.
  • OBB: Pérdida de ángulo especializada para cajas delimitadoras orientadas, esencial para el análisis de imágenes satelitales.
  • Clasificación: Clasificación de imágenes de alta velocidad.

3. Eficiencia del entrenamiento y memoria

YOLO26 está optimizado para hardware de consumo. Técnicas como el optimizador MuSGD permiten un entrenamiento estable con tamaños de lote más grandes en comparación con los híbridos transformadores que consumen mucha memoria o las arquitecturas NAS más antiguas. Esta democratización del entrenamiento de IA significa que no se necesita un clúster H100 empresarial para ajustar un modelo de última generación.

Casos de Uso Ideales

La elección del modelo adecuado depende de sus limitaciones específicas, pero para la mayoría de los escenarios de producción, YOLO26 ofrece el mejor retorno de la inversión.

  • EligeYOLO : eres un investigador que se dedica específicamente a investigar metodologías de búsqueda de arquitectura neuronal o tienes un proceso heredado creado en torno al código base de tinyvision.
  • Elija Ultralytics si:
    • Implementación periférica: Debe ejecutarse en Raspberry Pi, dispositivos móviles o CPU, donde el diseño NMS ofrece una aceleración considerable.
    • Desarrollo rápido: Necesitas un modelo que sea fácil de entrenar, validar y exportar a formatos como CoreML TFLite una configuración compleja.
    • Tareas de visión complejas: su proyecto requiere más que solo cuadros delimitadores, como segmentar objetos o rastrear la postura humana.
    • Mantenimiento a largo plazo: Necesitas un modelo respaldado por una comunidad activa, actualizaciones frecuentes y documentación completa.

Conclusión

TantoYOLO YOLO26 representan hitos importantes en la detección de objetos.YOLO el potencial de la búsqueda automatizada de arquitecturas, ampliando los límites de lo que era posible en 2022. Sin embargo, YOLO26 se erige como la opción definitiva para 2026 y más allá. Al resolver el NMS , optimizar CPU de CPU e integrar técnicas de entrenamiento avanzadas como MuSGD, Ultralytics creado un modelo que no solo es más rápido y preciso, sino también mucho más fácil de usar.

Para los desarrolladores que desean crear aplicaciones de visión artificial robustas y preparadas para el futuro, el Ultralytics proporciona las herramientas, los modelos y el soporte necesarios para alcanzar el éxito.

Si te interesa explorar otras arquitecturas de alto rendimiento, te recomiendo que eches un vistazo a YOLO11 para la detección de uso general o RT-DETR para aplicaciones basadas en transformadores.


Comentarios