Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 frente a YOLOX#

La evolución de la visión artificial en tiempo real ha vivido numerosos hitos, con diferentes arquitecturas que superan los límites de velocidad y precisión. Dos modelos altamente influyentes en este espacio son YOLOv5 y YOLOX. Aunque ambos son conocidos por su alto rendimiento en la detección de objetos, adoptan enfoques arquitectónicos fundamentalmente distintos.

Esta guía ofrece un análisis técnico profundo de estos dos modelos, comparando sus arquitecturas, métricas de rendimiento, metodologías de entrenamiento y escenarios ideales de despliegue para ayudar a los desarrolladores e investigadores a elegir la herramienta adecuada para sus proyectos de visión por IA.

Link to this sectionResumen de modelos y diferencias arquitectónicas#

Link to this sectionUltralytics YOLOv5#

Presentado por Ultralytics, YOLOv5 se convirtió rápidamente en un estándar de la industria debido a su excepcional equilibrio entre rendimiento, facilidad de uso y eficiencia de memoria. Construido de forma nativa sobre el framework PyTorch, YOLOv5 utiliza una arquitectura basada en anclas. Se basa en formas de cajas delimitadoras predefinidas para predecir la ubicación de los objetos, lo que lo hace muy eficaz para tareas estándar de detección de objetos.

Una de las mayores fortalezas de YOLOv5 es su ecosistema bien mantenido. Cuenta con una documentación extensa, una API de Python increíblemente sencilla y una integración nativa con la Plataforma Ultralytics. Esto permite a los desarrolladores pasar sin problemas del etiquetado de conjuntos de datos al entrenamiento y la exportación a formatos como ONNX y TensorRT.

Más información sobre YOLOv5

Ventaja del ecosistema

Los modelos YOLO de Ultralytics suelen requerir significativamente menos memoria de GPU durante el entrenamiento en comparación con alternativas complejas basadas en Transformer. Este bajo consumo de memoria hace que YOLOv5 sea muy accesible para investigadores que trabajan con hardware de consumo.

Link to this sectionMegvii YOLOX#

Desarrollado por investigadores de Megvii, YOLOX tomó un camino diferente al introducir un diseño sin anclas (anchor-free) en la familia YOLO. Al eliminar las cajas delimitadoras (anchor boxes), YOLOX simplifica la cabecera de detección y reduce significativamente el número de parámetros heurísticos que requieren ajuste manual durante el entrenamiento.

YOLOX también incorpora una cabecera desacoplada —separando las tareas de clasificación y regresión en diferentes ramas de la red— y utiliza la estrategia de asignación de etiquetas SimOTA. Estas innovaciones cierran la brecha entre la investigación académica y las aplicaciones industriales, haciendo que YOLOX sea particularmente eficaz en entornos con escalas de objetos muy variadas.

Más información sobre YOLOX

Link to this sectionRendimiento y métricas#

Al evaluar modelos de visión artificial, el equilibrio entre la precisión media (mAP) y la velocidad de inferencia es fundamental. Ambos modelos ofrecen una gama de tamaños (desde Nano hasta Extra-Large) para adaptarse a diferentes limitaciones de hardware.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Aunque YOLOXx logra una precisión máxima ligeramente superior (51.1 mAP), YOLOv5 proporciona un pipeline de despliegue mucho más sólido y probado exhaustivamente en hardware de CPU y GPU. Las velocidades de TensorRT para YOLOv5 destacan su profunda optimización para dispositivos de computación en el borde (edge computing), lo que lo convierte en una opción muy fiable para el análisis de vídeo en tiempo real.

Link to this sectionMetodologías de entrenamiento y usabilidad#

La experiencia del desarrollador varía significativamente entre estas dos arquitecturas.

Link to this sectionEl enfoque de YOLOX#

Entrenar YOLOX normalmente requiere clonar el repositorio original, gestionar dependencias específicas y ejecutar scripts complejos de línea de comandos. Aunque admite funciones avanzadas como el entrenamiento de precisión mixta y configuraciones multinodo a través de MegEngine, la curva de aprendizaje puede ser pronunciada para desarrolladores que necesitan creación rápida de prototipos.

Link to this sectionLa ventaja de Ultralytics#

En cambio, Ultralytics prioriza una experiencia de usuario excepcionalmente optimizada. Con el paquete de Python ultralytics, puedes cargar, entrenar y validar un modelo con un código auxiliar mínimo. Ultralytics gestiona automáticamente aumentos complejos de datos, la evolución de hiperparámetros y la programación de la tasa de aprendizaje.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

Además, la versatilidad de YOLOv5 va más allá de la detección de objetos estándar, ofreciendo un soporte sólido para clasificación de imágenes e instanciación de segmentación dentro de la misma API cohesiva.

Despliegue optimizado

Cuando termines tu entrenamiento, exportar un modelo YOLOv5 a CoreML, TFLite u OpenVINO es tan sencillo como ejecutar model.export(format="onnx"). Esto elimina la necesidad de scripts de conversión de terceros que suelen requerir los repositorios centrados en la investigación.

Link to this sectionAplicaciones en el mundo real#

La elección entre estos modelos depende de tu entorno de despliegue y tus requisitos técnicos:

  • Venta al por menor y gestión de inventario: Para aplicaciones que requieren reconocimiento de productos en tiempo real en dispositivos de borde como el NVIDIA Jetson, YOLOv5 es excepcionalmente adecuado. Su huella de memoria mínima y sus rápidas velocidades de inferencia con TensorRT permiten el seguimiento con múltiples cámaras sin perder fotogramas.
  • Investigación académica y arquitecturas personalizadas: YOLOX está muy bien valorado en la comunidad investigadora. Su cabecera desacoplada y su naturaleza sin anclas lo convierten en una excelente línea de base para ingenieros que buscan experimentar con estrategias novedosas de asignación de etiquetas o para aquellos que trabajan con conjuntos de datos donde las cajas delimitadoras tradicionales no logran generalizar.
  • IA agrícola: Para tareas de agricultura de precisión como la detección de frutas o la identificación de malas hierbas mediante drones, la facilidad de entrenamiento y despliegue de los modelos YOLOv5 utilizando la Plataforma Ultralytics permite a los expertos del dominio implementar soluciones de IA sin necesidad de tener una profunda formación en ingeniería de aprendizaje automático.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv5 y YOLOX depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv5#

YOLOv5 es una opción sólida para:

  • Sistemas de producción probados: Despliegues existentes donde se valora la larga trayectoria de estabilidad, la extensa documentación y el enorme soporte de la comunidad de YOLOv5.
  • Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde la eficiente canalización de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
  • Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en muchos formatos, incluidos ONNX, TensorRT, CoreML y TFLite.

Link to this sectionCuándo elegir YOLOX#

YOLOX se recomienda para:

  • Investigación en detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevas cabeceras de detección o funciones de pérdida.
  • Dispositivos de borde ultraligeros: Despliegue en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M de parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionEl futuro de la IA visual: llega YOLO26#

Aunque tanto YOLOv5 como YOLOX se han consolidado en la historia de la visión artificial, el campo avanza rápidamente. Para los desarrolladores que comienzan nuevos proyectos hoy, Ultralytics recomienda encarecidamente explorar su modelo insignia más reciente, YOLO26.

Lanzado en enero de 2026, YOLO26 representa un gran salto adelante tanto en rendimiento como en usabilidad. Introduce un diseño revolucionario de extremo a extremo sin NMS, eliminando por completo el post-procesamiento de Supresión No Máxima (Non-Maximum Suppression). Esto reduce significativamente la variabilidad de la latencia y simplifica la lógica de despliegue en dispositivos de baja potencia.

Además, YOLO26 utiliza el novedoso Optimizador MuSGD —un híbrido de SGD y Muon inspirado en innovaciones de entrenamiento de LLM— para una convergencia increíblemente estable y rápida. Con la eliminación de DFL (se elimina Distribution Focal Loss para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia), YOLO26 logra una inferencia de CPU hasta un 43% más rápida, consolidando su posición como el modelo definitivo para la computación en el borde moderna, la robótica y las aplicaciones IoT. Adicionalmente, ProgLoss + STAL ofrece funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, algo crítico para IoT, robótica e imágenes aéreas. Los usuarios interesados en generaciones anteriores también pueden consultar YOLO11, aunque YOLO26 es la opción indiscutible de vanguardia.

Link to this sectionConclusión#

YOLOv5 y YOLOX ofrecen increíbles capacidades de detección de objetos. YOLOX amplió los límites arquitectónicos al demostrar en 2021 que los diseños sin anclas podían competir y superar a los métodos tradicionales. Sin embargo, YOLOv5 sigue siendo una fuerza dominante debido a su facilidad de uso inigualable, su amplio ecosistema y sus menores requisitos de memoria durante el entrenamiento.

Para la gran mayoría de las aplicaciones comerciales, el ecosistema Ultralytics proporciona la ruta más rápida desde un conjunto de datos bruto hasta un modelo de producción desplegado. Ya sea utilizando el probado YOLOv5 o actualizándose al innovador YOLO26, los desarrolladores se benefician de un framework diseñado para hacer que la IA de visión sea accesible, eficiente y de alto rendimiento.

Comentarios