Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 frente a YOLO11#

Al elegir la arquitectura de visión artificial adecuada para un proyecto nuevo, es fundamental comprender la evolución de los modelos de última generación. La progresión desde arquitecturas anteriores hacia marcos de trabajo modernos y unificados resalta saltos significativos tanto en la eficiencia algorítmica como en la experiencia del desarrollador. Esta guía ofrece una comparación técnica detallada entre dos modelos emblemáticos desarrollados por Ultralytics: el pionero YOLOv5 y el altamente refinado YOLO11.

Link to this sectionIntroducción a los modelos#

Ambas arquitecturas representan hitos importantes en el campo de la detección de objetos en tiempo real, ofreciendo ventajas distintas dependiendo de tu entorno de despliegue y requisitos heredados.

Link to this sectionYOLOv5: El caballo de batalla del sector#

Lanzado en el verano de 2020, YOLOv5 se convirtió rápidamente en un estándar de la industria gracias a su implementación nativa en PyTorch, lo que redujo drásticamente la barrera de entrada para el entrenamiento y el despliegue. Se alejó de los complejos marcos de trabajo de Darknet C de sus predecesores, ofreciendo un enfoque basado en Python para la creación de modelos.

YOLOv5 estableció una base sólida en cuanto a facilidad de uso e introdujo poderosas metodologías de entrenamiento, incluyendo la avanzada aumentación de datos tipo mosaico y el auto-anclaje (auto-anchoring). Sigue siendo increíblemente popular entre los investigadores que construyen sobre una base de código bien documentada y ampliamente probada.

Más información sobre YOLOv5

Link to this sectionYOLO11: El marco de trabajo de visión unificado#

Basándose en años de comentarios e investigación arquitectónica, YOLO11 se introdujo como parte de un marco de trabajo unificado capaz de gestionar múltiples tareas de visión de forma nativa. Más allá de las simples cajas delimitadoras (bounding boxes), fue diseñado desde cero para lograr la máxima versatilidad y eficiencia.

YOLO11 ofrece una experiencia de usuario optimizada a través del paquete de Python ultralytics, que cuenta con una API sencilla que unifica la detección de objetos, segmentación de instancias, clasificación, estimación de poses y cajas delimitadoras orientadas (OBB). Consigue un equilibrio muy favorable entre velocidad y precisión, lo que lo hace ideal para diversos escenarios de despliegue en el mundo real.

Más información sobre YOLO11

Plataforma integrada

Ambos modelos se benefician del ecosistema bien mantenido que proporciona la Plataforma Ultralytics. Este entorno integrado simplifica el etiquetado de conjuntos de datos, el entrenamiento en la nube y la exportación de modelos hacia diversos objetivos de hardware.

Link to this sectionComparación de rendimiento y métricas#

Una comparación directa de estos modelos revela cómo los refinamientos arquitectónicos se traducen en ganancias de rendimiento tangibles. La tabla a continuación ilustra la precisión media media (mAP) evaluada en el conjunto de datos COCO, junto con las velocidades de inferencia en CPU y GPU y el conteo de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Link to this sectionAnálisis de los resultados#

Las métricas destacan un claro salto en el equilibrio de rendimiento logrado por YOLO11. Por ejemplo, el modelo YOLO11n (nano) alcanza un 39,5% de mAP comparado con el 28,0% de YOLOv5n, mientras que al mismo tiempo reduce el tiempo de inferencia en CPU cuando se exporta a través de ONNX. Además, YOLO11 mantiene requisitos de memoria notablemente más bajos durante el entrenamiento en comparación con los modelos pesados basados en Transformer, lo que lo hace muy accesible para su despliegue en hardware de consumo y dispositivos de borde (edge devices).

Link to this sectionDiferencias arquitectónicas#

Las mejoras de rendimiento en YOLO11 provienen de varias evoluciones arquitectónicas clave. Mientras que YOLOv5 utilizaba una estructura base (backbone) CSPNet estándar con módulos C3, YOLO11 introdujo bloques de extracción de características más eficientes como C2f y, posteriormente, C3k2, los cuales optimizan el flujo de gradiente y reducen la sobrecarga computacional.

YOLO11 también presenta una cabecera (head) muy refinada. Alejándose del diseño basado en anclajes de modelos anteriores, las nuevas arquitecturas de Ultralytics adoptan un enfoque sin anclajes (anchor-free). Esto reduce el número de predicciones de cajas, agilizando la canalización de posprocesamiento y mejorando la capacidad del modelo para generalizar entre diferentes escalas y relaciones de aspecto. Además, estos modelos presumen de una eficiencia de entrenamiento superior y pesos preentrenados disponibles fácilmente que aceleran la convergencia de conjuntos de datos ajustados.

Link to this sectionImplementación y ejemplos de código#

Una de las características más destacadas del ecosistema Ultralytics es su simplicidad. Aunque YOLOv5 popularizó el uso de torch.hub para una inferencia rápida, YOLO11 da un paso más allá con el paquete unificado de Python ultralytics.

Link to this sectionEntrenamiento con YOLO11#

Cargar, entrenar y validar un modelo requiere un código repetitivo mínimo. La API gestiona el ajuste de hiperparámetros y la gestión de modelos sin problemas.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Link to this sectionInferencia heredada con YOLOv5#

Si mantienes una canalización (pipeline) antigua, YOLOv5 se integra directamente con el mecanismo de carga nativo de PyTorch, haciendo que sea trivial insertarlo en guiones de inferencia existentes.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()
Flexibilidad de despliegue

Ambos modelos admiten amplios formatos de exportación. Ya sea que te dirijas a un NVIDIA Jetson usando TensorRT o a una aplicación de iOS usando CoreML, el proceso de despliegue está completamente documentado y respaldado por la comunidad.

Link to this sectionCasos de uso ideales#

Elegir entre estos modelos depende en gran medida de la etapa del ciclo de vida de tu proyecto y de tus requisitos específicos.

Link to this sectionCuándo elegir YOLOv5#

  • Mantenimiento de bases de código heredadas: Si tu entorno de producción está altamente personalizado en torno a la estructura del repositorio de YOLOv5 o a técnicas específicas de evolución de hiperparámetros.
  • Bases de referencia académicas: Cuando publiques investigaciones que requieran evaluaciones comparativas directas frente a estándares de visión artificial establecidos entre 2020 y 2022.

Link to this sectionCuándo elegir YOLO11#

  • Proyectos de tareas múltiples: Cuando tu aplicación requiere una combinación de tareas como estimación de poses y segmentación de instancias usando una única API unificada.
  • Despliegues en el borde (Edge Deployments): Para escenarios de computación de borde donde exprimir el máximo mAP para un presupuesto computacional dado (FLOPs) es crítico.
  • Soluciones de IA comerciales: Ideal para aplicaciones empresariales en comercio minorista y seguridad, aprovechando el soporte robusto de la Plataforma Ultralytics.

Link to this sectionLa próxima generación: Ultralytics YOLO26#

Aunque YOLO11 representa un equilibrio fantástico entre velocidad y precisión, el campo de la inteligencia artificial evoluciona rápidamente. Para los desarrolladores que comienzan proyectos nuevos hoy, recomendamos encarecidamente explorar el estándar más reciente en IA de visión: Ultralytics YOLO26.

Lanzado en enero de 2026, YOLO26 introduce avances que cambian el paradigma y están diseñados específicamente para las necesidades de despliegue modernas:

  • Diseño de extremo a extremo sin NMS: Construido sobre conceptos pioneros en YOLOv10, YOLO26 es nativamente de extremo a extremo (end-to-end). Elimina la necesidad de posprocesamiento de supresión no máxima (NMS), simplificando significativamente las canalizaciones de despliegue y reduciendo la latencia.
  • Optimizador MuSGD: Inspirado en innovaciones de entrenamiento de LLM de modelos como Kimi K2 de Moonshot AI, este híbrido de SGD y Muon garantiza un entrenamiento increíblemente estable y una convergencia dramáticamente más rápida.
  • Velocidad de CPU sin precedentes: Al eliminar la pérdida focal de distribución (DFL), YOLO26 logra una inferencia en CPU hasta 43% más rápida, convirtiéndolo en la mejor opción absoluta para dispositivos de borde y entornos sin GPUs dedicadas.
  • Funciones de pérdida avanzadas: La integración de ProgLoss y STAL produce mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para el análisis mediante drones, IoT y robótica.
  • Mejoras específicas para tareas: Introduce optimizaciones especializadas, como la estimación de log-verosimilitud residual (RLE) para poses y una pérdida de ángulo especializada para cajas delimitadoras orientadas, asegurando un rendimiento superior en todas las tareas de visión artificial.

Más información sobre YOLO26

Para usuarios interesados en arquitecturas especializadas más allá de la detección de objetos estándar, también puedes explorar modelos como RT-DETR para detección basada en Transformer, o YOLO-World para seguimiento y detección de vocabulario abierto. Adoptar estas herramientas bien mantenidas y altamente optimizadas asegura que tus canalizaciones de visión artificial permanezcan eficientes, escalables y a la vanguardia.

Comentarios