Ir al contenido

YOLO11 vs YOLOv5: Una Comparación Técnica Exhaustiva de Arquitecturas de Ultralytics

Seleccionar la arquitectura de red neuronal adecuada es una decisión fundamental para cualquier iniciativa de visión artificial. A medida que el panorama de la inteligencia artificial evoluciona, también lo hacen las herramientas disponibles para desarrolladores e investigadores. Esta guía exhaustiva proporciona una comparación técnica en profundidad entre dos modelos emblemáticos del ecosistema de Ultralytics: el aclamado YOLOv5 y el avanzado YOLO11.

Ya sea que esté desplegando modelos ligeros para aplicaciones de IA en el borde o procesando flujos de video de alta resolución en GPU en la nube, comprender los matices arquitectónicos, las métricas de rendimiento y los casos de uso ideales para estos modelos le asegurará tomar una decisión basada en datos para sus restricciones de despliegue específicas.

Linaje y detalles técnicos del modelo

Ambos modelos reflejan el compromiso de Ultralytics con la colaboración de código abierto, el rendimiento robusto y una facilidad de uso inigualable, lo que los convierte en opciones muy favorecidas por la comunidad global de aprendizaje automático.

Detalles de YOLO11

Más información sobre YOLO11

YOLOv5 Detalles

Más información sobre YOLOv5

Diferencias Arquitectónicas

La evolución de YOLOv5 a YOLO11 introduce varios cambios arquitectónicos profundos diseñados para optimizar la precisión y la eficiencia de los parámetros.

YOLOv5 fue un pionero en el ecosistema de PyTorch, introduciendo un backbone CSPNet (Cross Stage Partial Network) altamente optimizado y un cuello PANet (Path Aggregation Network). Se basó en la detección basada en anclajes, que requería cajas de anclaje predefinidas para predecir los límites de los objetos. Aunque altamente efectivo, ajustar estos anclajes para conjuntos de datos de visión por computadora personalizados podía ser engorroso.

En contraste, YOLO11 transita hacia un paradigma de detección más moderno y sin anclajes. Esto elimina la necesidad de ajustar manualmente las cajas de anclaje, agilizando el proceso de entrenamiento y mejorando la generalización en diversos conjuntos de datos como el conjunto de datos COCO. Además, YOLO11 presenta una cabeza desacoplada, lo que significa que las tareas de clasificación y regresión de cajas delimitadoras se procesan en ramas separadas. Esta separación mejora significativamente la velocidad de convergencia y la precisión media promedio (mAP), particularmente para escenarios complejos de detección de objetos.

Métricas de rendimiento y puntos de referencia

La tabla a continuación contrasta métricas clave en diferentes tamaños de modelo. Los modelos Ultralytics son reconocidos por sus requisitos de memoria, consumiendo típicamente menos memoria CUDA durante el entrenamiento en comparación con alternativas pesadas basadas en transformadores, lo que reduce drásticamente la barrera de hardware para la entrada.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Como se observa, YOLO11 logra un equilibrio de rendimiento muy favorable, ofreciendo consistentemente puntuaciones mAP más altas con recuentos de parámetros comparables a sus contrapartes YOLOv5.

Metodologías de entrenamiento y usabilidad

Un principio fundamental de la filosofía de Ultralytics es una facilidad de uso excepcional, respaldada por un ecosistema bien mantenido y un amplio soporte comunitario.

Históricamente, YOLOv5 se basó en robustos scripts de interfaz de línea de comandos (CLI) (train.py, detect.py) para su ejecución. Aunque potentes, la integración de estos scripts directamente en aplicaciones Python personalizadas a menudo requería soluciones alternativas.

YOLO11 revolucionó esto al introducir el optimizado ultralytics Paquete python. Esta API unificada gestiona todo, desde el entrenamiento hasta exportación de modelos formatos como ONNX, OpenVINO, y TensorRT nativamente.

Despliegue Optimizado con la Plataforma Ultralytics

Para una experiencia completamente sin código, los desarrolladores pueden utilizar la Plataforma Ultralytics para anotar datos, entrenar modelos en la nube y desplegarlos en dispositivos de borde de forma fluida.

Comparación de código

Entrenar un modelo Ultralytics hoy es increíblemente eficiente. Así es como puede entrenar YOLO11 utilizando su API nativa de Python:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model on custom data
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Export the model to ONNX for deployment
model.export(format="onnx")

Para sistemas heredados que utilizan YOLOv5, el entrenamiento a través de CLI se ve así:

# Clone the repository and run the training script
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt

python train.py --img 640 --batch 16 --epochs 50 --data coco128.yaml --weights yolov5s.pt

Casos de Uso y Aplicaciones en el Mundo Real Ideales

Ambos modelos poseen fortalezas distintas adaptadas a diferentes entornos operativos.

¿Cuándo utilizar YOLOv5?

A pesar de la nueva generación, YOLOv5 sigue siendo una potencia. Es altamente recomendado para:

  • Integración de Sistemas Heredados: Entornos profundamente integrados con las estructuras de tensor específicas de YOLOv5 o pipelines de despliegue que no pueden ser refactorizados fácilmente.
  • Bases Académicas: Investigadores que necesitan bases establecidas y de larga trayectoria para estudios académicos reproducibles en análisis de imágenes médicas.

¿Cuándo utilizar YOLO11?

YOLO11 representa la elección ideal para las pipelines de producción modernas debido a su increíble versatilidad:

De Cara al Futuro: La Arquitectura de YOLO26

Aunque YOLO11 se mantiene como un estándar excepcional, la frontera de la visión por computadora sigue avanzando rápidamente. Los desarrolladores que buscan la cúspide absoluta de eficiencia también deberían considerar el último Ultralytics YOLO26 (lanzado en enero de 2026).

YOLO26 representa un avance masivo, diseñado explícitamente tanto para la optimización en el borde como para la escala empresarial. Las innovaciones clave incluyen:

  • Diseño de extremo a extremo sin NMS: YOLO26 es nativamente de extremo a extremo, eliminando el postprocesamiento de Supresión No Máxima (NMS) para una implementación más rápida y sencilla.
  • Eliminación de DFL: Se ha eliminado la Pérdida Focal de Distribución para una exportación de modelo simplificada y una compatibilidad mejorada con dispositivos de baja potencia.
  • Optimizador MuSGD: Un híbrido innovador de SGD y Muon, que aporta la estabilidad de entrenamiento de LLM a la visión por computadora para una convergencia más rápida.
  • Hasta un 43% más rápido en inferencia de CPU: Altamente optimizado para implementaciones IoT y dispositivos sin GPU dedicadas.
  • ProgLoss + STAL: Funciones de pérdida drásticamente mejoradas que producen mejoras notables en el reconocimiento de objetos pequeños, vital para la imaginería de drones aéreos.

Más información sobre YOLO26

Resumen

La elección entre YOLO11 y YOLOv5 depende en última instancia de la etapa del ciclo de vida de su proyecto. El legado de YOLOv5 es innegable, ofreciendo una estabilidad extrema y un respaldo masivo de la comunidad. Sin embargo, para cualquier proyecto nuevo, YOLO11 es altamente recomendado por encima de las generaciones anteriores. Combina una precisión de vanguardia, una API Python excepcionalmente elegante y un menor consumo de memoria de entrenamiento, consolidando la posición de Ultralytics a la vanguardia de la innovación en IA. Para aquellos que buscan ir aún más allá, explorar el vanguardista YOLO26 en la Plataforma Ultralytics producirá resultados inigualables.


Comentarios