Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 frente a YOLOv7#

El panorama de la visión artificial sigue evolucionando a un ritmo rápido, y la detección de objetos en tiempo real sigue estando a la vanguardia de las aplicaciones de IA. Elegir la arquitectura adecuada para tu proyecto requiere navegar por un complejo equilibrio entre velocidad, precisión y facilidad de implementación. En esta guía, ofrecemos una comparación técnica exhaustiva entre dos arquitecturas destacadas: Ultralytics YOLO11 y YOLOv7.

Link to this sectionAntecedentes del modelo y detalles técnicos#

Ambos modelos han impactado significativamente en la comunidad de aprendizaje profundo, pero provienen de diferentes filosofías y épocas de desarrollo.

Detalles de YOLO11:
Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Documentación: https://docs.ultralytics.com/models/yolo11/

Más información sobre YOLO11

Detalles de YOLOv7:
Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Institute of Information Science, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Documentación: https://docs.ultralytics.com/models/yolov7/

Más información sobre YOLOv7

Link to this sectionDiferencias arquitectónicas#

Al analizar los mecanismos internos, ambos detectores utilizan conceptos de vanguardia, aunque sus fundamentos estructurales difieren.

YOLOv7 introdujo el concepto de redes de agregación de capas eficientes extendidas (E-ELAN). Esta arquitectura se diseñó para mejorar continuamente la capacidad de aprendizaje de la red sin destruir la ruta de gradiente original, un avance crucial documentado en su artículo de investigación. YOLOv7 depende en gran medida de la reparametrización estructural y de una metodología robusta de "bag-of-freebies" durante el entrenamiento, lo que mejora la precisión general en el conjunto de datos COCO sin aumentar los costes de inferencia.

Por el contrario, YOLO11 está construido sobre la arquitectura de Ultralytics, altamente optimizada. Enfatiza un proceso de extracción de características más refinado con menos parámetros, lo que conlleva un menor uso de memoria durante el entrenamiento. YOLO11 logra un equilibrio de rendimiento altamente favorable, utilizando menos recursos computacionales (FLOPs) a la vez que iguala o supera la precisión de detección de modelos más pesados. Además, YOLO11 admite intrínsecamente una mayor variedad de tareas, lo que lo convierte en una opción muy versátil para las aplicaciones modernas de visión artificial.

Eficiencia de memoria

Una de las características más destacadas de los modelos Ultralytics YOLO es su menor requerimiento de memoria durante el entrenamiento en comparación con otros modelos de vanguardia, lo que permite a los desarrolladores entrenar redes potentes en hardware de PyTorch de grado comercial.

Link to this sectionComparación de rendimiento y métricas#

Para evaluar con precisión la viabilidad en el mundo real, es esencial medir métricas como la precisión media promedio (mAP), la velocidad de inferencia, los parámetros del modelo y la complejidad computacional (FLOPs). La siguiente tabla muestra cómo se comparan las variantes de escalado de YOLO11 con los modelos YOLOv7 más grandes.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Como se observa, un modelo como YOLO11x alcanza un 54.7 mAP más alto en comparación con el 53.1 mAP de YOLOv7x, a la vez que utiliza significativamente menos parámetros (56.9M frente a 71.3M). Esto resalta la superior eficiencia arquitectónica de YOLO11.

Link to this sectionEficiencia de entrenamiento y facilidad de uso del ecosistema#

Una de las características más definitorias que separan a estas dos arquitecturas es la experiencia del desarrollador y el ecosistema que las rodea.

YOLOv7 es fundamentalmente un repositorio de investigación académica. Entrenar modelos a menudo requiere configuraciones de entorno complejas, la gestión manual de dependencias y la utilización de argumentos de línea de comandos largos. Aunque admite experimentación de vanguardia, adaptar el código del repositorio GitHub de YOLOv7 para entornos de producción personalizados puede llevar mucho tiempo.

YOLO11 redefine por completo la facilidad de uso. Está totalmente integrado en la plataforma Ultralytics, un ecosistema integral y bien mantenido que ofrece flujos de trabajo de extremo a extremo sin fricciones. Desde la anotación de datos y el entrenamiento local hasta la implementación, la API unificada de Python y la sencilla interfaz de línea de comandos agilizan todo el proceso.

Link to this sectionComparación de código#

Entrenar un modelo de detección de objetos con YOLO11 solo requiere unas pocas líneas de código, lo que reduce significativamente la barrera de entrada:

from ultralytics import YOLO

# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Quickly export to ONNX format
model.export(format="onnx")

Por el contrario, un comando de entrenamiento típico de YOLOv7 tiene este aspecto y requiere una configuración cuidadosa de rutas, archivos de configuración y scripts bash:

python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'

YOLO11 también ofrece una inmensa versatilidad. Mientras que YOLOv7 requiere bases de código completamente diferentes o modificaciones pesadas para admitir tareas más allá de la detección (como pose o segmentación), YOLO11 gestiona la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de cajas delimitadoras orientadas (OBB) a través de un marco único y cohesivo.

Exportación sencilla

Exportar YOLO11 a formatos como TensorRT o OpenVINO requiere solo un comando, lo que mitiga los problemas habituales de soporte de operadores que se encuentran con los modelos heredados.

Link to this sectionAplicaciones del mundo real y casos de uso ideales#

Elegir entre YOLOv7 y YOLO11 depende totalmente del alcance del proyecto y de las limitaciones de implementación.

Cuándo considerar YOLOv7:

  • Evaluación comparativa de modelos heredados: Los investigadores académicos que exploran diseños de rutas de gradiente pueden utilizar YOLOv7 como base para evaluar nuevas redes neuronales convolucionales.
  • Tuberías personalizadas existentes: Equipos con tuberías (pipelines) de C++ o CUDA muy personalizadas construidas específicamente en torno a la lógica de decodificación de cajas delimitadoras exclusiva de YOLOv7.

Cuándo elegir YOLO11:

  • Producción comercial: Las aplicaciones en comercio minorista inteligente o diagnóstico sanitario se benefician enormemente de la base de código mantenida y la alta estabilidad de YOLO11.
  • Entornos con recursos limitados: La huella ligera de YOLO11n lo hace excepcionalmente adecuado para la implementación en dispositivos móviles y de borde a través de ONNX.
  • Proyectos multitarea: Si una sola aplicación necesita identificar a una persona, mapear su esqueleto (pose) y segmentar un objeto que sostiene, YOLO11 proporciona una solución unificada.

Link to this sectionLa vanguardia: Avanzando con YOLO26#

Aunque YOLO11 se mantiene como una opción muy robusta, la innovación en inteligencia artificial nunca duerme. Para los ingenieros que comienzan nuevos proyectos hoy en día, se recomienda encarecidamente explorar Ultralytics YOLO26.

Lanzado en enero de 2026, YOLO26 introduce un diseño sin NMS de extremo a extremo, eliminando por completo los cuellos de botella de latencia asociados con el postprocesamiento de supresión no máxima (NMS). Además, YOLO26 incorpora el revolucionario optimizador MuSGD, inspirado en las metodologías de entrenamiento de LLM, para garantizar una convergencia más rápida. Con mejoras específicas de pérdida mediante ProgLoss + STAL y una inferencia en CPU hasta un 43% más rápida gracias a la eliminación de DFL, YOLO26 está específicamente optimizado para la computación en el borde y representa la cumbre actual de la IA de visión.

Más información sobre YOLO26

Para los usuarios interesados en estructuras alternativas especializadas, explorar el RT-DETR basado en Transformer o los modelos YOLO-World de vocabulario abierto dinámico también puede arrojar resultados beneficiosos para diversas implementaciones de visión artificial.

Colaboradores

Comentarios