Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 frente a YOLO11#

El panorama de la visión artificial evoluciona constantemente, con nuevas arquitecturas que superan los límites de lo posible en el procesamiento en tiempo real. Para los desarrolladores e investigadores que navegan por este campo de ritmo rápido, comprender los matices entre los modelos de vanguardia es fundamental. Esta comparación detallada explora las diferencias técnicas, las compensaciones de rendimiento y los casos de uso ideales para YOLOv10 y Ultralytics YOLO11, dos marcos de detección de objetos altamente capaces.

Aunque ambos modelos logran resultados notables en conjuntos de datos de referencia, sus filosofías de diseño subyacentes e integraciones en el ecosistema difieren significativamente. Al examinar sus arquitecturas, podemos identificar qué solución se alinea mejor con tus restricciones de implementación y los objetivos del proyecto.

Link to this sectionYOLOv10: Pionero en la detección de extremo a extremo sin NMS#

Lanzado en la primavera de 2024, YOLOv10 introdujo un enfoque novedoso para el proceso tradicional de detección de objetos al abordar directamente la latencia asociada con el posprocesamiento.

La innovación destacada de YOLOv10 es su estrategia de asignación dual consistente, que permite el entrenamiento sin NMS. Los detectores de objetos tradicionales dependen en gran medida de la Supresión de No Máximos (NMS) para filtrar las predicciones de cuadros delimitadores redundantes. Al eliminar este paso, YOLOv10 logra una verdadera detección de extremo a extremo, lo que reduce la latencia de inferencia y simplifica la implementación en aceleradores de hardware como las Unidades de Procesamiento Neuronal (NPUs), donde las operaciones NMS personalizadas son notoriamente difíciles de optimizar.

Aprende más sobre YOLOv10

Link to this sectionYOLO11: Versatilidad y rendimiento impulsados por el ecosistema#

Lanzado más tarde ese mismo año, YOLO11 representa el refinamiento continuo de la familia de modelos Ultralytics, centrándose en un equilibrio óptimo entre velocidad, precisión y experiencia de desarrollo.

YOLO11 está diseñado para la producción. Aunque sobresale en la detección estándar de cuadros delimitadores, su verdadera fuerza reside en su versatilidad. A diferencia de YOLOv10, que se centra principalmente en la detección de objetos, YOLO11 admite de forma nativa segmentación de instancias, estimación de poses, clasificación de imágenes y tareas de Cuadro Delimitador Orientado (OBB) utilizando una arquitectura unificada. Cuenta con requisitos de memoria notablemente bajos durante el entrenamiento, lo que lo hace muy accesible para equipos que trabajan con GPUs de consumo en comparación con arquitecturas más pesadas basadas en Transformer.

Más información sobre YOLO11

Link to this sectionComparación de rendimiento y métricas#

Al comparar estos modelos uno al lado del otro, es esencial observar cómo funcionan en diferentes variantes de escala en puntos de referencia estándar como el conjunto de datos COCO.

La siguiente tabla destaca las diferencias de rendimiento. YOLO11 supera con frecuencia a YOLOv10 en mAP en la mayoría de las categorías de tamaño, manteniendo al mismo tiempo velocidades de inferencia con TensorRT altamente competitivas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
Aceleración de hardware

Para reproducir estas rápidas velocidades de inferencia localmente, asegúrate de exportar tus modelos a formatos optimizados como OpenVINO para CPUs Intel o TensorRT para GPUs NVIDIA.

Link to this sectionAnálisis arquitectónico en profundidad#

Link to this sectionMetodología de entrenamiento y eficiencia#

La arquitectura de YOLOv10 enfatiza la reducción de la redundancia computacional. Al optimizar los diseños de la columna vertebral (backbone) y el cuello (neck) utilizando una estrategia holística impulsada por la eficiencia y la precisión, los autores de la Universidad de Tsinghua lograron reducir significativamente el número de parámetros en los modelos de nivel medio (como YOLOv10m) en comparación con iteraciones anteriores.

Sin embargo, la Eficiencia de Entrenamiento es un sello distintivo de los modelos Ultralytics. YOLO11 utiliza el paquete de Python ultralytics altamente refinado, que abstrae el complejo ajuste de hiperparámetros. Este marco gestiona automáticamente aumentos de datos avanzados, programación de la tasa de aprendizaje y entrenamiento distribuido multi-GPU desde el primer momento. La arquitectura de YOLO11 también presenta un excelente flujo de gradiente, lo que resulta en una convergencia más rápida y un menor uso de VRAM durante la fase de entrenamiento.

Link to this sectionFacilidad de uso y la ventaja del ecosistema#

Un factor crítico para la adopción empresarial es el Ecosistema bien mantenido. Los repositorios de investigación, aunque innovadores, a menudo quedan inactivos después de la publicación inicial del documento. El ecosistema de Ultralytics, que respalda a YOLO11, proporciona una experiencia de desarrollador fluida y de extremo a extremo.

Al integrarse perfectamente con herramientas como Weights & Biases para el seguimiento de experimentos y Roboflow para la gestión de conjuntos de datos, YOLO11 acelera la transición del prototipo a la producción. La facilidad de uso es evidente en la API optimizada, lo que permite a los desarrolladores entrenar y exportar modelos con solo unas pocas líneas de código.

from ultralytics import YOLO

# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently with optimized memory handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="0")

# Export to ONNX format for deployment flexibility
model.export(format="onnx")

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv10 y YOLO11 depende de los requisitos específicos de tu proyecto, las restricciones de implementación y las preferencias del ecosistema.

Link to this sectionCuándo elegir YOLOv10#

YOLOv10 es una opción sólida para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
  • Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
  • Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.

Link to this sectionCuándo elegir YOLO11#

YOLO11 se recomienda para:

  • Implementación en producción en el borde: Aplicaciones comerciales en dispositivos como Raspberry Pi o NVIDIA Jetson donde la fiabilidad y el mantenimiento activo son primordiales.
  • Aplicaciones de visión multitarea: Proyectos que requieren detección, segmentación, estimación de pose y OBB dentro de un único marco unificado.
  • Creación rápida de prototipos e implementación: Equipos que necesitan pasar rápidamente de la recopilación de datos a la producción utilizando la API de Python de Ultralytics optimizada.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionExplorando otras arquitecturas#

Aunque YOLOv10 y YOLO11 son excelentes opciones, tu caso de uso específico podría beneficiarse de otras arquitecturas disponibles en la documentación. Para el razonamiento basado en secuencias, los modelos Transformer como RT-DETR proporcionan una alta precisión, aunque normalmente requieren mayores requisitos de memoria. Por el contrario, si necesitas capacidades de disparo cero (zero-shot) para identificar clases nuevas sin volver a entrenar, YOLO-World ofrece un enfoque de vocabulario abierto impulsado por indicaciones en lenguaje natural.

Link to this sectionLa próxima generación: YOLO26#

Para los equipos que buscan lo último en tecnología de vanguardia, el recientemente lanzado Ultralytics YOLO26 combina las mejores características de ambos modelos discutidos anteriormente. Lanzado en enero de 2026, YOLO26 es la recomendación definitiva para escenarios de implementación modernos.

Basándose en los fundamentos de sus predecesores, YOLO26 incorpora de forma nativa un diseño de extremo a extremo sin NMS, eliminando eficazmente los cuellos de botella de posprocesamiento que YOLOv10 abordó por primera vez, pero haciéndolo dentro del robusto marco de Ultralytics. Además, YOLO26 presenta la eliminación de DFL (Distribution Focal Loss), lo que simplifica drásticamente los gráficos de exportación del modelo y mejora la compatibilidad con dispositivos IoT de borde y de bajo consumo.

La estabilidad del entrenamiento también ha experimentado un salto generacional con la introducción del optimizador MuSGD, un enfoque híbrido inspirado en las metodologías de entrenamiento de LLM que garantiza una convergencia increíblemente rápida. Junto con funciones de pérdida avanzadas como ProgLoss + STAL, YOLO26 ofrece mejoras notables en el reconocimiento de objetos pequeños. Para la implementación en dispositivos de borde estándar, estos refinamientos arquitectónicos dan como resultado una inferencia de CPU hasta un 43% más rápida, lo que convierte a YOLO26 en una opción inigualable para todas las tareas de visión artificial.

Comentarios