Ir al contenido

YOLO11 YOLO: Evolución de las arquitecturas de detección de objetos en tiempo real

La investigación en visión artificial avanza a un ritmo vertiginoso, con nuevas arquitecturas que redefinen constantemente los límites de velocidad y precisión. Dos contribuciones significativas a este campo son YOLO11 de Ultralytics YOLO de Alibaba Group. Aunque ambos modelos tienen como objetivo resolver el problema de la detección de objetos en tiempo real, lo abordan con filosofías diferentes: uno se centra en la facilidad de uso y la implementación, y el otro en la búsqueda rigurosa de arquitecturas neuronales (NAS) y la exploración académica.

Esta guía ofrece una comparación técnica detallada para ayudar a los desarrolladores, investigadores e ingenieros a elegir la herramienta adecuada para sus aplicaciones específicas de visión artificial.

Descripciones generales del modelo

YOLO11

YOLO11 representa la culminación de años de refinamiento iterativo en la familia YOLO You Only Look Once). Lanzado a finales de 2024 por Ultralytics, se basa en el éxito de YOLOv8 al introducir mejoras arquitectónicas que aumentan la eficiencia de la extracción de características, al tiempo que mantiene la filosofía «bag-of-freebies» (bolsa de regalos), que ofrece un alto rendimiento sin necesidad de configuraciones de entrenamiento complejas.

Más información sobre YOLO11

DAMO-YOLO

YOLO es un modelo centrado en la investigación desarrollado por la Academia DAMO (Grupo Alibaba). Introduce varias tecnologías novedosas, entre ellas la búsqueda de arquitectura neuronal (NAS) para la optimización de la columna vertebral, la eficiente Reparameterized Generalized-FPN (RepGFPN) y un marco de entrenamiento basado en la destilación. Se centra en gran medida en maximizar el equilibrio entre la latencia y la precisión mediante la búsqueda de diseños automatizados.

Comparación Técnica

Arquitectura y filosofía de diseño

La diferencia fundamental entre estos dos modelos radica en el origen de su diseño. YOLO11 está diseñado a mano para ofrecer versatilidad y facilidad de uso. Emplea una estructura refinada C3k2 (Cross Stage Partial) y un detect mejorado que equilibra el recuento de parámetros con la representación de características. Este diseño garantiza que el modelo sea robusto en una amplia variedad de tareas, no solo en la detección de objetos, sino también en la segmentación de instancias, la estimación de poses, la clasificación y las tareas de Oriented Bounding Box (OBB).

YOLO, por el contrario, utiliza MAE-NAS (Método para la búsqueda automatizada y eficiente de arquitecturas neuronales) para descubrir su estructura básica. Esto da como resultado una topología de red que es teóricamente óptima para restricciones de hardware específicas, pero que puede ser opaca y difícil de modificar manualmente. Además,YOLO en gran medida de un complejo proceso de entrenamiento que implica un diseño «ZeroHead» y la destilación de modelos maestros más grandes, lo que aumenta la complejidad del entrenamiento en conjuntos de datos personalizados.

Métricas de rendimiento

La tabla siguiente compara el rendimiento de varias escalas de modelos. YOLO11 una eficiencia superior, especialmente en escenarios de menor latencia (modelos N/S/M), al tiempo que mantiene una precisión de vanguardia.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Análisis de rendimiento

YOLO11 consigue mAP más altas con menos parámetros en comparación conYOLO equivalentesYOLO . Por ejemplo, YOLO11 supera a DAMO-YOLO en 1,0 mAP usa casi un 40 % menos de parámetros (9,4 millones frente a 16,3 millones). Esta eficiencia se traduce directamente en un menor uso de memoria y una inferencia más rápida en dispositivos periféricos.

Eficiencia y facilidad de uso de la formación

YOLO11 destaca por su accesibilidad. Integrado en el ultralytics Python : entrenar un modelo es tan sencillo como definir un archivo YAML con el conjunto de datos y ejecutar un único comando. El ecosistema se encarga del ajuste de hiperparámetros, el aumento de datos y seguimiento de experimentos automáticamente.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Por el contrario, YOLO emplea un proceso de entrenamiento en varias etapas. A menudo requiere entrenar primero un modelo «profesor» pesado para destilar el conocimiento en el modelo «alumno» más pequeño. Esto aumenta significativamente el tiempo GPU y la VRAM necesarios para el entrenamiento. Aunque es eficaz para exprimir hasta la última gota de precisión en los benchmarks académicos, esta complejidad puede suponer un cuello de botella para los equipos de ingeniería ágiles.

Casos de Uso Ideales

¿Por qué elegir los modelos de Ultralytics?

Para la gran mayoría de aplicaciones del mundo real, YOLO11 (y el más reciente YOLO26) ofrece el mejor equilibrio entre rendimiento y practicidad.

  • Facilidad de uso: la Ultralytics está diseñada para satisfacer las necesidades de los desarrolladores. Las completas guías y una CLI unificada CLI el paso del prototipo a la producción.
  • Ecosistema bien mantenido: a diferencia de muchos repositorios de investigación que quedan inactivos tras su publicación, Ultralytics se mantienen de forma activa. Las actualizaciones periódicas garantizan la compatibilidad con la última versión de PyTorch , CUDA y los formatos de exportación como OpenVINO y CoreML.
  • Versatilidad: mientras queYOLO estrictamente un detector de objetos, YOLO11 de forma nativa la estimación de poses (puntos clave) y la segmentación de instancias. Esto permite que una única familia arquitectónica gestione diversas tareas de visión en procesos complejos.
  • Eficiencia de memoria:YOLO Ultralytics están optimizados para un bajo consumo de VRAM. Evitan la gran sobrecarga de memoria que suele asociarse a las arquitecturas basadas en transformadores o a los complejos procesos de destilación, lo que permite entrenarlos en hardware de consumo.

Cuándo usar DAMO-YOLO

  • Investigación académica: Si su objetivo es estudiar la búsqueda de arquitectura neuronal (NAS) o la reproducción de técnicas específicas de parametrización de representaciones presentadas en el YOLO .
  • Restricciones específicas de hardware: si dispone de los recursos necesarios para realizar búsquedas exhaustivas en NAS con el fin de encontrar una red troncal que se adapte perfectamente a un acelerador de hardware muy específico y no estándar.

Aplicaciones en el mundo real

YOLO11 se utiliza ampliamente en todos los sectores debido a su solidez:

Avanzando: la ventaja de YOLO26

Aunque YOLO11 un modelo excelente, el campo ha seguido avanzando. Para los nuevos proyectos que comiencen en 2026, se recomienda utilizar YOLO26.

Más información sobre YOLO26

YOLO26 presenta varias características innovadoras:

  • NMS de extremo a extremo: al eliminar la supresión no máxima (NMS), YOLO26 simplifica la lógica de implementación y reduce la variabilidad de la latencia, un concepto introducido por primera vez en YOLOv10.
  • MuSGD Optimizer: un optimizador híbrido inspirado en el entrenamiento LLM que garantiza una convergencia estable.
  • Detección mejorada de objetos pequeños: Las funciones de pérdida como ProgLoss y STAL mejoran significativamente el rendimiento en objetivos pequeños, lo cual es crucial para las imágenes de drones y los sensores IoT.

Conclusión

Ambos YOLO11 y YOLO han contribuido significativamente al avance de la detección de objetos.YOLO el potencial de la búsqueda automatizada de arquitecturas. Sin embargo, YOLO11 sigue siendo la mejor opción para aplicaciones prácticas debido a su flujo de trabajo simplificado, su amplia compatibilidad con tareas y su uso eficiente de los parámetros.

Para los desarrolladores que desean mantenerse a la vanguardia absoluta, la migración a YOLO26 ofrece una velocidad y simplicidad aún mayores, lo que garantiza que sus proyectos de visión artificial sigan estando preparados para el futuro.

Comience su proyecto

¿Listo para empezar a entrenar? Visita la Ultralytics para anotar, entrenar e implementar tus modelos en cuestión de minutos sin tener que gestionar una infraestructura compleja.


Comentarios