Ir al contenido

YOLOv7 YOLOv10: comparación de arquitecturas para la detección en tiempo real

La evolución de los modelos de detección de objetos se ha caracterizado por un esfuerzo constante por lograr una mayor precisión y una menor latencia. Dos hitos importantes en este camino son YOLOv7, lanzado a mediados de 2022, y YOLOv10, presentado a mediados de 2024. Aunque ambas arquitecturas supusieron un avance tecnológico en el momento de su lanzamiento, representan filosofías de diseño fundamentalmente diferentes. YOLOv7 en optimizar el proceso de entrenamiento mediante un «bag-of-freebies», mientras que YOLOv10 un enfoque integral que elimina la necesidad de la supresión no máxima (NMS).

Esta guía ofrece una comparación técnica detallada para ayudar a los investigadores e ingenieros a seleccionar la herramienta adecuada para sus proyectos de visión artificial. Analizamos la arquitectura, las métricas de rendimiento y los flujos de trabajo de implementación, y mostramos por qué las iteraciones modernas como YOLOv10, y la más reciente YOLO26—son a menudo la opción preferida para soluciones de IA escalables.

Comparación del Rendimiento del Modelo

La tabla siguiente destaca las diferencias de rendimiento entre los dos modelos. YOLOv10 ofrece YOLOv10 una latencia menor y una mayor eficiencia (menos parámetros y FLOP) en comparación con YOLOv7, especialmente en las variantes de modelo más pequeñas.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLOv7: La potente bolsa de regalos

Lanzado en julio de 2022, YOLOv7 fue desarrollado para optimizar el proceso de entrenamiento sin aumentar los costes de inferencia. Los autores introdujeron un concepto denominado «trainable bag-of-freebies», que hace referencia a métodos de optimización que mejoran la precisión durante el entrenamiento, pero que se descartan durante la inferencia, lo que permite mantener la rapidez del modelo.

Detalles técnicos clave:

YOLOv7 la Red de Agregación de Capas Eficiente Extendida (E-ELAN). Esta arquitectura permite al modelo aprender características más diversas mediante el control eficaz de las rutas de gradiente más cortas y más largas. Además, empleó técnicas de escalado de modelos que modifican los atributos de la arquitectura (como la profundidad y la anchura) simultáneamente, lo que garantiza un rendimiento óptimo en diferentes tamaños. A pesar de su alto rendimiento en el COCO , YOLOv7 principalmente un detector basado en anclajes, lo que a veces puede complicar el ajuste de hiperparámetros en comparación con las alternativas modernas sin anclajes.

Más información sobre YOLOv7

YOLOv10: Detección de objetos de extremo a extremo en tiempo real

Publicado en mayo de 2024 por investigadores de la Universidad de Tsinghua, YOLOv10 supuso un cambio significativo en la YOLO al introducir el entrenamiento NMS.

Detalles técnicos clave:

YOLOv10 un cuello de botella que existe desde hace tiempo en la detección en tiempo real: la dependencia de la supresión no máxima (NMS) para el posprocesamiento. Mediante el empleo de asignaciones duales coherentes, YOLOv10 un entrenamiento integral, lo que permite al modelo generar predicciones finales directamente. La eliminación de NMS reduce NMS la latencia de la inferencia y simplifica los procesos de implementación, especialmente en dispositivos periféricos, donde la sobrecarga del posprocesamiento es costosa. Además, su diseño de modelo holístico basado en la eficiencia y la precisión optimiza varios componentes, como el cabezal de clasificación ligero y el submuestreo desacoplado del canal espacial, para reducir la redundancia computacional.

Más información sobre YOLOv10

Comparación crítica: arquitectura y usabilidad

Aunque ambos modelos son potentes, sus diferencias en cuanto a arquitectura determinan sus casos de uso ideales.

NMS frente a basado en anclajes

La diferencia más notable es el requisito de posprocesamiento. YOLOv7 en NMS filtrar los cuadros delimitadores superpuestos. Aunque es eficaz, NMS una latencia que varía en función del número de objetos detectados, lo que hace que el tiempo de predicción sea variable. Por el contrario, el diseño integral YOLOv10 proporciona tiempos de inferencia deterministas, lo que es crucial para aplicaciones en tiempo real críticas para la seguridad, como los vehículos autónomos.

Eficiencia y uso de recursos

YOLOv10 una eficiencia superior. Como se muestra en la tabla comparativa, YOLOv10b alcanza una precisión comparable a la de YOLOv7, pero con aproximadamente un 65 % menos de parámetros. Esta drástica reducción del tamaño del modelo se traduce en un menor consumo de memoria, lo que hace que YOLOv10 sea YOLOv10 adecuado para entornos con limitaciones de memoria, como aplicaciones móviles o dispositivos IoT.

Eficiencia de Memoria

Para los desarrolladores que se centran en dispositivos periféricos, la reducción del número de parámetros de YOLOv10 un uso significativamente menor de RAM durante la inferencia. Esto permite ejecutar lotes de mayor tamaño o realizar múltiples tareas junto con otros modelos de IA en el mismo hardware.

Entrenamiento y ecosistema

El ecosistema que rodea a un modelo determina su viabilidad para los desarrolladores. Aquí es donde destaca la Ultralytics . Se puede acceder a ambos modelos a través delPython Ultralytics , que unifica la experiencia del usuario.

  • Facilidad de uso: Puede cambiar entre modelos modificando una sola cadena (por ejemplo, model = YOLO("yolov10n.pt")).
  • Modos unificados: Ultralytics los comandos para el entrenamiento, la validación y la exportación a formatos como ONNX, TensorRT y CoreML.
  • Eficiencia de entrenamiento: Ultralytics están optimizadas para un menor uso CUDA en comparación con PyTorch sin procesar, lo que permite tamaños de lotes más grandes en las GPU de consumo.
from ultralytics import YOLO

# Load a pre-trained YOLOv10 model (swappable with YOLOv7)
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

El futuro: YOLO26

Aunque YOLOv7 YOLOv10 excelentes, este campo evoluciona rápidamente. La recién lanzada YOLO26 (enero de 2026) se basa en la base NMS de YOLOv10 introduce nuevas innovaciones para lograr una mayor velocidad y precisión.

  • NMS de extremo a extremo: al igual que YOLOv10, YOLO26 es nativamente de extremo a extremo, lo que garantiza una latencia determinista.
  • Optimizador MuSGD: Inspirado en el entrenamiento de LLM, este optimizador híbrido garantiza un entrenamiento estable y una convergencia más rápida.
  • Optimización de borde: con la eliminación de la pérdida focal de distribución (DFL), YOLO26 es hasta un 43 % más rápido en CPU, lo que lo convierte en la opción superior para la computación de borde.
  • Versatilidad: YOLO26 admite todas las tareas, incluyendo OBB, estimación de poses y segmentación.

Más información sobre YOLO26

Conclusión

La elección entre YOLOv7 YOLOv10 de tus limitaciones específicas.

  • Elija YOLOv7 si mantiene sistemas heredados optimizados para su arquitectura específica o si necesita las características específicas «bag-of-freebies» para comparaciones de investigación.
  • Elija YOLOv10 para nuevas implementaciones que requieran baja latencia y alta eficiencia. Su diseño NMS y su reducido número de parámetros lo hacen ideal para aplicaciones periféricas en tiempo real.

Sin embargo, para obtener el mejor equilibrio entre velocidad, precisión y facilidad de uso, recomendamos echar un vistazo a la última versión de YOLO26. Con el respaldo de la sólida Ultralytics , ofrece la solución más preparada para el futuro en lo que respecta al desarrollo de la visión artificial.

Lecturas adicionales


Comentarios