Link to this sectionYOLOv10 frente a YOLOv7#
El rápido progreso de la visión artificial durante los últimos años ha dado lugar a arquitecturas cada vez más eficientes para aplicaciones en tiempo real. Comparar YOLOv10 y YOLOv7 destaca un periodo de transición crucial en esta evolución. Mientras que YOLOv7 introdujo estrategias de entrenamiento y escalado arquitectónico altamente eficaces, YOLOv10 revolucionó el despliegue al eliminar la dependencia histórica de la supresión de no máximos (NMS).
Ambos modelos ampliaron los límites de la detección de objetos en el momento de sus respectivos lanzamientos, pero el moderno ecosistema Ultralytics y la introducción de modelos de nueva generación como YOLO26 ofrecen flujos de trabajo muy superiores para los profesionales de la IA actuales.
Link to this sectionPerfiles y orígenes de los modelos#
Comprender los orígenes de estos modelos proporciona un contexto valioso respecto a sus decisiones de diseño arquitectónico y la investigación académica que los impulsa.
Link to this sectionDetalles de YOLOv10#
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 23-05-2024
- Arxiv: YOLOv10: Real-Time End-to-End Object Detection
- GitHub: THU-MIG/yolov10
- Documentación: Documentación de Ultralytics YOLOv10
Link to this sectionDetalles de YOLOv7#
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Institute of Information Science, Academia Sinica, Taiwán
- Fecha: 06-07-2022
- Arxiv: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art
- GitHub: WongKinYiu/yolov7
- Documentación: Documentación de Ultralytics YOLOv7
Link to this sectionInnovaciones arquitectónicas#
Link to this sectionEl enfoque de YOLOv7#
Lanzado en 2022, YOLOv7 se centró intensamente en optimizar las rutas de gradiente. Introdujo la red Extended Efficient Layer Aggregation Network (E-ELAN), que permitió al modelo aprender características más diversas sin destruir la ruta de gradiente original. Además, los autores implementaron una metodología de "conjunto de mejoras gratuitas entrenables" (trainable bag-of-freebies), utilizando técnicas de re-parametrización durante el entrenamiento que podían fusionarse durante la inferencia para mantener velocidades de ejecución rápidas. A pesar de estas impresionantes optimizaciones, YOLOv7 seguía dependiendo en gran medida de NMS para el post-procesamiento, creando una latencia variable durante el análisis de escenas densas.
Link to this sectionEl avance de YOLOv10#
YOLOv10 abordó directamente el cuello de botella de NMS. Al introducir asignaciones duales consistentes durante el entrenamiento, el equipo de la Universidad de Tsinghua permitió la detección de extremo a extremo (end-to-end) sin NMS. Este enfoque de cabezal dual utiliza una rama con asignaciones de uno a muchos para obtener señales de supervisión ricas durante el entrenamiento, y otra rama con asignaciones de uno a uno para la inferencia sin NMS. Este cambio arquitectónico garantiza una latencia de inferencia ultrabaja y consistente, adecuada para análisis de vídeo de alta velocidad. Además, YOLOv10 emplea un diseño de modelo basado en una eficiencia y precisión holísticas, eliminando la redundancia computacional presente en generaciones anteriores.
Eliminar el post-procesamiento NMS no solo acelera la inferencia, sino que simplifica significativamente el despliegue en hardware de IA de borde, como aceleradores de IA y NPU, donde las operaciones NMS personalizadas son notoriamente difíciles de compilar.
Link to this sectionComparación de rendimiento#
Al comparar las métricas brutas en el conjunto de datos MS COCO, la brecha generacional se hace evidente. YOLOv10 logra un equilibrio mucho más favorable entre parámetros, requisitos computacionales y precisión.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Como se observa arriba, YOLOv10x ofrece una mAP superior del 54,4 % en comparación con el 53,1 % de YOLOv7x, mientras utiliza aproximadamente un 20 % menos de parámetros. Además, los modelos YOLOv10 ligeros (Nano y Small) ofrecen velocidades de despliegue en TensorRT excepcionales, lo que los hace muy atractivos para el despliegue en móviles.
Link to this sectionLa ventaja del ecosistema Ultralytics#
Aunque estudiar los documentos arquitectónicos es instructivo, el desarrollo moderno de la visión artificial depende de marcos de trabajo robustos y bien mantenidos. Seleccionar un modelo compatible con Ultralytics proporciona una gran ventaja para los desarrolladores que buscan pasar rápidamente del prototipo a la producción.
Link to this sectionDesarrollo optimizado#
Tanto YOLOv10 como YOLOv7 pueden accederse a través del paquete estándar de Python de Ultralytics. Esto proporciona una Facilidad de uso inigualable, reemplazando miles de líneas de código repetitivo (boilerplate) con una API sencilla e intuitiva. Además, los modelos YOLO de Ultralytics requieren una memoria CUDA significativamente menor durante el entrenamiento en comparación con las pesadas arquitecturas de Transformer, lo que permite el uso de tamaños de lote (batch sizes) mayores en hardware de consumo.
Link to this sectionVersatilidad inigualable#
Mientras que los repositorios más antiguos suelen centrarse estrictamente en la detección de cajas delimitadoras, el marco de trabajo integrado de Ultralytics soporta sin problemas una gran variedad de tareas. Tanto si realizas Segmentación de instancias, Estimación de pose o detección de cajas delimitadoras orientadas (OBB), el flujo de trabajo sigue siendo idéntico.
Link to this sectionEjemplo de código: Flujos de trabajo de entrenamiento consistentes#
El siguiente fragmento de código demuestra el proceso de entrenamiento fluido, que gestiona automáticamente la aumentación de datos y la programación de la tasa de aprendizaje:
from ultralytics import YOLO
# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")
# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export to ONNX format for rapid deployment
model.export(format="onnx")Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOv10 y YOLOv7 depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias del ecosistema.
Link to this sectionCuándo elegir YOLOv10#
YOLOv10 es una opción sólida para:
- Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
- Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
- Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.
Link to this sectionCuándo elegir YOLOv7#
YOLOv7 se recomienda para:
- Benchmarking académico: reproducir resultados de última generación de la era de 2022 o estudiar los efectos de las técnicas E-ELAN y bag-of-freebies entrenables.
- Investigación en reparametrización: investigar convoluciones reparametrizadas planificadas y estrategias de escalado de modelos compuestos.
- Procesos personalizados existentes: proyectos con flujos de trabajo altamente personalizados construidos en torno a la arquitectura específica de YOLOv7 que no se puedan refactorizar fácilmente.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionEl nuevo estándar: Presentación de YOLO26#
Aunque YOLOv10 fue un salto gigantesco en 2024, el panorama de la visión artificial se mueve increíblemente rápido. Para todo nuevo desarrollo, recomendamos encarecidamente el modelo de última generación: Ultralytics YOLO26. Lanzado en enero de 2026, representa la cima absoluta de la IA de visión en tiempo real, superando ampliamente tanto a YOLOv7 como a YOLOv10.
YOLO26 trae innovaciones sin precedentes diseñadas específicamente para entornos de despliegue modernos:
- Diseño de extremo a extremo (End-to-End) sin NMS: Construido sobre la base establecida por YOLOv10, YOLO26 elimina de forma nativa el post-procesamiento NMS para obtener tuberías de despliegue más sencillas y una inferencia de alta velocidad consistente.
- Hasta un 43 % más rápida en inferencia por CPU: Muy optimizada para la computación de borde y dispositivos sin GPU dedicadas, proporcionando un ahorro masivo en costes de hardware.
- Eliminación de DFL: La función Distribution Focal Loss se ha eliminado por completo, lo que simplifica radicalmente la lógica de exportación y mejora enormemente la compatibilidad con dispositivos de borde de bajo consumo y microcontroladores.
- Optimizador MuSGD: Inspirado en Kimi K2 de Moonshot AI, este híbrido de SGD y Muon traslada las innovaciones de entrenamiento de los Modelos de lenguaje extensos (LLM) directamente a la visión artificial, generando dinámicas de entrenamiento increíblemente estables y una convergencia más rápida.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, un área históricamente difícil que es fundamental para drones, robótica y monitorización de ciudades inteligentes.
- Mejoras específicas por tarea: YOLO26 no es solo un detector. Incluye pérdida de segmentación semántica especializada, estimación de log-verosimilitud residual (RLE) para un seguimiento de pose ultrapreciso y algoritmos de pérdida de ángulo especializados para eliminar los problemas de límites en OBB.
Para obtener la mejor experiencia absoluta en la gestión de tus conjuntos de datos, el entrenamiento de YOLO26 y el despliegue de modelos en la nube, explora la plataforma Ultralytics. Ofrece una interfaz sin código (no-code) que complementa perfectamente el SDK de Python.
Link to this sectionCasos de uso en el mundo real#
Seleccionar la arquitectura correcta depende en gran medida de tu hardware y de las limitaciones de la aplicación.
Link to this sectionCuándo usar YOLOv7#
YOLOv7 sigue siendo una opción fiable para mantener tuberías heredadas que ya están profundamente integradas con sus estructuras de tensores específicas o cuando se replican puntos de referencia académicos de 2022 y 2023. Funciona admirablemente en GPU de servidor de gama alta.
Link to this sectionCuándo usar YOLOv10#
YOLOv10 destaca en escenarios que requieren una latencia estricta e invariable. Debido a que no utiliza NMS, es excelente para el conteo de multitudes de alta densidad o la detección de defectos de fabricación, donde el número de objetos fluctúa enormemente pero el tiempo de procesamiento por cuadro debe permanecer constante.
Link to this sectionCuándo utilizar YOLO26#
YOLO26 es la opción definitiva para cualquier proyecto nuevo. Desde el despliegue de sofisticados sistemas de alarma de seguridad en una Raspberry Pi básica hasta la ejecución de análisis de vídeo masivos basados en la nube, sus velocidades de CPU superiores y su detección avanzada de objetos pequeños la hacen muy superior a las generaciones anteriores.
Para los desarrolladores interesados en explorar arquitecturas modernas alternativas, también proporcionamos soporte extenso para detectores basados en Transformer como RT-DETR y elementos básicos de generaciones anteriores como Ultralytics YOLO11.