Link to this sectionYOLO12: Detección de objetos centrada en la atención#
Link to this sectionDescripción general#
YOLO12, lanzado a principios de 2025, introduce una arquitectura centrada en la atención que se aleja de los enfoques tradicionales basados en CNN utilizados en modelos YOLO previos, aunque mantiene la velocidad de inferencia en tiempo real esencial para muchas aplicaciones. Este modelo logra una alta precisión en la detección de objetos mediante innovaciones metodológicas novedosas en los mecanismos de atención y en la arquitectura general de la red, manteniendo al mismo tiempo un rendimiento en tiempo real. A pesar de esas ventajas, YOLO12 sigue siendo un lanzamiento impulsado por la comunidad que puede mostrar inestabilidad en el entrenamiento, un mayor consumo de memoria y un rendimiento de CPU más lento debido a sus bloques de atención pesados, por lo que Ultralytics recomienda YOLO11 o YOLO26 para la mayoría de las cargas de trabajo en producción.
Watch: How to Use YOLO12 for Object Detection with the Ultralytics Package | Is YOLO12 Fast or Slow? 🚀
Link to this sectionCaracterísticas clave#
- Mecanismo de Area Attention: Un nuevo enfoque de autoatención que procesa grandes campos receptivos de manera eficiente. Divide los mapas de características en l regiones de igual tamaño (por defecto 4), ya sea horizontal o verticalmente, evitando operaciones complejas y manteniendo un gran campo receptivo efectivo. Esto reduce significativamente el costo computacional en comparación con la autoatención estándar.
- Redes de agregación de capas eficientes residuales (R-ELAN): Un módulo de agregación de características mejorado basado en ELAN, diseñado para abordar desafíos de optimización, especialmente en modelos centrados en la atención a mayor escala. R-ELAN introduce:
- Conexiones residuales a nivel de bloque con escalado (similar al escalado de capas).
- Un método rediseñado de agregación de características que crea una estructura tipo cuello de botella.
- Arquitectura de atención optimizada: YOLO12 agiliza el mecanismo de atención estándar para una mayor eficiencia y compatibilidad con el marco de trabajo de YOLO. Esto incluye:
- Uso de FlashAttention para minimizar la sobrecarga de acceso a memoria.
- Eliminación de la codificación posicional para un modelo más limpio y rápido.
- Ajuste de la relación MLP (del típico 4 a 1.2 o 2) para equilibrar mejor el cálculo entre las capas de atención y las capas feed-forward.
- Reducción de la profundidad de los bloques apilados para una mejor optimización.
- Aprovechamiento de operaciones de convolución (donde sea apropiado) por su eficiencia computacional.
- Adición de una convolución separable de 7x7 (el "perceptor de posición") al mecanismo de atención para codificar implícitamente información posicional.
- Soporte integral de tareas: YOLO12 admite una variedad de tareas principales de visión artificial: detección de objetos, segmentación de instancias, clasificación de imágenes, estimación de poses y detección de objetos orientados (OBB).
- Eficiencia mejorada: Logra una mayor precisión con menos parámetros en comparación con muchos modelos anteriores, demostrando un equilibrio mejorado entre velocidad y precisión.
- Despliegue flexible: Diseñado para el despliegue en diversas plataformas, desde dispositivos de borde hasta infraestructura en la nube.

Link to this sectionTareas y modos soportados#
YOLO12 admite una variedad de tareas de visión artificial. La siguiente tabla muestra el soporte de tareas y los modos operativos (Inferencia, Validación, Entrenamiento y Exportación) habilitados para cada una:
Solo los pesos de detección (yolo12n.pt, yolo12s.pt, yolo12m.pt, yolo12l.pt, yolo12x.pt) se publican en ultralytics/assets. Las arquitecturas de segmentación, clasificación, poses y OBB están definidas en ultralytics/cfg/models/12/, por lo que esas variantes admiten el entrenamiento desde cero a partir de la configuración .yaml, pero no hay archivos .pt preentrenados disponibles para ellas actualmente. Para puntos de control preentrenados de segmentación, poses, clasificación u OBB, Ultralytics recomienda YOLO11 o YOLO26.
| Tipo de modelo | Tarea | Pesos preentrenados | Inferencia | Validación | Entrenamiento | Exportar |
|---|---|---|---|---|---|---|
| YOLO12 | Detección | ✅ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-seg | Segmentación | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-pose | Pose | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-cls | Clasificación | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-obb | OBB | ❌ | ✅ | ✅ | ✅ | ✅ |
Todas las arquitecturas YOLO12 admiten todos los modos una vez que hay un punto de control entrenado disponible. La columna Pretrained Weights indica solo si Ultralytics publica un .pt preentrenado oficial en ultralytics/assets: para segmentación, poses, clasificación y OBB, debes entrenar tu propio punto de control a partir del .yaml correspondiente antes de ejecutar la inferencia, validación o exportación.
Link to this sectionMétricas de rendimiento#
YOLO12 demuestra mejoras significativas en precisión en todas las escalas del modelo, con algunas compensaciones en velocidad en comparación con los modelos YOLO previos más rápidos. A continuación, se muestran los resultados cuantitativos para la detección de objetos en el conjunto de datos de validación de COCO:
Link to this sectionRendimiento de detección (COCO val2017)#
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT (ms) | params (M) | FLOPs (B) | Comparación (mAP/Velocidad) |
|---|---|---|---|---|---|---|---|
| YOLO12n | 640 | 40.6 | - | 1.64 | 2.6 | 6.5 | +2.1%/-9% (vs. YOLOv10n) |
| YOLO12s | 640 | 48.0 | - | 2.61 | 9.3 | 21.4 | +0.1%/+42% (vs. RT-DETRv2) |
| YOLO12m | 640 | 52.5 | - | 4.86 | 20.2 | 67.5 | +1.0%/-3% (vs. YOLO11m) |
| YOLO12l | 640 | 53.7 | - | 6.77 | 26.4 | 88.9 | +0.4%/-8% (vs. YOLO11l) |
| YOLO12x | 640 | 55.2 | - | 11,79 | 59.1 | 199.0 | +0.6%/-4% (vs. YOLO11x) |
- Velocidad de inferencia medida en una GPU NVIDIA T4 con precisión TensorRT FP16.
- Las comparaciones muestran la mejora relativa en mAP y el cambio porcentual en velocidad (positivo indica más rápido; negativo indica más lento). Las comparaciones se realizan frente a los resultados publicados para YOLOv10, YOLO11 y RT-DETR cuando están disponibles.
Link to this sectionEjemplos de uso#
Esta sección proporciona ejemplos para el entrenamiento y la inferencia con YOLO12. Para obtener documentación más completa sobre estos y otros modos (incluyendo Validación y Exportación), consulta las páginas dedicadas de Predicción y Entrenamiento.
Los ejemplos a continuación se centran en los modelos de Detección de YOLO12 (para detección de objetos). Para otras tareas admitidas (segmentación, clasificación, detección de objetos orientados y estimación de poses), consulta la documentación específica de cada tarea: Segmentación, Clasificación, OBB y Poses.
Los modelos preentrenados *.pt (usando PyTorch) y los archivos de configuración *.yaml se pueden pasar a la clase YOLO() para crear una instancia de modelo en Python:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")Link to this sectionMejoras clave#
-
Extracción de características mejorada:
- Area Attention: Maneja eficientemente grandes campos receptivos, reduciendo el costo computacional.
- Equilibrio optimizado: Equilibrio mejorado entre los cálculos de atención y los de la red feed-forward.
- R-ELAN: Mejora la agregación de características mediante la arquitectura R-ELAN.
-
Innovaciones en optimización:
- Conexiones residuales: Introduce conexiones residuales con escalado para estabilizar el entrenamiento, especialmente en modelos más grandes.
- Integración de características refinada: Implementa un método mejorado para la integración de características dentro de R-ELAN.
- FlashAttention: Incorpora FlashAttention para reducir la sobrecarga de acceso a memoria.
-
Eficiencia arquitectónica:
- Parámetros reducidos: Logra un menor número de parámetros manteniendo o mejorando la precisión en comparación con muchos modelos anteriores.
- Atención simplificada: Utiliza una implementación de atención simplificada, evitando la codificación posicional.
- Relaciones MLP optimizadas: Ajusta las relaciones MLP para asignar los recursos computacionales de manera más efectiva.
Link to this sectionRequisitos#
La implementación de Ultralytics YOLO12, por defecto, no requiere FlashAttention. Sin embargo, FlashAttention se puede compilar opcionalmente y utilizar con YOLO12. Para compilar FlashAttention, se necesita una de las siguientes GPU de NVIDIA:
- GPU Turing (p. ej., T4, serie Quadro RTX)
- GPU Ampere (p. ej., serie RTX30, A30/40/100)
- GPU Ada Lovelace (p. ej., serie RTX40)
- GPU Hopper (p. ej., H100/H200)
Link to this sectionCitas y agradecimientos#
Si utilizas YOLO12 en tu investigación, por favor cita el trabajo original de la University at Buffalo y la University of Chinese Academy of Sciences:
@inproceedings{tian2025yolov12,
title={YOLOv12: Attention-Centric Real-Time Object Detectors},
author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
booktitle={Advances in Neural Information Processing Systems},
volume={38},
pages={78433--78457},
year={2025},
url={https://proceedings.neurips.cc/paper_files/paper/2025/file/7103444259031cc58051f8c9a4868533-Paper-Conference.pdf}
}
@software{yolo12,
author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
title = {YOLO12: Attention-Centric Real-Time Object Detectors},
year = {2025},
url = {https://github.com/sunsmarterjie/yolov12},
license = {AGPL-3.0}
}El artículo de YOLO12 se publicó en las actas de NeurIPS 2025, con una prepublicación en arXiv.
Link to this sectionFAQ#
Link to this section¿Cómo logra YOLO12 la detección de objetos en tiempo real manteniendo una alta precisión?#
YOLO12 incorpora varias innovaciones clave para equilibrar la velocidad y la precisión. El mecanismo de atención de área (Area Attention) procesa eficientemente grandes campos receptivos, reduciendo el costo computacional en comparación con la autoatención estándar. Las Redes de Agregación de Capas Eficientes Residuales (R-ELAN) mejoran la agregación de características, abordando los desafíos de optimización en modelos más grandes centrados en la atención. La arquitectura de atención optimizada, que incluye el uso de FlashAttention y la eliminación de la codificación posicional, mejora aún más la eficiencia. Estas características permiten a YOLO12 lograr una precisión de vanguardia mientras mantiene la velocidad de inferencia en tiempo real crucial para muchas aplicaciones.
Link to this section¿Qué tareas de visión artificial admite YOLO12?#
YOLO12 es un modelo versátil que admite una amplia gama de tareas fundamentales de visión artificial. Destaca en detección de objetos, segmentación de instancias, clasificación de imágenes, estimación de poses y detección de objetos orientados (OBB) (ver detalles). Este soporte integral de tareas hace que YOLO12 sea una herramienta potente para diversas aplicaciones, desde robótica y conducción autónoma hasta imágenes médicas e inspección industrial. Ten en cuenta que los pesos .pt preentrenados se publican actualmente solo para detección; las arquitecturas de segmentación, poses, clasificación y OBB se proporcionan como configuraciones .yaml para el entrenamiento desde cero.
Link to this section¿Cómo se compara YOLO12 con otros modelos YOLO y competidores como RT-DETR?#
YOLO12 demuestra mejoras de precisión significativas en todas las escalas de modelo en comparación con modelos YOLO anteriores como YOLOv10 y YOLO11, con algunas compensaciones en velocidad respecto a los modelos anteriores más rápidos. Por ejemplo, YOLO12n logra una mejora de +2.1% en mAP sobre YOLOv10n y +1.2% sobre YOLO11n en el conjunto de datos COCO val2017. En comparación con modelos como RT-DETR, YOLO12s ofrece una mejora de +1.5% en mAP y un aumento sustancial de +42% en velocidad. Estas métricas destacan el sólido equilibrio de YOLO12 entre precisión y eficiencia. Consulta la sección de métricas de rendimiento para obtener comparaciones detalladas.
Link to this section¿Cuáles son los requisitos de hardware para ejecutar YOLO12, especialmente para usar FlashAttention?#
Por defecto, la implementación de Ultralytics YOLO12 no requiere FlashAttention. Sin embargo, FlashAttention puede compilarse y usarse opcionalmente con YOLO12 para minimizar la sobrecarga de acceso a memoria. Para compilar FlashAttention, se necesita una de las siguientes GPU de NVIDIA: GPU Turing (p. ej., T4, serie Quadro RTX), GPU Ampere (p. ej., serie RTX30, A30/40/100), GPU Ada Lovelace (p. ej., serie RTX40) o GPU Hopper (p. ej., H100/H200). Esta flexibilidad permite a los usuarios aprovechar los beneficios de FlashAttention cuando los recursos de hardware lo permiten.
Link to this section¿Dónde puedo encontrar ejemplos de uso y documentación más detallada para YOLO12?#
Esta página proporciona ejemplos de uso básicos para entrenamiento e inferencia. Para obtener documentación exhaustiva sobre estos y otros modos, incluyendo Validación y Exportación, consulta las páginas dedicadas de Predicción y Entrenamiento. Para obtener información específica sobre tareas (segmentación, clasificación, detección de objetos orientados y estimación de poses), consulta la documentación respectiva: Segmentación, Clasificación, OBB y Poses. Estos recursos proporcionan una guía detallada para utilizar YOLO12 de manera efectiva en varios escenarios.