Link to this sectionYOLO12: Auf Attention basierende Objekterkennung#
Link to this sectionÜbersicht#
YOLO12, das Anfang 2025 veröffentlicht wurde, führt eine auf Attention basierende Architektur ein, die sich von den traditionellen CNN-basierten Ansätzen früherer YOLO-Modelle entfernt, aber die für viele Anwendungen unerlässliche Echtzeit-Inferenzgeschwindigkeit beibehält. Dieses Modell erreicht eine hohe Genauigkeit bei der Objekterkennung durch neuartige methodische Innovationen bei Aufmerksamkeitsmechanismen und der gesamten Netzwerkarchitektur, während die Echtzeitleistung gewahrt bleibt. Trotz dieser Vorteile bleibt YOLO12 eine von der Community gesteuerte Veröffentlichung, die aufgrund ihrer rechenintensiven Attention-Blöcke Instabilitäten beim Training, einen erhöhten Speicherverbrauch und einen langsameren CPU-Durchsatz aufweisen kann. Daher empfiehlt Ultralytics für die meisten Produktions-Workloads YOLO11 oder YOLO26.
Watch: How to Use YOLO12 for Object Detection with the Ultralytics Package | Is YOLO12 Fast or Slow? 🚀
Link to this sectionHauptfunktionen#
- Area Attention Mechanism: Ein neuer Self-Attention-Ansatz, der große rezeptive Felder effizient verarbeitet. Er unterteilt Feature Maps in l gleich große Regionen (standardmäßig 4), entweder horizontal oder vertikal, wodurch komplexe Operationen vermieden und ein großes effektives rezeptives Feld beibehalten wird. Dies reduziert die Rechenkosten im Vergleich zu Standard-Self-Attention erheblich.
- Residual Efficient Layer Aggregation Networks (R-ELAN): Ein verbessertes Feature-Aggregationsmodul auf Basis von ELAN, das darauf ausgelegt ist, Optimierungsprobleme zu lösen, insbesondere in größeren, auf Attention basierenden Modellen. R-ELAN führt Folgendes ein:
- Block-level Residual-Verbindungen mit Skalierung (ähnlich wie Layer-Skalierung).
- Eine neu gestaltete Feature-Aggregationsmethode, die eine engpassartige Struktur erzeugt.
- Optimized Attention Architecture: YOLO12 rationalisiert den Standard-Attention-Mechanismus für höhere Effizienz und Kompatibilität mit dem YOLO-Framework. Dies beinhaltet:
- Verwendung von FlashAttention, um den Overhead beim Speicherzugriff zu minimieren.
- Entfernung der positionsbezogenen Codierung für ein saubereres und schnelleres Modell.
- Anpassung des MLP-Verhältnisses (von typischerweise 4 auf 1,2 oder 2), um die Berechnung zwischen Attention- und Feed-Forward-Schichten besser auszubalancieren.
- Reduzierung der Tiefe gestapelter Blöcke für eine verbesserte Optimierung.
- Nutzung von Faltungsoperationen (wo angemessen) aufgrund ihrer rechnerischen Effizienz.
- Hinzufügen einer 7x7 separablen Faltung (der "Position Perceiver") zum Attention-Mechanismus, um positionsbezogene Informationen implizit zu codieren.
- Umfassende Aufgabenunterstützung: YOLO12 unterstützt eine Reihe grundlegender Computer-Vision-Aufgaben: Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Objekterkennung (OBB).
- Verbesserte Effizienz: Erzielt eine höhere Genauigkeit mit weniger Parametern im Vergleich zu vielen Vorgängermodellen und demonstriert ein verbessertes Gleichgewicht zwischen Geschwindigkeit und Genauigkeit.
- Flexible Bereitstellung: Konzipiert für den Einsatz auf verschiedensten Plattformen, von Edge-Geräten bis hin zur Cloud-Infrastruktur.

Link to this sectionUnterstützte Aufgaben und Modi#
YOLO12 unterstützt eine Vielzahl von Computer-Vision-Aufgaben. Die folgende Tabelle zeigt die Aufgabenunterstützung und die für jede Aufgabe aktivierten Betriebsmodi (Inferenz, Validierung, Training und Export):
Nur Detektionsgewichte (yolo12n.pt, yolo12s.pt, yolo12m.pt, yolo12l.pt, yolo12x.pt) werden auf ultralytics/assets veröffentlicht. Architekturmodelle für Segmentierung, Klassifizierung, Pose und OBB sind in ultralytics/cfg/models/12/ definiert, daher unterstützen diese Varianten das Training von Grund auf mit der .yaml-Konfiguration, aber es sind derzeit keine vortrainierten .pt-Dateien für sie verfügbar. Für vortrainierte Segmentierungs-, Posen-, Klassifizierungs- oder OBB-Checkpoints empfiehlt Ultralytics YOLO11 oder YOLO26.
| Modelltyp | Aufgabe | Vortrainierte Gewichte | Inference | Validation | Training | Exportieren |
|---|---|---|---|---|---|---|
| YOLO12 | Detektion | ✅ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-seg | Segmentierung | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-pose | Pose | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-cls | Klassifizierung | ❌ | ✅ | ✅ | ✅ | ✅ |
| YOLO12-obb | OBB | ❌ | ✅ | ✅ | ✅ | ✅ |
Alle YOLO12-Architekturen unterstützen jeden Modus, sobald ein trainierter Checkpoint verfügbar ist. Die Spalte Pretrained Weights gibt nur an, ob Ultralytics offiziell vortrainierte .pt-Dateien auf ultralytics/assets veröffentlicht: Für Segmentierung, Pose, Klassifizierung und OBB musst du deinen eigenen Checkpoint aus der entsprechenden .yaml trainieren, bevor du Inferenz, Validierung oder Export durchführst.
Link to this sectionLeistungsmetriken#
YOLO12 zeigt signifikante Genauigkeitsverbesserungen über alle Modellskalen hinweg, mit einigen Kompromissen bei der Geschwindigkeit im Vergleich zu den schnellsten früheren YOLO-Modellen. Nachfolgend sind die quantitativen Ergebnisse für Objekterkennung auf dem COCO-Validierungsdatensatz dargestellt:
Link to this sectionDetektionsleistung (COCO val2017)#
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT (ms) | Parameter (M) | FLOPs (B) | Vergleich (mAP/Geschwindigkeit) |
|---|---|---|---|---|---|---|---|
| YOLO12n | 640 | 40.6 | - | 1.64 | 2.6 | 6.5 | +2.1%/-9% (vs. YOLOv10n) |
| YOLO12s | 640 | 48.0 | - | 2.61 | 9.3 | 21.4 | +0.1%/+42% (vs. RT-DETRv2) |
| YOLO12m | 640 | 52,5 | - | 4.86 | 20.2 | 67.5 | +1.0%/-3% (vs. YOLO11m) |
| YOLO12l | 640 | 53.7 | - | 6.77 | 26.4 | 88.9 | +0.4%/-8% (vs. YOLO11l) |
| YOLO12x | 640 | 55.2 | - | 11,79 | 59.1 | 199.0 | +0.6%/-4% (vs. YOLO11x) |
- Die Inferenzgeschwindigkeit wurde auf einer NVIDIA T4 GPU mit TensorRT FP16 Präzision gemessen.
- Vergleiche zeigen die relative Verbesserung beim mAP und die prozentuale Veränderung der Geschwindigkeit (positiv bedeutet schneller; negativ bedeutet langsamer). Die Vergleiche basieren auf veröffentlichten Ergebnissen für YOLOv10, YOLO11 und RT-DETR, sofern verfügbar.
Link to this sectionAnwendungsbeispiele#
Dieser Abschnitt bietet Beispiele für Training und Inferenz mit YOLO12. Für umfassendere Dokumentationen zu diesen und anderen Modi (einschließlich Validierung und Export), konsultiere die dedizierten Seiten für Vorhersage und Training.
Die folgenden Beispiele konzentrieren sich auf YOLO12 Detektionsmodelle (für Objekterkennung). Für andere unterstützte Aufgaben (Segmentierung, Klassifizierung, orientierte Objekterkennung und Posenschätzung), siehe die jeweilige aufgabenspezifische Dokumentation: Segmentierung, Klassifizierung, OBB und Pose.
Vortrainierte *.pt-Modelle (unter Verwendung von PyTorch) und Konfigurations-*.yaml-Dateien können an die YOLO()-Klasse übergeben werden, um eine Modellinstanz in Python zu erstellen:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO12n model
model = YOLO("yolo12n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO12n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")Link to this sectionWichtige Verbesserungen#
-
Verbesserte Merkmalsextraktion:
- Area Attention: Verarbeitet effizient große rezeptive Felder und reduziert die Rechenkosten.
- Optimiertes Gleichgewicht: Verbessertes Gleichgewicht zwischen Attention- und Feed-Forward-Netzwerkberechnungen.
- R-ELAN: Verbessert die Feature-Aggregation unter Verwendung der R-ELAN-Architektur.
-
Optimierungsinnovationen:
- Residual-Verbindungen: Führt Residual-Verbindungen mit Skalierung ein, um das Training zu stabilisieren, insbesondere bei größeren Modellen.
- Verfeinerte Feature-Integration: Implementiert eine verbesserte Methode für die Feature-Integration innerhalb von R-ELAN.
- FlashAttention: Integriert FlashAttention, um den Speicherzugriffs-Overhead zu reduzieren.
-
Architektonische Effizienz:
- Reduzierte Parameter: Erreicht eine geringere Parameteranzahl bei gleichbleibender oder verbesserter Genauigkeit im Vergleich zu vielen früheren Modellen.
- Rationalisierte Attention: Verwendet eine vereinfachte Attention-Implementierung, wobei auf positionsbezogene Codierung verzichtet wird.
- Optimierte MLP-Verhältnisse: Passt die MLP-Verhältnisse an, um Rechenressourcen effektiver zuzuweisen.
Link to this sectionAnforderungen#
Die Ultralytics YOLO12-Implementierung erfordert standardmäßig kein FlashAttention. FlashAttention kann jedoch optional kompiliert und mit YOLO12 verwendet werden. Zum Kompilieren von FlashAttention ist eine der folgenden NVIDIA-GPUs erforderlich:
- Turing-GPUs (z. B. T4, Quadro RTX-Serie)
- Ampere-GPUs (z. B. RTX30-Serie, A30/40/100)
- Ada Lovelace-GPUs (z. B. RTX40-Serie)
- Hopper-GPUs (z. B. H100/H200)
Link to this sectionZitate und Danksagungen#
Wenn du YOLO12 in deiner Forschung verwendest, zitiere bitte die Originalarbeit der University at Buffalo und der University of Chinese Academy of Sciences:
@article{tian2025yolo12,
title={YOLO12: Attention-Centric Real-Time Object Detectors},
author={Tian, Yunjie and Ye, Qixiang and Doermann, David},
journal={arXiv preprint arXiv:2502.12524},
year={2025}
}
@software{yolo12,
author = {Tian, Yunjie and Ye, Qixiang and Doermann, David},
title = {YOLO12: Attention-Centric Real-Time Object Detectors},
year = {2025},
url = {https://github.com/sunsmarterjie/yolov12},
license = {AGPL-3.0}
}Link to this sectionFAQ#
Link to this sectionWie erreicht YOLO12 Echtzeit-Objekterkennung bei gleichzeitig hoher Genauigkeit?#
YOLO12 enthält mehrere wichtige Innovationen, um Geschwindigkeit und Genauigkeit in Einklang zu bringen. Der Area Attention-Mechanismus verarbeitet effizient große rezeptive Felder und reduziert die Rechenkosten im Vergleich zu Standard-Self-Attention. Die Residual Efficient Layer Aggregation Networks (R-ELAN) verbessern die Feature-Aggregation und adressieren Optimierungsprobleme bei größeren, auf Attention basierenden Modellen. Eine optimierte Attention-Architektur, einschließlich der Verwendung von FlashAttention und der Entfernung positionsbezogener Codierung, steigert die Effizienz weiter. Diese Funktionen ermöglichen es YOLO12, eine Spitzen-Genauigkeit bei gleichzeitiger Wahrung der für viele Anwendungen entscheidenden Echtzeit-Inferenzgeschwindigkeit zu erzielen.
Link to this sectionWelche Computer-Vision-Aufgaben unterstützt YOLO12?#
YOLO12 ist ein vielseitiges Modell, das eine breite Palette grundlegender Computer-Vision-Aufgaben unterstützt. Es zeichnet sich aus bei Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierter Objekterkennung (OBB) (Details siehe). Diese umfassende Aufgabenunterstützung macht YOLO12 zu einem leistungsstarken Werkzeug für diverse Anwendungen, von der Robotik und dem autonomen Fahren bis hin zur medizinischen Bildgebung und industriellen Inspektion. Beachte, dass vortrainierte .pt-Gewichte derzeit nur für die Detektion veröffentlicht sind; die Architekturen für Segmentierung, Pose, Klassifizierung und OBB werden als .yaml-Konfigurationen für das Training von Grund auf bereitgestellt.
Link to this sectionWie schneidet YOLO12 im Vergleich zu anderen YOLO-Modellen und Wettbewerbern wie RT-DETR ab?#
YOLO12 zeigt signifikante Genauigkeitsverbesserungen über alle Modellskalierungen hinweg im Vergleich zu früheren YOLO-Modellen wie YOLOv10 und YOLO11, mit einigen Kompromissen bei der Geschwindigkeit im Vergleich zu den schnellsten früheren Modellen. Zum Beispiel erzielt YOLO12n eine Verbesserung des mAP um +2,1% gegenüber YOLOv10n und um +1,2% gegenüber YOLO11n auf dem COCO val2017-Datensatz. Im Vergleich zu Modellen wie RT-DETR bietet YOLO12s eine Verbesserung des mAP um +1,5% und eine beachtliche Geschwindigkeitssteigerung um +42%. Diese Kennzahlen unterstreichen das starke Gleichgewicht von YOLO12 zwischen Genauigkeit und Effizienz. Siehe den Abschnitt zu den Leistungskennzahlen für detaillierte Vergleiche.
Link to this sectionWas sind die Hardwareanforderungen für den Betrieb von YOLO12, insbesondere für die Nutzung von FlashAttention?#
Die Ultralytics YOLO12-Implementierung erfordert standardmäßig kein FlashAttention. FlashAttention kann jedoch optional kompiliert und mit YOLO12 verwendet werden, um den Speicherzugriffs-Overhead zu minimieren. Zum Kompilieren von FlashAttention ist eine der folgenden NVIDIA-GPUs erforderlich: Turing-GPUs (z. B. T4, Quadro RTX-Serie), Ampere-GPUs (z. B. RTX30-Serie, A30/40/100), Ada Lovelace-GPUs (z. B. RTX40-Serie) oder Hopper-GPUs (z. B. H100/H200). Diese Flexibilität ermöglicht es Nutzern, die Vorteile von FlashAttention zu nutzen, wenn die Hardware-Ressourcen dies erlauben.
Link to this sectionWo finde ich Anwendungsbeispiele und detailliertere Dokumentation für YOLO12?#
Diese Seite bietet grundlegende Anwendungsbeispiele für Training und Inferenz. Für eine umfassende Dokumentation zu diesen und anderen Modi, einschließlich Validierung und Export, konsultiere die dedizierten Seiten für Vorhersage und Training. Für aufgabenspezifische Informationen (Segmentierung, Klassifizierung, orientierte Objekterkennung und Posenschätzung), siehe die jeweilige Dokumentation: Segmentierung, Klassifizierung, OBB und Pose. Diese Ressourcen bieten tiefgehende Anleitungen für den effektiven Einsatz von YOLO12 in verschiedenen Szenarien.