Ultralytics YOLO11
Übersicht
YOLO11 ist die neueste Generation in der Ultralytics YOLO Serie von Echtzeit-Objektdetektoren, die mit höchster Genauigkeit, Geschwindigkeit und Effizienz das Machbare neu definiert. Aufbauend auf den beeindruckenden Fortschritten früherer Versionen von YOLO führt YOLO11 bedeutende Verbesserungen in der Architektur und den Trainingsmethoden ein, die es zu einer vielseitigen Wahl für eine breite Palette von Computer Vision Aufgaben machen.
Beobachten: Verwendung von Ultralytics YOLO11 für Objekterkennung und -verfolgung | Benchmarking | YOLO11 RELEASED🚀
Wesentliche Merkmale
- Verbesserte Merkmalsextraktion: YOLO11 verwendet eine verbesserte Backbone- und Neck-Architektur, die die Merkmalsextraktionsfähigkeiten für eine präzisere Objekterkennung und die Leistung bei komplexen Aufgaben erhöht.
- Optimiert für Effizienz und Geschwindigkeit: YOLO11 führt ein verfeinertes Architekturdesign und optimierte Trainingspipelines ein, die schnellere Verarbeitungsgeschwindigkeiten ermöglichen und ein optimales Gleichgewicht zwischen Genauigkeit und Leistung wahren.
- Höhere Genauigkeit mit weniger Parametern: Durch Fortschritte im Modelldesign erreicht YOLO11m eine höhere durchschnittliche Genauigkeit (mAP) auf dem COCO-Datensatz, während 22 % weniger Parameter als bei YOLOv8m verwendet werden, was es rechnerisch effizient macht, ohne die Genauigkeit zu beeinträchtigen.
- Anpassungsfähigkeit in verschiedenen Umgebungen: YOLO11 kann nahtlos in verschiedenen Umgebungen eingesetzt werden, einschließlich Edge-Geräten, Cloud-Plattformen und Systemen, die NVIDIA GPUs unterstützen, und gewährleistet so maximale Flexibilität.
- Breites Spektrum an unterstützten Aufgaben: Ob Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung oder orientierte Objekterkennung (OBB), YOLO11 ist für eine Vielzahl von Computer-Vision-Aufgaben konzipiert.
Unterstützte Aufgaben und Modi
YOLO11 baut auf der vielseitigen Modellreihe auf, die unter YOLOv8 vorgestellt wurde, und bietet erweiterte Unterstützung für verschiedene Aufgaben der Computer Vision:
Modell | Dateinamen | Aufgabe | Inferenz | Validierung | Ausbildung | Exportieren |
---|---|---|---|---|---|---|
YOLO11 | yolo11n.pt yolo11s.pt yolo11m.pt yolo11l.pt yolo11x.pt |
Erkennung | ✅ | ✅ | ✅ | ✅ |
YOLO11-seg | yolo11n-seg.pt yolo11s-seg.pt yolo11m-seg.pt yolo11l-seg.pt yolo11x-seg.pt |
Instanz-Segmentierung | ✅ | ✅ | ✅ | ✅ |
YOLO11-pose | yolo11n-pose.pt yolo11s-pose.pt yolo11m-pose.pt yolo11l-pose.pt yolo11x-pose.pt |
Pose/Keypoints | ✅ | ✅ | ✅ | ✅ |
YOLO11-obb | yolo11n-obb.pt yolo11s-obb.pt yolo11m-obb.pt yolo11l-obb.pt yolo11x-obb.pt |
Orientierte Erkennung | ✅ | ✅ | ✅ | ✅ |
YOLO11-cls | yolo11n-cls.pt yolo11s-cls.pt yolo11m-cls.pt yolo11l-cls.pt yolo11x-cls.pt |
Klassifizierung | ✅ | ✅ | ✅ | ✅ |
Diese Tabelle gibt einen Überblick über die Modellvarianten von YOLO11 und zeigt ihre Anwendbarkeit bei bestimmten Aufgaben und ihre Kompatibilität mit Betriebsmodi wie Inferenz, Validierung, Training und Export. Dank dieser Flexibilität eignet sich YOLO11 für eine Vielzahl von Anwendungen in der Computer Vision, von der Echtzeit-Erkennung bis hin zu komplexen Segmentierungsaufgaben.
Leistungsmetriken
Leistung
Siehe Detection Docs für Anwendungsbeispiele mit diesen Modellen, die auf COCO trainiert wurden und 80 vortrainierte Klassen enthalten.
Modell | Größe (Pixel) |
mAPval 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 ± 0.8 | 1.5 ± 0.0 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 ± 1.2 | 2.5 ± 0.0 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 ± 2.0 | 4.7 ± 0.1 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 ± 1.4 | 6.2 ± 0.1 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 ± 6.7 | 11.3 ± 0.2 | 56.9 | 194.9 |
Siehe Segmentation Docs für Anwendungsbeispiele mit diesen auf COCO trainierten Modellen, die 80 vortrainierte Klassen enthalten.
Modell | Größe (Pixel) |
mAPbox 50-95 |
mAPmask 50-95 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|---|
YOLO11n-seg | 640 | 38.9 | 32.0 | 65.9 ± 1.1 | 1.8 ± 0.0 | 2.9 | 10.4 |
YOLO11s-seg | 640 | 46.6 | 37.8 | 117.6 ± 4.9 | 2.9 ± 0.0 | 10.1 | 35.5 |
YOLO11m-seg | 640 | 51.5 | 41.5 | 281.6 ± 1.2 | 6.3 ± 0.1 | 22.4 | 123.3 |
YOLO11l-seg | 640 | 53.4 | 42.9 | 344.2 ± 3.2 | 7.8 ± 0.2 | 27.6 | 142.2 |
YOLO11x-seg | 640 | 54.7 | 43.8 | 664.5 ± 3.2 | 15.8 ± 0.7 | 62.1 | 319.0 |
Siehe Classification Docs für Anwendungsbeispiele mit diesen auf ImageNet trainierten Modellen, die 1000 vortrainierte Klassen enthalten.
Modell | Größe (Pixel) |
acc top1 |
acc top5 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4TensorRT10 (ms) |
params (M) |
FLOPs (B) bei 640 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 3.3 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 12.1 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 39.3 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 49.4 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 110.4 |
Siehe Pose Estimation Docs für Anwendungsbeispiele mit diesen Modellen, die auf COCO trainiert wurden und 1 vortrainierte Klasse, 'Person', enthalten.
Modell | Größe (Pixel) |
mAPpose 50-95 |
mAPpose 50 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|---|
YOLO11n-Pose | 640 | 50.0 | 81.0 | 52.4 ± 0.5 | 1.7 ± 0.0 | 2.9 | 7.6 |
YOLO11s-Pose | 640 | 58.9 | 86.3 | 90.5 ± 0.6 | 2.6 ± 0.0 | 9.9 | 23.2 |
YOLO11m-Pose | 640 | 64.9 | 89.4 | 187.3 ± 0.8 | 4.9 ± 0.1 | 20.9 | 71.7 |
YOLO11l-Pose | 640 | 66.1 | 89.9 | 247.7 ± 1.1 | 6.4 ± 0.1 | 26.2 | 90.7 |
YOLO11x-Pose | 640 | 69.5 | 91.1 | 488.0 ± 13.9 | 12.1 ± 0.2 | 58.8 | 203.3 |
Siehe Oriented Detection Docs für Anwendungsbeispiele mit diesen Modellen, die auf DOTAv1 trainiert wurden und 15 vortrainierte Klassen enthalten.
Modell | Größe (Pixel) |
mAPtest 50 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n-obb | 1024 | 78.4 | 117.6 ± 0.8 | 4.4 ± 0.0 | 2.7 | 17.2 |
YOLO11s-obb | 1024 | 79.5 | 219.4 ± 4.0 | 5.1 ± 0.0 | 9.7 | 57.5 |
YOLO11m-obb | 1024 | 80.9 | 562.8 ± 2.9 | 10.1 ± 0.4 | 20.9 | 183.5 |
YOLO11l-obb | 1024 | 81.0 | 712.5 ± 5.0 | 13.5 ± 0.6 | 26.2 | 232.0 |
YOLO11x-obb | 1024 | 81.3 | 1408.6 ± 7.7 | 28.6 ± 1.0 | 58.8 | 520.2 |
Beispiele für die Verwendung
Dieser Abschnitt enthält einfache YOLO11 Trainings- und Inferenzbeispiele. Die vollständige Dokumentation zu diesen und anderen Modi finden Sie auf den Seiten Predict, Train, Val und Export docs.
Beachten Sie, dass das folgende Beispiel für YOLO11 Detect-Modelle für die Objekterkennung ist. Weitere unterstützte Aufgaben finden Sie in den Dokumentationen Segment, Classify, OBB und Pose.
Beispiel
PyTorch vorgebildet *.pt
Modelle sowie die Konfiguration *.yaml
Dateien können an den YOLO()
Klasse, um eine Modellinstanz in Python zu erstellen:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO11n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
CLI Befehle zur Verfügung, um die Modelle direkt auszuführen:
Zitate und Danksagungen
Ultralytics YOLO11 Veröffentlichung
Ultralytics hat aufgrund der raschen Entwicklung der Modelle keine formelle Forschungsarbeit für YOLO11 veröffentlicht. Wir konzentrieren uns darauf, die Technologie weiterzuentwickeln und ihre Nutzung zu erleichtern, anstatt eine statische Dokumentation zu erstellen. Die aktuellsten Informationen über die Architektur, die Funktionen und die Verwendung von YOLO finden Sie in unserem GitHub-Repository und in der Dokumentation.
Wenn Sie YOLO11 oder eine andere Software aus diesem Repository in Ihrer Arbeit verwenden, zitieren Sie sie bitte in folgendem Format:
Bitte beachten Sie, dass die DOI noch aussteht und dem Zitat hinzugefügt wird, sobald sie verfügbar ist. YOLO11 Modelle werden unter AGPL-3.0 und Enterprise-Lizenzen bereitgestellt.
FAQ
Was sind die wichtigsten Verbesserungen in Ultralytics YOLO11 im Vergleich zu früheren Versionen?
Ultralytics YOLO11 bietet mehrere bedeutende Verbesserungen gegenüber seinen Vorgängern. Zu den wichtigsten Verbesserungen gehören:
- Verbesserte Merkmalsextraktion: YOLO11 verwendet eine verbesserte Backbone- und Neck-Architektur, die die Merkmalsextraktionsfähigkeiten für eine präzisere Objekterkennung verbessert.
- Optimierte Effizienz und Geschwindigkeit: Raffinierte architektonische Designs und optimierte Schulungspipelines sorgen für höhere Verarbeitungsgeschwindigkeiten bei gleichzeitiger Wahrung eines ausgewogenen Verhältnisses zwischen Genauigkeit und Leistung.
- Höhere Genauigkeit mit weniger Parametern: YOLO11m erreicht eine höhere durchschnittliche Genauigkeit (mAP) im COCO-Datensatz mit 22 % weniger Parametern als YOLOv8m und ist damit rechnerisch effizienter, ohne die Genauigkeit zu beeinträchtigen.
- Anpassungsfähigkeit in verschiedenen Umgebungen: YOLO11 kann in verschiedenen Umgebungen eingesetzt werden, darunter Edge-Geräte, Cloud-Plattformen und Systeme, die NVIDIA GPUs unterstützen.
- Breites Spektrum an unterstützten Aufgaben: YOLO11 unterstützt verschiedene Computer-Vision-Aufgaben wie Objekterkennung, Instanzsegmentierung, Bildklassifizierung, Posenschätzung und orientierte Objekterkennung (OBB).
Wie trainiere ich ein YOLO11 Modell zur Objekterkennung?
Das Training eines YOLO11 Modells zur Objekterkennung kann mit den Befehlen Python oder CLI durchgeführt werden. Nachstehend finden Sie Beispiele für beide Methoden:
Beispiel
Ausführlichere Anweisungen finden Sie in der Train-Dokumentation.
Welche Aufgaben können YOLO11 Modelle erfüllen?
YOLO11 Modelle sind vielseitig und unterstützen eine breite Palette von Computer-Vision-Aufgaben, einschließlich:
- Objekt-Erkennung: Identifizierung und Lokalisierung von Objekten innerhalb eines Bildes.
- Instanz-Segmentierung: Erkennen von Objekten und Abgrenzen ihrer Grenzen.
- Bildklassifizierung: Einteilung von Bildern in vordefinierte Klassen.
- Schätzung der Körperhaltung: Erkennung und Verfolgung von Schlüsselpunkten auf menschlichen Körpern.
- Orientierte Objekterkennung (OBB): Erkennung von Objekten mit Drehung für höhere Präzision.
Weitere Informationen zu den einzelnen Aufgaben finden Sie in der Dokumentation Erkennung, Instanzensegmentierung, Klassifizierung, Posenschätzung und Orientierte Erkennung.
Wie kann YOLO11 mit weniger Parametern eine höhere Genauigkeit erreichen?
YOLO11 erreicht durch Fortschritte im Modelldesign und in den Optimierungstechniken eine höhere Genauigkeit mit weniger Parametern. Die verbesserte Architektur ermöglicht eine effiziente Merkmalsextraktion und -verarbeitung, was zu einer höheren durchschnittlichen Genauigkeit (mAP) bei Datensätzen wie COCO führt, während 22 % weniger Parameter als bei YOLOv8m benötigt werden. YOLO11 ist dadurch rechnerisch effizient, ohne Kompromisse bei der Genauigkeit einzugehen, und eignet sich daher für den Einsatz auf Geräten mit begrenzten Ressourcen.
Kann YOLO11 auf Endgeräten eingesetzt werden?
Ja, YOLO11 wurde für die Anpassungsfähigkeit in verschiedenen Umgebungen, einschließlich Edge-Geräten, entwickelt. Dank seiner optimierten Architektur und effizienten Verarbeitungsfunktionen eignet er sich für den Einsatz auf Edge-Geräten, Cloud-Plattformen und Systemen, die NVIDIA GPUs unterstützen. Diese Flexibilität gewährleistet, dass YOLO11 in verschiedenen Anwendungen eingesetzt werden kann, von der Echtzeit-Erkennung auf mobilen Geräten bis hin zu komplexen Segmentierungsaufgaben in Cloud-Umgebungen. Weitere Einzelheiten zu den Einsatzmöglichkeiten finden Sie in der Export-Dokumentation.