YOLOv10 YOLO: Ein technischer Vergleich von Echtzeit-Objektdetektoren
Bei der Entwicklung moderner Computer-Vision-Pipelines ist die Auswahl der richtigen Architektur für die Echtzeit-Objekterkennung von entscheidender Bedeutung. In dieser umfassenden technischen Analyse untersuchen wir die Architekturen, Leistungskennzahlen und idealen Anwendungsfälle für YOLOv10 und YOLO. Beide Modelle stellen einen bedeutenden Fortschritt in der Objekterkennung dar, verfolgen jedoch unterschiedliche architektonische Ansätze, um ihre Ziele zu erreichen.
Unabhängig davon, ob Ihr Projekt die Bereitstellung auf begrenzter Edge-KI-Hardware erfordert oder maximale Genauigkeit auf Cloud-GPUs verlangt, hilft Ihnen das Verständnis der Nuancen dieser Architekturen dabei, eine fundierte Entscheidung zu treffen.
YOLOv10 erkunden
Von Forschern der Tsinghua-Universität vorgestellt, YOLOv10 die YOLO , indem es einen nativen End-to-End-Ansatz einführte, der die Notwendigkeit einer Nicht-Maximal-Unterdrückung (NMS) während der Nachbearbeitung effektiv eliminierte.
YOLOv10 :
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation: Tsinghua University
- Datum: 23.05.2024
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Dokumente: ultralytics
Wesentliche Architekturmerkmale
Die wichtigste Neuerung YOLOv10 ist die Strategie der konsistenten doppelten Zuweisung für NMS Training. Herkömmliche Objektdetektoren sind stark auf NMS angewiesen, NMS überlappende Begrenzungsrahmen zu filtern, was zu unvorhersehbaren Latenzen führt – ein erheblicher Engpass für Echtzeitanwendungen wie autonome Fahrzeuge und Hochgeschwindigkeitsrobotik. Durch die direkte Vorhersage eines einzigen optimalen Begrenzungsrahmens pro Objekt YOLOv10 eine vorhersehbare Inferenz mit extrem geringer Latenz.
Darüber hinaus verwendet das Modell ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Design. Die Architektur optimiert verschiedene Komponenten, darunter einen leichtgewichtigen Klassifizierungskopf und eine räumlich-kanalgetrennte Abwärtsabtastung, wodurch die Rechenredundanz erheblich reduziert wird. Das Ergebnis ist eine Architektur, die sich durch eine geringere Parameteranzahl und weniger FLOPs auszeichnet und gleichzeitig eine wettbewerbsfähige mittlere Genauigkeit (mAP) aufweist.
Optimierter Export für die Produktion
Da YOLOv10 NMS aus dem Inferenzgraphen YOLOv10 , wird das Modell in Formate wie ONNX oder TensorRT erheblich vereinfacht, wodurch es sich besonders gut für Edge-Bereitstellungen eignet.
Erfahren Sie mehr über YOLOv10
Anwendungsbeispiel
YOLOv10 tief in das Ultralytics integriert, wodurch es über das Ultralytics Python unglaublich einfach zu verwenden ist.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)
YOLO erkunden
YOLO wurde von der Alibaba Group entwickelt undYOLO auf die Entdeckung hocheffizienter Netzwerkstrukturen durch automatisierte neuronale Architektursuche (NAS) mit dem Ziel, die Pareto-Grenze von Geschwindigkeit und Genauigkeit zu erweitern.
DAMO-YOLO Details:
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation: Alibaba Group
- Datum: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: YOLO
Wesentliche Architekturmerkmale
YOLO mehrere neuartige TechnologienYOLO , die speziell auf industrielle Anwendungen zugeschnitten sind. Die Grundlage des Modells bildet sein MAE-NAS-Backbone, das mittels einer multiobjektiven evolutionären Suche generiert wird. Dieser automatisierte Prozess entdeckt Backbone-Strukturen, die sich strikt an vordefinierte Rechenbudgets halten und ein ausgewogenes Verhältnis zwischen Genauigkeit und Inferenzlatenz herstellen.
Darüber hinaus nutzt die Architektur einen effizienten RepGFPN-Hals. Dieses Feature-Pyramiden-Netzwerk wurde entwickelt, um die Merkmalsfusion über verschiedene Skalen hinweg zu verbessern, was für komplexe Aufgaben wie die Analyse von Luftbildern, bei denen Objekte stark in ihrer Größe variieren, von entscheidender Bedeutung ist. Ergänzend dazuYOLO einen ZeroHead, einen minimalistischen Erkennungskopf, der die Komplexität der endgültigen Vorhersageschichten drastisch reduziert und so wertvolle Rechenzeit während der Inferenz spart.
Erfahren Sie mehr über DAMO-YOLO
Leistungsvergleich
Bei der Bewertung von Objekterkennungsarchitekturen ist es von entscheidender Bedeutung, den richtigen Kompromiss zwischen Inferenzgeschwindigkeit, Parametereffizienz und Erkennungsgenauigkeit zu finden. In der folgenden Tabelle wird die Leistung von YOLOv10 YOLO ihre jeweiligen Modellgrößen verglichen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Wie in den Benchmarks zu beobachten ist, liefert YOLOv10 auf TensorRT YOLOv10 außergewöhnliche Latenzprofile, insbesondere in seiner Nano-Variante, die deutlich weniger Parameter und FLOPs benötigt als vergleichbare ModelleYOLO. WährendYOLO mAP seiner Tiny-Variante mAP starke mAP YOLO , bieten die Parametereffizienz und die Inferenzlatenz der YOLOv10 einen deutlichen Vorteil für eingeschränkte Einsatzumgebungen.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv10 YOLO von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und ÖkosystempräferenzenYOLO .
Wann man YOLOv10 wählen sollte
YOLOv10 eine gute Wahl für:
- NMS Echtzeit-Erkennung: Anwendungen, die von einer durchgängigen Erkennung ohne Non-Maximum Suppression profitieren und die Komplexität der Bereitstellung reduzieren.
- Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellskalen hinweg erfordern.
- Anwendungen mit konsistenter Latenz: Einsatzszenarien, in denen vorhersehbare Inferenzzeiten entscheidend sind, wie beispielsweise Robotik oder autonome Systeme.
Wann DAMO-YOLO wählen?
YOLO empfohlen für:
- Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
- Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
- Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Der Ultralytics Vorteil
Obwohl beide Modelle technisch beeindruckend sind, muss man bei der Auswahl einer Architektur für die Produktion über die reinen Kennzahlen hinausblicken. Die Entwicklung mit Modellen, die vom Ultralytics nativ unterstützt werden, bietet Entwicklern und Forschern gleichermaßen unübertroffene Vorteile.
Benutzerfreundlichkeit und gut gepflegtes Ökosystem
Im Gegensatz zu eigenständigen akademischen Repositorien, die oft aufgegeben werden, Ultralytics ein robustes, aktiv gepflegtes Ökosystem. Die Einrichtung komplexer Umgebungen für Modelle, die stark auf NAS-Pipelines angewiesen sind, kann eine Herausforderung sein. Im Gegensatz dazu Ultralytics eine standardisierte, intuitive Python und CLI leistungsstarke CLI, die durch umfangreiche Dokumentation unterstützt wird. Dies reduziert die Markteinführungszeit für maßgeschneiderte Bildverarbeitungslösungen erheblich.
Trainingseffizienz und Speicheranforderungen
Das Training großer Modelle kann schnell zu einer hohen Rechenlast führen. DieYOLO Ultralytics sind seit jeher für ihren geringen CUDA während des Trainings und der Inferenz bekannt. Dank dieser Effizienz können Entwickler Modelle auf handelsüblicher Hardware oder kostengünstigen Cloud-Instanzen trainieren, ohne dass es zu Speicherfehlern kommt, wie sie bei der Arbeit mit transformatorbasierten Modellen wie RT-DETR.
Experimentverfolgung
track Ultralytics lässt sich Ultralytics in führende MLOps-Tools integrieren. Dank der Integration mit Weights & Biases, Cometoder ClearML ohne zusätzlichen Boilerplate-Code.
Vielseitigkeit über verschiedene Aufgaben hinweg
Eine wesentliche Einschränkung vieler spezialisierter Erkennungsmodelle ist ihr enger Fokus. Innerhalb des Ultralytics sind Sie nicht nur auf die Objekterkennung beschränkt. Die Tools lassen sich nahtlos auf mehrere Computer-Vision-Aufgaben ausweiten, darunter Instanzsegmentierung, Bildklassifizierung, Posenschätzung und OBB-Erkennung (Oriented Bounding Box).
Ausblick: Die Entwicklung von YOLO26
Während YOLOv10 der NMS Inferenz YOLOv10 undYOLO die Leistungsfähigkeit von NASYOLO , entwickelt sich das Gebiet der Bildverarbeitung rasant weiter. Entwicklern, die auf der Suche nach der ultimativen State-of-the-Art-Lösung sind, empfehlen wir, sich Ultralytics anzusehen.
Veröffentlicht als definitiver Nachfolger von YOLO11, baut YOLO26 auf der NMS Grundlage von YOLOv10 auf, geht YOLOv10 deutlich darüber hinaus.
Zu den wichtigsten Neuerungen in YOLO26 gehören:
- Bis zu 43 % schnellere CPU : Speziell optimiert für Edge-Computing und Geräte mit geringem Stromverbrauch.
- DFL-Entfernung: Distribution Focal Loss wurde entfernt, wodurch einfachere Exporte und eine verbesserte Kompatibilität mit verschiedenen Bereitstellungszielen gewährleistet werden.
- MuSGD Optimizer: Eine Mischung aus SGD Muon, die fortschrittliche LLM-Trainingsstabilität und schnellere Konvergenz direkt in die Bildverarbeitung bringt.
- ProgLoss + STAL: Drastisch verbesserte Verlustfunktionen, die bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte bieten, was für Anwendungsfälle wie Landwirtschaft und Fernerkundung unerlässlich ist.
Durch die Nutzung der neu überarbeiteten Ultralytics können Entwickler mit nur wenigen Klicks nahtlos Modelle der nächsten Generation wie YOLO26 annotieren, trainieren und bereitstellen, sodass Ihre Computer-Vision-Pipeline sowohl auf dem neuesten Stand der Technik als auch zukunftssicher ist.