YOLOv10 YOLO: Ein technischer Vergleich von Echtzeit-Objektdetektoren
Bei der Entwicklung moderner Computer-Vision-Pipelines ist die Auswahl der richtigen Architektur für die Echtzeit-Objekterkennung von entscheidender Bedeutung. In dieser umfassenden technischen Analyse untersuchen wir die Architekturen, Leistungskennzahlen und idealen Anwendungsfälle für YOLOv10 und YOLO. Beide Modelle stellen einen bedeutenden Fortschritt in der Objekterkennung dar, verfolgen jedoch unterschiedliche architektonische Ansätze, um ihre Ziele zu erreichen.
Unabhängig davon, ob Ihr Projekt die Bereitstellung auf begrenzter Edge-KI-Hardware erfordert oder maximale Genauigkeit auf Cloud-GPUs verlangt, hilft Ihnen das Verständnis der Nuancen dieser Architekturen dabei, eine fundierte Entscheidung zu treffen.
YOLOv10 erkunden
Von Forschern der Tsinghua-Universität vorgestellt, YOLOv10 die YOLO , indem es einen nativen End-to-End-Ansatz einführte, der die Notwendigkeit einer Nicht-Maximal-Unterdrückung (NMS) während der Nachbearbeitung effektiv eliminierte.
YOLOv10 :
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation: Tsinghua University
- Datum: 23.05.2024
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- Dokumentation: https://docs.ultralytics.com/models/yolov10/
Wesentliche Architekturmerkmale
Die wichtigste Neuerung YOLOv10 ist die Strategie der konsistenten doppelten Zuweisung für NMS Training. Herkömmliche Objektdetektoren sind stark auf NMS angewiesen, NMS überlappende Begrenzungsrahmen zu filtern, was zu unvorhersehbaren Latenzen führt – ein erheblicher Engpass für Echtzeitanwendungen wie autonome Fahrzeuge und Hochgeschwindigkeitsrobotik. Durch die direkte Vorhersage eines einzigen optimalen Begrenzungsrahmens pro Objekt YOLOv10 eine vorhersehbare Inferenz mit extrem geringer Latenz.
Darüber hinaus verwendet das Modell ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Design. Die Architektur optimiert verschiedene Komponenten, darunter einen leichtgewichtigen Klassifizierungskopf und eine räumlich-kanalgetrennte Abwärtsabtastung, wodurch die Rechenredundanz erheblich reduziert wird. Das Ergebnis ist eine Architektur, die sich durch eine geringere Parameteranzahl und weniger FLOPs auszeichnet und gleichzeitig eine wettbewerbsfähige mittlere Genauigkeit (mAP) aufweist.
Optimierter Export für die Produktion
Da YOLOv10 NMS-Operationen aus dem Inferenzgraphen entfernt, wird der Export des Modells in Formate wie ONNX oder TensorRT stark vereinfacht, wodurch es sich hervorragend für Edge-Bereitstellungen eignet.
Erfahren Sie mehr über YOLOv10
Anwendungsbeispiel
YOLOv10 tief in das Ultralytics integriert, wodurch es über das Ultralytics Python unglaublich einfach zu verwenden ist.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to TensorRT format
model.export(format="engine", half=True)
YOLO erkunden
Entwickelt von der Alibaba Group, konzentriert sich DAMO-YOLO auf die Entdeckung hocheffizienter Netzwerkstrukturen durch automatisierte Neural Architecture Search (NAS), um die Pareto-Grenze von Geschwindigkeit und Genauigkeit zu verschieben.
DAMO-YOLO Details:
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Organisation: Alibaba Group
- Datum: 23.11.2022
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: YOLO
Wesentliche Architekturmerkmale
DAMO-YOLO führt mehrere neuartige Technologien ein, die auf industrielle Anwendungen zugeschnitten sind. Die Grundlage des Modells ist sein MAE-NAS Backbone, der über eine Multi-Objective Evolutionary Search generiert wird. Dieser automatisierte Prozess entdeckt Backbone-Strukturen, die sich strikt an vordefinierte Rechenbudgets halten und ein feines Gleichgewicht zwischen Genauigkeit und Inferenzlatenz herstellen.
Zusätzlich verwendet die Architektur einen Efficient RepGFPN-Neck. Dieses Feature Pyramid Network wurde entwickelt, um die Merkmalsfusion über verschiedene Skalen hinweg zu verbessern, was für komplexe Aufgaben wie die Luftbildanalyse entscheidend ist, bei der Objekte drastisch in ihrer Größe variieren. Zur Ergänzung implementiert DAMO-YOLO einen ZeroHead, einen minimalistischen Detektionskopf, der die Komplexität der finalen Vorhersageschichten drastisch reduziert und so wertvolle Rechenzeit während der Inferenz spart.
Erfahren Sie mehr über DAMO-YOLO
Leistungsvergleich
Bei der Bewertung von Objekterkennungsarchitekturen ist es von entscheidender Bedeutung, den richtigen Kompromiss zwischen Inferenzgeschwindigkeit, Parametereffizienz und Erkennungsgenauigkeit zu finden. In der folgenden Tabelle wird die Leistung von YOLOv10 YOLO ihre jeweiligen Modellgrößen verglichen.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Wie in den Benchmarks beobachtet, liefert YOLOv10 auf TensorRT durchweg außergewöhnliche Latenzprofile, insbesondere in seiner Nano-Variante, die deutlich weniger Parameter und FLOPs benötigt als vergleichbare Modelle von DAMO-YOLO. Während DAMO-YOLO in seiner Tiny-Variante einen starken mAP bietet, bieten die Parametereffizienz und Inferenzlatenz der YOLOv10-Familie einen deutlichen Vorteil für Umgebungen mit eingeschränkten Ressourcen.
Anwendungsfälle und Empfehlungen
Die Wahl zwischen YOLOv10 und DAMO-YOLO hängt von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und Ökosystempräferenzen ab.
Wann man YOLOv10 wählen sollte
YOLOv10 eine gute Wahl für:
- NMS-freie Echtzeit-detect: Anwendungen, die von einer End-to-End-detect ohne Non-Maximum Suppression profitieren und die Bereitstellungskomplexität reduzieren.
- Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und detect-Genauigkeit über verschiedene Modellskalen hinweg erfordern.
- Anwendungen mit konsistenter Latenz: Bereitstellungsszenarien, in denen vorhersehbare Inferenzzeiten kritisch sind, wie z. B. Robotik oder autonome Systeme.
Wann DAMO-YOLO wählen?
DAMO-YOLO wird empfohlen für:
- Hochdurchsatz-Videoanalyse: Verarbeitung von Hoch-FPS-Videoströmen auf fester NVIDIA-GPU-Infrastruktur, wo der Batch-1-Durchsatz die primäre Metrik ist.
- Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenz-Beschränkungen auf dedizierter Hardware, wie z.B. Echtzeit-Qualitätsinspektion an Montagelinien.
- Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten reparametrisierten Backbones auf die Detektionsleistung.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS-freie Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Non-Maximum Suppression Nachbearbeitung erfordern.
- Nur-CPU-Umgebungen: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
- detect kleiner Objekte: Herausfordernde Szenarien wie Luftbildaufnahmen von Drohnen oder IoT-Sensoranalyse, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten erheblich steigern.
Der Ultralytics Vorteil
Obwohl beide Modelle technisch beeindruckend sind, muss man bei der Auswahl einer Architektur für die Produktion über die reinen Kennzahlen hinausblicken. Die Entwicklung mit Modellen, die vom Ultralytics nativ unterstützt werden, bietet Entwicklern und Forschern gleichermaßen unübertroffene Vorteile.
Benutzerfreundlichkeit und gut gepflegtes Ökosystem
Im Gegensatz zu eigenständigen akademischen Repositorien, die oft aufgegeben werden, Ultralytics ein robustes, aktiv gepflegtes Ökosystem. Die Einrichtung komplexer Umgebungen für Modelle, die stark auf NAS-Pipelines angewiesen sind, kann eine Herausforderung sein. Im Gegensatz dazu Ultralytics eine standardisierte, intuitive Python und CLI leistungsstarke CLI, die durch umfangreiche Dokumentation unterstützt wird. Dies reduziert die Markteinführungszeit für maßgeschneiderte Bildverarbeitungslösungen erheblich.
Trainingseffizienz und Speicheranforderungen
Das Training großer Modelle kann schnell zu einer hohen Rechenlast führen. DieYOLO Ultralytics sind seit jeher für ihren geringen CUDA während des Trainings und der Inferenz bekannt. Dank dieser Effizienz können Entwickler Modelle auf handelsüblicher Hardware oder kostengünstigen Cloud-Instanzen trainieren, ohne dass es zu Speicherfehlern kommt, wie sie bei der Arbeit mit transformatorbasierten Modellen wie RT-DETR.
Experimentverfolgung
track Ultralytics lässt sich Ultralytics in führende MLOps-Tools integrieren. Dank der Integration mit Weights & Biases, Cometoder ClearML ohne zusätzlichen Boilerplate-Code.
Vielseitigkeit über verschiedene Aufgaben hinweg
Eine wesentliche Einschränkung vieler spezialisierter Detektionsmodelle ist ihr enger Fokus. Innerhalb des Ultralytics-Ökosystems sind Sie nicht nur auf die Objekterkennung beschränkt. Die Tools erweitern sich nahtlos auf mehrere Computer-Vision-Aufgaben, einschließlich Instanzsegmentierung, Bildklassifizierung, Posenschätzung und Oriented Bounding Box (OBB) Erkennung.
Ausblick: Die Entwicklung von YOLO26
Während YOLOv10 der NMS Inferenz YOLOv10 undYOLO die Leistungsfähigkeit von NASYOLO , entwickelt sich das Gebiet der Bildverarbeitung rasant weiter. Entwicklern, die auf der Suche nach der ultimativen State-of-the-Art-Lösung sind, empfehlen wir, sich Ultralytics anzusehen.
Veröffentlicht als definitiver Nachfolger von YOLO11, baut YOLO26 auf der NMS Grundlage von YOLOv10 auf, geht YOLOv10 deutlich darüber hinaus.
Zu den wichtigsten Neuerungen in YOLO26 gehören:
- Bis zu 43 % schnellere CPU-Inferenz: Speziell optimiert für Edge Computing und stromsparende Geräte.
- DFL-Entfernung: Distribution Focal Loss wurde entfernt, was einfachere Exporte und eine verbesserte Kompatibilität mit verschiedenen Bereitstellungszielen gewährleistet.
- MuSGD-Optimierer: Ein Hybrid aus SGD und Muon, der fortschrittliche LLM-Trainingsstabilität und schnellere Konvergenz direkt in die Computer Vision bringt.
- ProgLoss + STAL: Drastisch verbesserte Verlustfunktionen, die bemerkenswerte Verbesserungen bei der Kleinstobjekterkennung bieten, was für Anwendungsfälle wie Landwirtschaft und Fernerkundung unerlässlich ist.
Durch die Nutzung der neu gestalteten Ultralytics Platform können Entwickler Modelle der nächsten Generation wie YOLO26 nahtlos annotieren, trainieren und mit wenigen Klicks deployen, wodurch Ihre Computer-Vision-Pipeline sowohl hochmodern als auch zukunftssicher ist.