YOLO YOLOv10: Entwicklung einer effizienten Echtzeit-Objekterkennung
Der Bereich der Computervision hat eine rasante Entwicklung bei den Architekturen zur Echtzeit-Objekterkennung erlebt. Beim Vergleich von YOLO und YOLOv10beobachten wir zwei unterschiedliche Philosophien im Modelldesign: automatisierte Architektursuche versus End-to-End-Optimierung NMS. Beide erweitern zwar die Grenzen von Genauigkeit und Geschwindigkeit, unterscheiden sich jedoch erheblich in ihren zugrunde liegenden Strukturen und idealen Anwendungsfällen.
YOLO: Neuronale Architektursuche in großem Maßstab
YOLO wurde von der Alibaba Group entwickelt undYOLO zu einem leistungsstarken DetektorYOLO , der sich auf die Nutzung automatisierter Erkennung für strukturelle Effizienz konzentriert.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Datum: 23. November 2022
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Architektonische Highlights
YOLO stark auf Neural Architecture Search (NAS), um Leistung und Latenz auszugleichen. Sein Rückgrat, MAE-NAS genannt, nutzt eine multiobjektive evolutionäre Suche unter strengen Rechenbudgets, um die optimale Schichttiefe und -breite zu finden.
Um die Merkmalsfusion über verschiedene Skalen hinweg zu bewältigen, verwendet das Modell ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network). Dieses Heavy-Neck-Design eignet sich besonders gut für die Extraktion komplexer räumlicher Hierarchien und ist daher in Szenarien wie der Analyse von Luftbildern nützlich. Darüber hinausYOLO den ZeroHeadYOLO , einen optimierten Erkennungskopf, der die Komplexität der endgültigen Vorhersageschichten erheblich reduziert und sich dabei auf einen robusten Destillationsverbesserungsprozess während des Trainings stützt.
Destillationsschulung
YOLO nutztYOLO einen mehrstufigen Wissensdestillationsprozess. Dazu muss ein umfangreicheres „Lehrer”-Modell trainiert werden, um das kleinere „Schüler”-Modell anzuleiten, wodurch mAP höhere mAP mittlere durchschnittliche Präzision) erzielt wird, aber die erforderliche GPU erheblich erhöht wird.
Erfahren Sie mehr über DAMO-YOLO
YOLOv10: Wegweisende End-to-End-Objekterkennung
Eineinhalb Jahre später wurde YOLOv10 veröffentlicht, das einen Paradigmenwechsel YOLOv10 , indem es die Notwendigkeit der Non-Maximum Suppression (NMS) während der Inferenz vollständig eliminierte.
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation:Tsinghua University
- Datum: 23. Mai 2024
- Arxiv:2405.14458
- Dokumente:Ultralytics YOLOv10
Architektonische Highlights
Das herausragende Merkmal von YOLOv10 seine konsistenten doppelten Zuweisungen für NMS Training. Herkömmliche Detektoren sagen mehrere überlappende Begrenzungsrahmen für ein einzelnes Objekt voraus, sodass NMS erforderlich ist NMS Duplikate NMS filtern. Dieser Nachbearbeitungsschritt verursacht einen Engpass, insbesondere auf Edge-Geräten. YOLOv10 dieses Problem, indem es dem Modell ermöglicht, auf natürliche Weise einen einzigen, genauen Begrenzungsrahmen pro Objekt vorherzusagen.
Die Autoren konzentrierten sich außerdem auf ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign. Durch sorgfältige Analyse der Rechenredundanz in bestehenden Architekturen optimierten sie das Backbone und den Kopf, um die Anzahl der FLOPs und Parameter zu reduzieren. Dieses leichtgewichtige Design sorgt YOLOv10 beim Export in Formate wie TensorRT oder OpenVINOexportiert wird.
Erfahren Sie mehr über YOLOv10
Performance und Benchmarks
Die folgende Tabelle zeigt die Rohleistungsmetriken für den COCO . Die besten Gesamtwerte in jeder Spalte sind fett hervorgehoben.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
WährendYOLO in puncto GenauigkeitYOLO , bietet YOLOv10 eine geringere Latenz und deutlich kleinere Modellgewichte. So erreicht YOLOv10s einen etwas höheren mAP 46,7 %) als DAMO-YOLOs (46,0 %), während es weniger als die Hälfte der Parameter verwendet (7,2 Mio. gegenüber 16,3 Mio.). Der geringere Speicherbedarf macht YOLOv10 zu YOLOv10 außergewöhnlich vielseitigen Wahl für eingebettete Systeme.
Trainingseffizienz und Benutzerfreundlichkeit
Beim Übergang von der akademischen Forschung zur Produktion ist Benutzerfreundlichkeit von größter Bedeutung. Der mehrstufige Destillationsprozess und die komplexen NAS-KonfigurationenYOLO können für Ingenieurteams eine steile Lernkurve bedeuten.
Umgekehrt YOLOv10 enorm davon, dass es vollständig in das Ultralytics Python integriert ist. Das Training eines benutzerdefinierten Modells erfordert nur minimalen Boilerplate-Code. Ultralytics automatisch die Datenvergrößerung, die Hyperparameter-Optimierung und die Experimentverfolgung.
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()
Schnelle Prototypenentwicklung
Durch die Nutzung des Ultralytics können Entwickler mit nur wenigen Zeilen Code von einem Prototyp zu einem vollständig exportierten ONNX übergehen und dabei die komplexen Umgebungseinstellungen umgehen, die bei älteren Frameworks erforderlich sind.
Anwendungsfälle in der Praxis
- Smart Retail (YOLO): Die GenauigkeitYOLO eignet sich gut für Serverumgebungen mit hoher Dichte, in denen das Kundenverhalten analysiert wird, wo GPUs reichlich vorhanden sind und NMS beherrschbar sind.
- Autonome Fahrzeuge (YOLOv10): Die NMS Architektur garantiert eine deterministische, vorhersagbare Latenz, was für Sicherheitssysteme im autonomen Fahren von entscheidender Bedeutung ist.
- Industrielle Automatisierung (YOLOv10): Die Erkennung von Fehlern auf schnell laufenden Fertigungsstraßen erfordert Modelle, die die Echtzeit-Inferenzgeschwindigkeit maximieren, ohne große VRAM-Kapazitäten zu beanspruchen. Damit ist YOLOv10 idealer Kandidat für den Einsatz am Netzwerkrand.
Anwendungsfälle und Empfehlungen
Die Wahl zwischenYOLO YOLOv10 von Ihren spezifischen Projektanforderungen, Einsatzbeschränkungen und Ökosystempräferenzen YOLOv10 .
Wann DAMO-YOLO wählen?
YOLO eine gute Wahl für:
- Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
- Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
- Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.
Wann man YOLOv10 wählen sollte
YOLOv10 empfohlen für:
- NMS Echtzeit-Erkennung: Anwendungen, die von einer durchgängigen Erkennung ohne Non-Maximum Suppression profitieren und die Komplexität der Bereitstellung reduzieren.
- Ausgewogene Kompromisse zwischen Geschwindigkeit und Genauigkeit: Projekte, die ein ausgewogenes Verhältnis zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellskalen hinweg erfordern.
- Anwendungen mit konsistenter Latenz: Einsatzszenarien, in denen vorhersehbare Inferenzzeiten entscheidend sind, wie beispielsweise Robotik oder autonome Systeme.
Wann sollte man sich für Ultralytics YOLO26) entscheiden?
Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
- CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.
Die nächste Generation: Ultralytics
Während YOLOv10 den Grundstein für die NMS Erkennung YOLOv10 , hat sich die Technologie rasant weiterentwickelt. Für moderne Anwendungen bietet das Ultralytics eine beispiellose Leistung und Benutzerfreundlichkeit, indem es das Beste aus früheren Generationen übernimmt und für die Produktion weiterentwickelt.
YOLO26 verfügt über ein streng natives End-to-End-Design, wodurch NMS entfällt und die Bereitstellungspipelines auf Edge-Geräten vereinfacht werden. Darüber hinaus hat die Entfernung des Distribution Focal Loss (DFL) die Kompatibilität mit energiesparender Edge-AI-Hardware erheblich verbessert.
Auf der Trainingsseite führt YOLO26 den MuSGD-Optimierer ein, einen Hybrid, der von den Trainingstechniken des Large Language Model (LLM) inspiriert ist. Dies sorgt für ein stabileres Training und eine schnellere Konvergenz. In Verbindung mit den Verlustfunktionen ProgLoss + STAL zeigt YOLO26 bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte, einer wichtigen Funktion für den Naturschutz und den Drohnenbetrieb.
Entscheidend ist, dass YOLO26 nicht nur ein Objektdetektor ist. Es bietet aufgabenbezogene Verbesserungen auf ganzer Linie und unterstützt nativ Instanzsegmentierung, Posenschätzung mithilfe von Residual Log-Likelihood Estimation (RLE) und spezielle Winkelverluste für Oriented Bounding Boxes (OBB). Mit CPU um bis zu 43 % schnelleren CPU als seine Vorgänger ist es die erste Wahl für agile Engineering-Teams.
Für die zentralisierte Verwaltung, Annotation und Cloud-Schulung von YOLO26-Modellen bietet die Ultralytics eine intuitive Benutzeroberfläche, die den gesamten Lebenszyklus der Computer Vision optimiert.
Entwickler, die sich für weitere aktuelle Fortschritte interessieren, können auch Ultralytics YOLO11 oder das transformatorbasierte RT-DETR Framework für Szenarien, die unterschiedliche architektonische Lösungen erfordern.