Link to this sectionDAMO-YOLO vs. YOLOv10#
Das Feld der Computer Vision hat eine rasante Entwicklung bei Architekturen für Objekterkennung in Echtzeit erlebt. Beim Vergleich von DAMO-YOLO und YOLOv10 beobachten wir zwei unterschiedliche Philosophien im Modelldesign: automatisierte Architektursuche versus End-to-End NMS-freie Optimierung. Während beide die Grenzen von Genauigkeit und Geschwindigkeit verschieben, unterscheiden sich ihre zugrunde liegenden Strukturen und idealen Anwendungsfälle deutlich.
Link to this sectionDAMO-YOLO: Neural Architecture Search in großem Maßstab#
Entwickelt von der Alibaba Group, ist DAMO-YOLO als leistungsstarker Detektor hervorgegangen, der sich auf die Nutzung automatisierter Entdeckung für strukturelle Effizienz konzentriert.
- Autoren: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang und Xiuyu Sun
- Datum: 23. November 2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Link to this sectionArchitektonische Highlights#
DAMO-YOLO verlässt sich stark auf Neural Architecture Search (NAS), um Leistung und Latenz auszubalancieren. Sein Backbone, MAE-NAS genannt, verwendet eine evolutionäre Suche mit mehreren Zielen unter strengen Rechenbudgets, um die optimale Schichttiefe und -breite zu finden.
Um die Feature-Fusion über Skalen hinweg zu handhaben, verwendet das Modell ein effizientes RepGFPN (Reparameterized Generalized Feature Pyramid Network). Dieses Design mit schwerem Neck ist besonders gut darin, komplexe räumliche Hierarchien zu extrahieren, was es nützlich für Szenarien wie die Analyse von Luftbildern macht. Zusätzlich führt DAMO-YOLO den ZeroHead ein, einen optimierten Detektionskopf, der die Komplexität der abschließenden Vorhersageschichten stark reduziert und sich während des Trainings auf einen robusten Destillations-Verbesserungsprozess stützt.
DAMO-YOLO nutzt häufig einen mehrstufigen Wissensdestillationsprozess. Er erfordert das Training eines schwereren "Lehrer"-Modells, um das kleinere "Schüler"-Modell anzuleiten, welches eine höhere mAP (mean Average Precision) extrahiert, aber die benötigte GPU-Rechenzeit signifikant erhöht.
Link to this sectionYOLOv10: Pionierarbeit bei der End-to-End-Objekterkennung#
Eineinhalb Jahre später veröffentlicht, führte YOLOv10 einen Paradigmenwechsel ein, indem es die Notwendigkeit für Non-Maximum Suppression (NMS) während der Inferenz vollständig eliminierte.
- Autoren: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation: Tsinghua University
- Datum: 23. Mai 2024
- Arxiv: 2405.14458
- Dokumentation: Ultralytics YOLOv10
Link to this sectionArchitektonische Highlights#
Das herausragende Merkmal von YOLOv10 sind seine konsistenten dualen Zuweisungen für NMS-freies Training. Herkömmliche Detektoren sagen mehrere überlappende Bounding Boxes für ein einzelnes Objekt voraus, was NMS erfordert, um Duplikate zu filtern. Dieser Nachbearbeitungsschritt schafft einen Engpass, insbesondere auf Edge-Geräten. YOLOv10 löst dies, indem es dem Modell ermöglicht, auf natürliche Weise eine einzelne, genaue Bounding Box pro Objekt vorherzusagen.
Die Autoren konzentrierten sich zudem auf ein ganzheitliches, auf Effizienz und Genauigkeit ausgerichtetes Modelldesign. Durch die sorgfältige Analyse der rechnerischen Redundanz in bestehenden Architekturen optimierten sie den Backbone und den Head, um die Anzahl der FLOPs und Parameter zu reduzieren. Dieses leichtgewichtige Design stellt sicher, dass YOLOv10 eine außergewöhnliche Inferenzlatenz liefert, wenn es in Formate wie TensorRT oder OpenVINO exportiert wird.
Link to this sectionLeistung und Benchmarks#
Die folgende Tabelle veranschaulicht die rohen Leistungsmetriken auf dem COCO-Datensatz. Die besten Gesamtwerte in jeder Spalte sind fett hervorgehoben.
| Modell | Größe (Pixel) | mAPval 50-95 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50,8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5,48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56,9 | 160.4 |
While DAMO-YOLO holds its own in terms of accuracy, YOLOv10 consistently provides lower latency and significantly smaller model weights. For instance, YOLOv10s achieves a slightly higher mAP (46.7%) than DAMO-YOLOs (46.0%) while using fewer than half the parameters (7.2M vs 16.3M). The lower memory requirements make YOLOv10 an exceptionally versatile choice for embedded systems.
Link to this sectionTrainingseffizienz und Benutzerfreundlichkeit#
Beim Übergang von der akademischen Forschung in die Produktion ist die Benutzerfreundlichkeit von größter Bedeutung. Der mehrstufige Destillationsprozess und die komplexen NAS-Konfigurationen von DAMO-YOLO können für Engineering-Teams eine steile Lernkurve darstellen.
Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()Die Nutzung des Ultralytics-Ökosystems ermöglicht es Entwicklern, in nur wenigen Zeilen Code von einem Prototyp zu einem vollständig exportierten ONNX-Modell zu gelangen, wodurch die komplexen Umgebungseinrichtungen umgangen werden, die ältere Frameworks erfordern.
Link to this sectionAnwendungsfälle aus der Praxis#
- Smart Retail (DAMO-YOLO): Die Genauigkeit von DAMO-YOLO ist gut geeignet für Serverumgebungen mit hoher Dichte, die Kundenverhalten analysieren, wo GPUs reichlich vorhanden sind und NMS-Engpässe in Echtzeit beherrschbar sind.
- Autonome Fahrzeuge (YOLOv10): Die NMS-freie Architektur garantiert deterministische, vorhersagbare Latenz, was für Sicherheitssysteme beim autonomen Fahren entscheidend ist.
- Industrial Automation (YOLOv10): Detecting defects on fast-moving assembly lines requires models that maximize real-time inference speeds without consuming vast VRAM, making YOLOv10 a prime candidate for edge deployment.
Link to this sectionAnwendungsfälle und Empfehlungen#
Die Wahl zwischen DAMO-YOLO und YOLOv10 hängt von deinen spezifischen Projektanforderungen, Bereitstellungseinschränkungen und Ökosystempräferenzen ab.
Link to this sectionWann du dich für DAMO-YOLO entscheiden solltest#
DAMO-YOLO ist eine gute Wahl für:
- Hochdurchsatz-Videoanalytik: Verarbeitung von Video-Streams mit hoher FPS auf fester NVIDIA-GPU-Infrastruktur, bei der der Durchsatz bei Batch-Größe 1 die primäre Metrik ist.
- Industrielle Fertigungslinien: Szenarien mit strengen GPU-Latenzbeschränkungen auf dedizierter Hardware, wie z. B. Qualitätsprüfung in Echtzeit an Montagelinien.
- Forschung zur Neural Architecture Search: Untersuchung der Auswirkungen von automatisierter Architektursuche (MAE-NAS) und effizienten, reparametrisierten Backbones auf die Erkennungsleistung.
Link to this sectionWann du dich für YOLOv10 entscheiden solltest#
YOLOv10 wird empfohlen für:
- NMS-freie Echtzeiterkennung: Anwendungen, die von einer End-to-End-Erkennung ohne Non-Maximum Suppression profitieren, was die Komplexität der Bereitstellung reduziert.
- Ausgewogene Speed-Accuracy-Tradeoffs: Projekte, die eine gute Balance zwischen Inferenzgeschwindigkeit und Erkennungsgenauigkeit über verschiedene Modellgrößen hinweg erfordern.
- Anwendungen mit konstanter Latenz: Bereitstellungsszenarien, in denen vorhersehbare Inferenzzeiten kritisch sind, wie etwa in der Robotik oder bei autonomen Systemen.
Link to this sectionWann du Ultralytics wählen solltest (YOLO26)#
Für die meisten neuen Projekte bietet Ultralytics YOLO26 die beste Kombination aus Leistung und Entwicklererfahrung:
- NMS-freies Edge-Deployment: Anwendungen, die eine konsistente Inferenz mit niedriger Latenz ohne die Komplexität der Non-Maximum Suppression-Nachverarbeitung erfordern.
- Umgebungen nur mit CPU: Geräte ohne dedizierte GPU-Beschleunigung, bei denen die bis zu 43 % schnellere CPU-Inferenz von YOLO26 einen entscheidenden Vorteil bietet.
- Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Luftaufnahmen von Drohnen oder die Analyse von IoT-Sensoren, bei denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich steigern.
Link to this sectionDie nächste Generation: Hier kommt Ultralytics YOLO26#
Während YOLOv10 den Grundstein für die NMS-freie Erkennung legte, hat sich die Technologie schnell weiterentwickelt. Für moderne Anwendungen bietet das Ultralytics YOLO26-Modell beispiellose Leistung und Benutzerfreundlichkeit, indem es das Beste der vorherigen Generationen nimmt und für die Produktion verfeinert.
YOLO26 features a strictly natively end-to-end design, eliminating NMS post-processing for simpler deployment pipelines across edge devices. Furthermore, the removal of Distribution Focal Loss (DFL) has dramatically improved compatibility with low-power edge AI hardware.
Auf der Trainingsseite führt YOLO26 den MuSGD Optimizer ein, ein Hybrid, der von Trainingstechniken für Large Language Models (LLM) inspiriert wurde. Dies sorgt für ein stabileres Training und eine schnellere Konvergenz. Gepaart mit den ProgLoss + STAL-Verlustfunktionen weist YOLO26 bemerkenswerte Verbesserungen bei der Erkennung kleiner Objekte auf, ein kritisches Merkmal für den Artenschutz und Drohnenoperationen.
Entscheidend ist, dass YOLO26 nicht nur ein Objektdetektor ist. Es bietet aufgabenspezifische Verbesserungen auf ganzer Linie und unterstützt nativ Instance Segmentation, Pose Estimation mittels Residual Log-Likelihood Estimation (RLE) und spezialisierte Winkelverlustfunktionen für Oriented Bounding Boxes (OBB). Mit bis zu 43 % schnellerer CPU-Inferenz als seine Vorgänger ist es die definitive Wahl für agile Engineering-Teams.
Für die zentrale Verwaltung, Annotation und das Cloud-Training von YOLO26-Modellen bietet die Ultralytics-Plattform eine intuitive Schnittstelle, die den gesamten Computer-Vision-Lebenszyklus optimiert.
Entwickler, die daran interessiert sind, andere aktuelle Fortschritte zu erkunden, können auch Ultralytics YOLO11 oder das Transformer-basierte RT-DETR-Framework für Szenarien evaluieren, die unterschiedliche architektonische Lösungen erfordern.