Zum Inhalt springen

YOLOX vs. YOLOv5: Erkundung verankerungsfreier Innovation und bewährter Effizienz

In der sich schnell entwickelnden Landschaft der Objekterkennung ist die Auswahl der richtigen Architektur entscheidend für den Projekterfolg. In diesem Vergleich werden zwei einflussreiche Modelle untersucht: YOLOX, ein akademisches Kraftpaket, das für sein ankerfreies Design bekannt ist, und YOLOv5der Industriestandard für Geschwindigkeit und einfache Bereitstellung. Beide Modelle haben das Feld der Computer Vision geprägt, erfüllen jedoch unterschiedliche Anforderungen, je nachdem, ob Ihre Priorität auf Präzision in der Forschung oder auf Effizienz in der Produktion liegt.

Performance-Analyse: Geschwindigkeit, Genauigkeit und Effizienz

Bei der Bewertung von YOLOX und YOLOv5 geht es oft um die Abwägung zwischen der reinen Genauigkeit und der betrieblichen Effizienz. YOLOX führte bedeutende architektonische Änderungen ein, wie z. B. einen entkoppelten Kopf und einen verankerungsfreien Mechanismus, die es ihm ermöglichten, bei seiner Veröffentlichung modernste mAP (mittlere durchschnittliche Genauigkeit) zu erreichen. Es zeichnet sich in Szenarien aus, in denen jeder Prozentpunkt an Genauigkeit zählt, insbesondere bei schwierigen Benchmarks wie COCO.

Umgekehrt, Ultralytics YOLOv5 mit dem Schwerpunkt auf "realer" Leistung entwickelt worden. Es legt den Schwerpunkt auf schnelle Inferenzen und niedrige Latenzzeiten, wodurch es sich hervorragend für mobile Anwendungen, eingebettete Systeme und Edge-KI-Geräte eignet. Während YOLOX bei bestimmten großen Modellen einen leichten Vorsprung bei der mAP hat, übertrifft YOLOv5 diese in Bezug auf den Durchsatz (Bilder pro Sekunde) und die Flexibilität bei der Bereitstellung, wobei das umfassende Ultralytics genutzt wird.

Die folgende Tabelle zeigt einen detaillierten Vergleich der Modelle in verschiedenen Größen. Beachten Sie, dass YOLOv5 eine konkurrenzfähige Genauigkeit beibehält und gleichzeitig deutlich schnellere Inferenzzeiten bietet, insbesondere wenn es mit TensorRT.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOX: Der ankerfreie Kandidat

YOLOX wurde von Forschern bei Megvii entwickelt, um die Lücke zwischen der YOLO und den akademischen Fortschritten bei der ankerlosen Erkennung zu schließen. Durch die Aufhebung der Beschränkung auf vordefinierte Ankerboxen vereinfacht YOLOX den Trainingsprozess und reduziert den Bedarf an heuristischer Abstimmung.

Architektur und Innovationen

YOLOX verfügt über einen entkoppelten Kopf, der Klassifizierungs- und Regressionsaufgaben in verschiedene Zweige trennt. Dieses Design steht im Gegensatz zu den gekoppelten Köpfen früherer YOLO und verbessert Berichten zufolge die Konvergenzgeschwindigkeit und Genauigkeit. Darüber hinaus kommt SimOTA zum Einsatz, eine fortschrittliche Label-Zuweisungsstrategie, die positive Proben dynamisch zuweist und so die Robustheit des Modells in dichten Szenen erhöht.

Stärken und Schwächen

Die Hauptstärke von YOLOX liegt in seiner hohen Genauigkeit, insbesondere bei der größten Variante (YOLOX-x), und in seinem sauberen, verankerungsfreien Design, das für Forscher interessant ist. Diese Vorteile sind jedoch mit Abstrichen verbunden. Der entkoppelte Kopf erhöht die Berechnungskomplexität, was im Vergleich zu YOLOv5 oft zu langsameren Schlussfolgerungen führt. Da es sich um ein forschungsorientiertes Modell handelt, fehlt ihm außerdem das zusammenhängende, benutzerfreundliche Tooling, das im Ultralytics zu finden ist, was die Integration in kommerzielle Pipelines möglicherweise erschwert.

Ideale Anwendungsfälle

  • Akademische Forschung: Experimentieren mit neuartigen Erkennungsarchitekturen und Strategien der Etikettenzuweisung.
  • Hochpräzise Aufgaben: Szenarien, in denen ein 1-2%iger Gewinn an mAP die Kosten einer langsameren Inferenz aufwiegt, wie z.B. bei der Offline-Videoanalyse.
  • Erkennung von dichten Objekten: Umgebungen mit stark unübersichtlichen Objekten, in denen SimOTA gut abschneidet.

Erfahren Sie mehr über YOLOX

YOLOv5: Der Produktionsstandard

Seit seiner Veröffentlichung im Jahr 2020 hat Ultralytics YOLOv5 zum bevorzugten Modell für Entwickler weltweit geworden. Es bietet ein außergewöhnliches Gleichgewicht zwischen Leistung und Praktikabilität und wird von einer Plattform unterstützt, die den gesamten Lebenszyklus des maschinellen Lernens (MLOps) rationalisiert.

Architektur und Ökosystem

YOLOv5 nutzt ein CSPNet-Backbone und ein Pfadaggregationsnetzwerk (PANet), das für eine effiziente Merkmalsextraktion optimiert ist. Während es ursprünglich den Anker-basierten Ansatz in PyTorch populär machte, ist sein größter Vorteil das umgebende Ökosystem. Benutzer profitieren vom automatischen Export in Formate wie ONNX, CoreML und TFLite sowie von der nahtlosen Integration mit Ultralytics HUB für die Modellschulung und -verwaltung.

Wussten Sie schon?

YOLOv5 ist nicht auf Bounding Boxes beschränkt. Es unterstützt mehrere Aufgaben, einschließlich Instanzsegmentierung und Bildklassifizierung, was es zu einem vielseitigen Werkzeug für komplexe Bildverarbeitungspipelines macht.

Stärken und Schwächen

Die Benutzerfreundlichkeit ist das Markenzeichen von YOLOv5. Mit einer einfachen Python können Entwickler in nur wenigen Codezeilen vortrainierte Gewichte laden und die Inferenz ausführen. Das Modell ist hochgradig auf Geschwindigkeit optimiert und weist im Vergleich zu YOLOX sowohl auf CPUs als auch auf GPUs eine geringere Latenz auf. Es zeichnet sich auch durch einen geringeren Speicherbedarf während des Trainings aus, so dass es auf Standardhardware verwendet werden kann. Das Anker-basierte Design erfordert zwar eine Anker-Evolution für benutzerdefinierte Datensätze (die von YOLOv5 automatisch durchgeführt wird), aber seine Zuverlässigkeit und das gut gewartete Ökosystem machen es für die Produktion überlegen.

Ideale Anwendungsfälle

  • Echtzeit-Anwendungen: Videoüberwachung, autonomes Fahren und Robotik, wo niedrige Latenzzeiten entscheidend sind.
  • Edge-Einsatz: Aufgrund seiner effizienten Architektur kann es auf Raspberry Pi, NVIDIA Jetson oder mobilen Geräten ausgeführt werden.
  • Kommerzielle Produkte: Schnelles Prototyping und Einsatz, wenn langfristige Unterstützung und einfache Integration erforderlich sind.
  • Multi-Task-Vision: Projekte, die Erkennung, Segmentierung und Klassifizierung in einem einzigen Rahmen erfordern.

Erfahren Sie mehr über YOLOv5

Code-Beispiel: Ausführen von YOLOv5 mit Ultralytics

Das Ultralytics Python macht die Verwendung von YOLOv5 unglaublich einfach. Nachfolgend finden Sie ein Beispiel für die Durchführung von Schlussfolgerungen mit einem vortrainierten Modell.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (Nano version for speed)
model = YOLO("yolov5nu.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Schlussfolgerung: Die richtige Wahl treffen

Beide Modelle stellen bedeutende Errungenschaften in der Computer Vision dar, richten sich aber an unterschiedliche Zielgruppen. YOLOX ist eine hervorragende Wahl für Forscher, die die Grenzen der ankerlosen Erkennung ausloten und sich mit einem eher fragmentierten Toolset zurechtfinden.

Für die überwiegende Mehrheit der Entwickler, Ingenieure und Unternehmen ist Ultralytics jedoch nicht geeignet, Ultralytics YOLOv5 nach wie vor die beste Option. Seine überzeugende Kombination aus unübertroffener Geschwindigkeit, Vielseitigkeit und einem robusten, aktiven Ökosystem sorgt dafür, dass Sie mit minimalen Reibungsverlusten vom Konzept zur Bereitstellung übergehen können. Darüber hinaus bietet die Übernahme des Ultralytics einen klaren Upgrade-Pfad zu Modellen der nächsten Generation wie YOLO11die das Beste des ankerlosen Designs mit der für Ultralytics charakteristischen Effizienz kombinieren.

Andere Modellvergleiche

Erkunden Sie, wie diese Modelle im Vergleich zu anderen Architekturen abschneiden, um die beste Lösung für Ihre spezifischen Anforderungen zu finden:


Kommentare