Zum Inhalt springen

YOLOX vs.YOLO: Vergleich zwischen ankerfreien und NAS-gesteuerten Objekterkennern

Die Entwicklung der Echtzeit-Objekterkennung hat zahlreiche Paradigmenwechsel mit sich gebracht, von ankerbasierten zu ankerfreien Architekturen und von manuell entworfenen Backbones zu automatisierter neuronaler Architektursuche (NAS). In diesem umfassenden technischen Vergleich analysieren wir zwei wichtige Meilensteine auf diesem Weg: YOLOX und YOLO. Wir werden ihre architektonischen Innovationen, Trainingsmethoden und Leistungskompromisse untersuchen und gleichzeitig hervorheben, wie das moderne Ultralytics eine beispiellose Alternative für moderne Entwickler darstellt.

YOLOX: Wegbereiter des ankerfreien Paradigmas

YOLOX wurde am 18. Juli 2021 von Zheng Ge, Songtao Liu, Feng Wang, Zeming Li und Jian Sun bei Megvii veröffentlicht und markierte einen entscheidenden Wendepunkt, indem es erfolgreich ein ankerfreies Design in die YOLO integrierte. Wie in ihrem ausführlichen technischen Bericht auf ArXiv beschrieben, zielte YOLOX darauf ab, die Lücke zwischen akademischer Forschung und industrieller Anwendung zu schließen.

Wesentliche architektonische Innovationen

YOLOX führte mehrere grundlegende strukturelle Veränderungen ein, die gegenüber den Vorgängerversionen erhebliche Verbesserungen mit sich brachten:

  • Ankerfreier Mechanismus: Durch die direkte Vorhersage des Zentrums eines Objekts und seiner Begrenzungsrahmenabmessungen reduzierte YOLOX die Anzahl der Design-Heuristiken und vereinfachte die komplexen Anker-Clustering-Prozesse. Dadurch ist es in hohem Maße an verschiedene Computer-Vision-Szenarien anpassbar.
  • Entkoppelter Kopf: Herkömmliche YOLO verwendeten einen einzigen gekoppelten Kopf sowohl für die Klassifizierung als auch für die Regression. YOLOX implementierte einen entkoppelten Kopf, der Klassifizierung und Lokalisierung separat verarbeitete, wodurch die Konvergenz deutlich schneller erfolgte und die Genauigkeit verbessert wurde.
  • SimOTA-Label-Zuweisung: Eine vereinfachte Version der Optimal Transport Assignment (OTA) wurde verwendet, um positive Proben dynamisch zuzuweisen, wodurch die Trainingszeiten verkürzt und die Unklarheiten bei der Zuweisung von Mittelpunktwerten überwunden wurden.

Das Vermächtnis von YOLOX

Das entkoppelte Kopfdesign von YOLOX hatte großen Einfluss auf nachfolgende Generationen von Objektdetektoren und wurde zu einem Standardmerkmal vieler moderner Modelle.

Erfahren Sie mehr über YOLOX

YOLO: Automatisierte Architektursuche in großem Maßstab

YOLO von Xianzhe Xu und einem Forscherteam der Alibaba Group entwickelt und am 23. November 2022 vorgestellt. Wie in ihrer ArXiv-Veröffentlichung ausführlich beschrieben, nutzte das Modell in hohem Maße Neural Architecture Search (NAS), um die Pareto-Grenze von Geschwindigkeit und Genauigkeit zu erweitern.

Wesentliche architektonische Innovationen

Die StrategieYOLO basierte auf der Automatisierung des Entwurfs effizienter Strukturen:

  • MAE-NAS-Backbones: Unter Verwendung eines multikriteriellen evolutionären AlgorithmusYOLO hocheffiziente Backbones, die auf bestimmte Latenzbudgets zugeschnitten sind, insbesondere beim Export in Frameworks wie TensorRT.
  • Effizientes RepGFPN: Ein Heavy-Neck-Design, das die Merkmalsfusion über verschiedene räumliche Auflösungen hinweg erheblich verbessert, was für die Analyse von Luftbildern und die Erkennung von Objekten in unterschiedlichen Maßstäben von großem Vorteil ist.
  • ZeroHead: Ein vereinfachter Vorhersagekopf, der rechnerische Redundanzen reduziert, ohne die durchschnittliche Präzision (mAP) des Modells zu beeinträchtigen.
  • AlignedOTA und Destillation: Integriert fortschrittliche Labelzuweisung und Lehrer-Schüler-Wissensdestillation, um die maximale Leistung aus kleineren Schülermodellen herauszuholen.

Erfahren Sie mehr über DAMO-YOLO

Leistung und Metriken im Vergleich

Beim Vergleich dieser beiden Modelle müssen wir ihre Parameteranzahl, die erforderlichen FLOPs und die Latenzprofile betrachten. Nachstehend finden Sie die Benchmark-Daten, in denen YOLOX undYOLO mehrere SkalenYOLO verglichen werden.

ModellGröße
(Pixel)
mAPval
50-95
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Beide Modelle erzielen zwar beeindruckende Ergebnisse, sind jedoch mit Einschränkungen verbunden. YOLOX erfordert eine sorgfältige Abstimmung seines entkoppelten Kopfes, währendYOLO starken Abhängigkeit von Destillation das erneute Training mit benutzerdefinierten Datensätzen sehr ressourcenintensiv macht und enorme Mengen an GPU erfordert.

Anwendungsfälle und Empfehlungen

Die Wahl zwischen YOLOX undYOLO von Ihren spezifischen Projektanforderungen, Bereitstellungsbeschränkungen und ÖkosystempräferenzenYOLO .

Wann YOLOX wählen?

YOLOX ist eine gute Wahl für:

  • Ankerfreie Erkennung Forschung: Akademische Forschung, die die saubere, ankerfreie Architektur von YOLOX als Grundlage für Experimente mit neuen Erkennungsköpfen oder Verlustfunktionen nutzt.
  • Ultraleichte Edge-Geräte: Einsatz auf Mikrocontrollern oder älterer mobiler Hardware, wo die extrem geringe Speicherbelegung der YOLOX-Nano-Variante (0,91 Millionen Parameter) entscheidend ist.
  • SimOTA-Labelzuweisungsstudien: Forschungsprojekte, die sich mit optimalen transportbasierten Labelzuweisungsstrategien und deren Auswirkungen auf die Trainingskonvergenz befassen.

Wann DAMO-YOLO wählen?

YOLO empfohlen für:

  • Hochdurchsatz-Videoanalyse: Verarbeitung von Videostreams mit hoher Bildfrequenz aufGPU festenGPU , wobei der Durchsatz von Batch 1 die primäre Metrik ist.
  • Industrielle Fertigungslinien: Szenarien mit strengen GPU auf dedizierter Hardware, wie z. B. Echtzeit-Qualitätskontrollen an Fertigungslinien.
  • Forschung zur neuronalen Architektursuche: Untersuchung der Auswirkungen der automatisierten Architektursuche (MAE-NAS) und effizienter reparametrisierter Backbones auf die Erkennungsleistung.

Wann sollte man sich für Ultralytics YOLO26) entscheiden?

Für die meisten neuen Projekte bietet Ultralytics die beste Kombination aus Leistung und Entwicklererfahrung:

  • NMS Edge-Bereitstellung: Anwendungen, die eine konsistente Inferenz mit geringer Latenz ohne die Komplexität der Nachbearbeitung mit Non-Maximum Suppression erfordern.
  • CPU: Geräte ohne dedizierte GPU , bei denen CPU bis zu 43 % schnellere CPU von YOLO26 einen entscheidenden Vorteil bietet.
  • Erkennung kleiner Objekte: Anspruchsvolle Szenarien wie Drohnenbilder oder IoT-Sensoranalysen, in denen ProgLoss und STAL die Genauigkeit bei winzigen Objekten deutlich verbessern.

Ultralytics von Ultralytics : Vorstellung von YOLO26

Während YOLOX undYOLO wichtige historische MeilensteineYOLO , benötigen moderne Entwickler eine Lösung, die modernste Genauigkeit mit beispielloser Benutzerfreundlichkeit verbindet. Hier verändert Ultralytics die Landschaft. YOLO26 wurde im Januar 2026 veröffentlicht und baut auf dem Erbe NMS Modelle auf, um die ultimative Balance zwischen Geschwindigkeit, Genauigkeit und Entwicklererfahrung zu bieten.

Warum YOLO26 wählen?

Das integrierte Ultralytics übertrifft fragmentierte akademische Repositorien durch folgende Vorteile:

  • End-to-End-Design NMS: YOLO26 eliminiert während der Inferenz nativ die Nicht-Maximalunterdrückung (NMS). Dies führt zu einer unglaublich schnellen, vorhersehbaren Latenz, die für Edge-Bereitstellungen und autonome Fahrzeuge von entscheidender Bedeutung ist.
  • DFL-Entfernung: Durch die Entfernung von Distribution Focal Loss vereinfacht YOLO26 Exportprozesse auf Edge-Geräte und senkt damit den Speicherbedarf für leichtgewichtige Anwendungen drastisch.
  • MuSGD-Optimierer: YOLO26 nutzt LLM-Trainingsinnovationen mit seinem hybriden SGD Muon-Optimierer und gewährleistet so eine äußerst stabile Trainingsumgebung und ultraschnelle Konvergenz.
  • Bis zu 43 % schnellere CPU : Dank tiefgreifender struktureller Optimierungen läuft YOLO26 blitzschnell auf CPUs, ohne dass teure GPU erforderlich ist.
  • Erweiterte Verlustfunktionen: Die Integration von ProgLoss + STAL sorgt für massive Verbesserungen bei der Erkennung kleiner Objekte und eignet sich daher ideal für Aufgaben wie Drohneninspektionen und IoT-Überwachung.
  • Vielseitigkeit: Im Gegensatz zuYOLO, das ausschließlich als Detektor fungiert, unterstützt YOLO26 nativ Instanzsegmentierung, Posenschätzung, Bildklassifizierung und OBB -Aufgaben (Oriented Bounding Box) in einem einzigen, einheitlichen Framework.

Sofort mit dem Bau beginnen

Mit der Ultralytics Python müssen Sie keine komplexen Destillations-Pipelines manuell konfigurieren oder Hunderte von Zeilen C++-Code schreiben, um Ihr Modell bereitzustellen.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Erfahren Sie mehr über YOLO26

Andere Modelle, die in Betracht gezogen werden sollten

Das Ökosystem der Computervision ist riesig. Je nach Ihren spezifischen Anforderungen möchten Sie vielleicht auch andere Architekturen erkunden, die vom Ultralytics vollständig unterstützt werden:

  • YOLO11: Der leistungsstarke Vorgänger von YOLO26, bekannt für seine Robustheit in der Einzelhandelsanalyse und Qualitätskontrolle in der Fertigung.
  • YOLOv8: Ein legendäres, äußerst stabiles, ankerfreies Modell, das den breiten Einsatz am Rand populär gemacht hat.
  • RT-DETR: Ein von Baidu entwickelter Echtzeit-Erkennungstransformator, der eine hervorragende Alternative für Aufgaben darstellt, die stark von globalen Aufmerksamkeitsmechanismen profitieren, allerdings auf Kosten höherer Anforderungen an den Trainingsspeicher.

Fazit

Sowohl YOLOX als auchYOLO wichtige Konzepte zur Weiterentwicklung des Deep LearningYOLO – YOLOX durch die Validierung des entkoppelten, ankerfreien Ansatzes undYOLO der Leistungsfähigkeit der automatisierten Architektursuche. In der Praxis kann die Komplexität ihrer ursprünglichen Forschungscodebasen jedoch agile Teams ausbremsen.

Durch die Nutzung der umfassenden Ultralytics können Entwickler diese Hürden umgehen. Mit dem End-to-End-Design von YOLO26, überragenden CPU und einer umfangreichen Dokumentation ist die Realisierung modernster Vision-KI einfacher denn je. Ganz gleich, ob Sie eine Smart-City-Infrastruktur, Diagnostiklösungen für das Gesundheitswesen oder fortschrittliche Robotik entwickeln – Ultralytics den effizientesten Weg von den Rohdaten bis zur robusten, praxisnahen Implementierung.


Kommentare