Datenaugmentierung mit Ultralytics YOLO
Einführung
Datenaugmentierung ist eine entscheidende Technik im Computer Vision-Bereich, die dein Trainings-Dataset künstlich erweitert, indem verschiedene Transformationen auf vorhandene Bilder angewendet werden. Beim Training von Deep Learning-Modellen wie Ultralytics YOLO hilft die Datenaugmentierung, die Robustheit des Modells zu verbessern, Overfitting zu reduzieren und die Generalisierung auf reale Szenarien zu optimieren.
Watch: How to use Mosaic, MixUp & more Data Augmentations to help Ultralytics YOLO Models generalize better 🚀
Warum Datenaugmentierung wichtig ist
Datenaugmentierung erfüllt mehrere kritische Zwecke beim Training von Computer Vision-Modellen:
- Erweitertes Dataset: Durch das Erstellen von Variationen vorhandener Bilder kannst du die Größe deines Trainings-Datasets effektiv steigern, ohne neue Daten sammeln zu müssen.
- Verbesserte Generalisierung: Modelle lernen, Objekte unter verschiedenen Bedingungen zu erkennen, was sie in realen Anwendungen robuster macht.
- Reduziertes Overfitting: Durch das Einbringen von Variabilität in die Trainingsdaten ist es weniger wahrscheinlich, dass Modelle spezifische Bildmerkmale auswendig lernen.
- Höhere Leistung: Modelle, die mit geeigneter Augmentierung trainiert wurden, erreichen typischerweise eine bessere Genauigkeit bei Validierungs- und Test-Sets.
Die Implementierung von Ultralytics YOLO bietet eine umfassende Suite an Augmentierungstechniken, von denen jede spezifische Zwecke erfüllt und auf unterschiedliche Weise zur Modellleistung beiträgt. Dieser Leitfaden untersucht jeden Augmentierungsparameter im Detail und hilft dir zu verstehen, wann und wie du sie in deinen Projekten effektiv einsetzt.
Beispielkonfigurationen
Du kannst jeden Parameter mithilfe der Python API, dem Command Line Interface (CLI) oder einer Konfigurationsdatei anpassen. Im Folgenden findest du Beispiele, wie du die Datenaugmentierung für jede Methode einrichtest.
import albumentations as A
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt")
# Training with custom augmentation parameters
model.train(data="coco.yaml", epochs=100, hsv_h=0.03, hsv_s=0.6, hsv_v=0.5)
# Training without any augmentations (disabled values omitted for clarity)
model.train(
data="coco.yaml",
epochs=100,
hsv_h=0.0,
hsv_s=0.0,
hsv_v=0.0,
translate=0.0,
scale=0.0,
fliplr=0.0,
mosaic=0.0,
erasing=0.0,
auto_augment=None,
)
# Training with custom Albumentations transforms (Python API only)
custom_transforms = [
A.Blur(blur_limit=7, p=0.5),
A.CLAHE(clip_limit=4.0, p=0.5),
]
model.train(data="coco.yaml", epochs=100, augmentations=custom_transforms)Verwendung einer Konfigurationsdatei
Du kannst alle Trainingsparameter, einschließlich Augmentierungen, in einer YAML-Konfigurationsdatei festlegen (z. B. train_custom.yaml). Der mode-Parameter ist nur bei der Verwendung des CLI erforderlich. Diese neue YAML-Datei überschreibt dann die Standarddatei, die sich im ultralytics-Paket befindet.
# train_custom.yaml
# 'mode' is required only for CLI usage
mode: train
data: coco8.yaml
model: yolo26n.pt
epochs: 100
hsv_h: 0.03
hsv_s: 0.6
hsv_v: 0.5Starte anschließend das Training mit der Python API:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model with custom configuration
model.train(cfg="train_custom.yaml")Farbraum-Augmentierungen
Farbton-Anpassung (hsv_h)
- Bereich:
0.0-1.0 - Standard:
0.015 - Verwendung: Verschiebt die Bildfarben, während ihre Beziehungen erhalten bleiben. Der Hyperparameter
hsv_hdefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zufällig zwischen-hsv_hundhsv_hgewählt wird. Zum Beispiel wird beihsv_h=0.3die Verschiebung zufällig innerhalb von-0.3bis0.3ausgewählt. Bei Werten über0.5umschließt die Farbtonverschiebung das Farbrad, weshalb die Augmentierungen zwischen0.5und-0.5gleich aussehen. - Zweck: Besonders nützlich für Außenaufnahmen, bei denen Lichtverhältnisse das Erscheinungsbild von Objekten drastisch beeinflussen können. Eine Banane könnte zum Beispiel bei hellem Sonnenlicht gelber aussehen, in Innenräumen jedoch grünlicher.
- Ultralytics-Implementierung: RandomHSV
-0.5 | -0.25 | 0.0 | 0.25 | 0.5 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Sättigungsanpassung (hsv_s)
- Bereich:
0.0-1.0 - Standard:
0.7 - Verwendung: Ändert die Intensität der Farben im Bild. Der Hyperparameter
hsv_sdefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zufällig zwischen-hsv_sundhsv_sgewählt wird. Zum Beispiel wird beihsv_s=0.7die Intensität zufällig innerhalb von-0.7bis0.7ausgewählt. - Zweck: Hilft Modellen dabei, mit unterschiedlichen Wetterbedingungen und Kameraeinstellungen umzugehen. Ein rotes Verkehrsschild könnte an einem sonnigen Tag sehr lebendig erscheinen, bei nebligen Bedingungen jedoch stumpf und verblasst wirken.
- Ultralytics-Implementierung: RandomHSV
-1.0 | -0.5 | 0.0 | 0.5 | 1.0 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Helligkeitsanpassung (hsv_v)
- Bereich:
0.0-1.0 - Standard:
0.4 - Verwendung: Ändert die Helligkeit des Bildes. Der Hyperparameter
hsv_vdefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zufällig zwischen-hsv_vundhsv_vgewählt wird. Zum Beispiel wird beihsv_v=0.4die Intensität zufällig innerhalb von-0.4bis0.4ausgewählt. - Zweck: Wesentlich für das Training von Modellen, die bei verschiedenen Lichtverhältnissen funktionieren müssen. Ein roter Apfel könnte im Sonnenlicht hell aussehen, im Schatten jedoch deutlich dunkler.
- Ultralytics-Implementierung: RandomHSV
-1.0 | -0.5 | 0.0 | 0.5 | 1.0 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Geometrische Transformationen
Rotation (degrees)
- Bereich:
0.0bis180 - Standard:
0 - Verwendung: Rotiert Bilder zufällig innerhalb des angegebenen Bereichs. Der Hyperparameter
degreesdefiniert den Rotationswinkel, wobei die endgültige Anpassung zufällig zwischen-degreesunddegreesgewählt wird. Zum Beispiel wird beidegrees=10.0die Rotation zufällig innerhalb von-10.0bis10.0ausgewählt. - Zweck: Entscheidend für Anwendungen, bei denen Objekte in verschiedenen Ausrichtungen erscheinen können. In Drohnenaufnahmen können Fahrzeuge beispielsweise in jede Richtung ausgerichtet sein, was erfordert, dass Modelle Objekte unabhängig von ihrer Rotation erkennen.
- Ultralytics-Implementierung: RandomPerspective
-180 | -90 | 0.0 | 90 | 180 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Translation (translate)
- Bereich:
0.0-1.0 - Standard:
0.1 - Verwendung: Verschiebt Bilder horizontal und vertikal um einen zufälligen Bruchteil der Bildgröße. Der Hyperparameter
translatedefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zweimal zufällig (einmal für jede Achse) innerhalb des Bereichs-translatebistranslategewählt wird. Zum Beispiel wird beitranslate=0.5die Translation zufällig innerhalb von-0.5bis0.5auf der x-Achse ausgewählt, und ein weiterer unabhängiger Zufallswert wird innerhalb desselben Bereichs auf der y-Achse gewählt. - Zweck: Hilft Modellen dabei, teilweise sichtbare Objekte zu erkennen und verbessert die Robustheit gegenüber der Objektposition. Bei Anwendungen zur Bewertung von Fahrzeugschäden können Autoteile beispielsweise je nach Position und Entfernung des Fotografen vollständig oder teilweise im Bild erscheinen. Die Translations-Augmentierung lehrt das Modell, diese Merkmale unabhängig von ihrer Vollständigkeit oder Position zu erkennen.
- Ultralytics-Implementierung: RandomPerspective
- Note: For simplicity, the translations applied below are the same each time for both
xandyaxes. Values-1.0and1.0are not shown as they would translate the image completely out of the frame.
-0.5 | -0.25 | 0.0 | 0.25 | 0.5 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Skalierung (scale)
- Bereich:
0.0-1.0 - Standard:
0.5 - Verwendung: Ändert die Größe von Bildern um einen zufälligen Faktor innerhalb des angegebenen Bereichs. Der Hyperparameter
scaledefiniert den Skalierungsfaktor, wobei die endgültige Anpassung zufällig zwischen1-scaleund1+scalegewählt wird. Zum Beispiel wird beiscale=0.5die Skalierung zufällig innerhalb von0.5bis1.5ausgewählt. - Zweck: Ermöglicht es Modellen, mit Objekten in unterschiedlichen Entfernungen und Größen umzugehen. Bei Anwendungen zum autonomen Fahren können Fahrzeuge beispielsweise in verschiedenen Abständen zur Kamera erscheinen, was vom Modell verlangt, sie unabhängig von ihrer Größe zu erkennen.
- Ultralytics-Implementierung: RandomPerspective
- Hinweis:
- Der Wert
-1.0wird nicht gezeigt, da er das Bild verschwinden lassen würde, während1.0einfach zu einem 2-fachen Zoom führt. - Die in der Tabelle unten angezeigten Werte sind diejenigen, die über den Hyperparameter
scaleangewendet werden, nicht der endgültige Skalierungsfaktor. - Wenn
scalegrößer als1.0ist, kann das Bild entweder sehr klein sein oder gespiegelt werden, da der Skalierungsfaktor zufällig zwischen1-scaleund1+scalegewählt wird. Zum Beispiel wird beiscale=3.0die Skalierung zufällig innerhalb von-2.0bis4.0ausgewählt. Wenn ein negativer Wert gewählt wird, wird das Bild gespiegelt.
- Der Wert
-0.5 | -0.25 | 0.0 | 0.25 | 0.5 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Scherung (shear)
- Bereich:
-180bis+180 - Standard:
0 - Verwendung: Führt eine geometrische Transformation ein, die das Bild entlang der x- und y-Achse verzerrt und dabei Bildteile in eine Richtung verschiebt, während parallele Linien beibehalten werden. Der Hyperparameter
sheardefiniert den Scherungswinkel, wobei die endgültige Anpassung zufällig zwischen-shearundsheargewählt wird. Zum Beispiel wird beishear=10.0die Scherung zufällig innerhalb von-10bis10auf der x-Achse ausgewählt, und ein weiterer unabhängiger Zufallswert wird innerhalb desselben Bereichs auf der y-Achse gewählt. - Zweck: Hilft Modellen bei der Generalisierung gegenüber Variationen in Blickwinkeln, die durch leichte Neigungen oder schräge Perspektiven verursacht werden. Bei der Verkehrsüberwachung können Objekte wie Autos oder Verkehrsschilder aufgrund nicht senkrechter Kameraausrichtungen schräg erscheinen. Die Anwendung der Scherungs-Augmentierung stellt sicher, dass das Modell lernt, Objekte trotz solcher verzerrten Darstellungen zu erkennen.
- Ultralytics-Implementierung: RandomPerspective
- Hinweis:
shear-Werte können das Bild schnell verzerren, daher wird empfohlen, mit kleinen Werten zu beginnen und diese schrittweise zu erhöhen.- Im Gegensatz zu Perspektivtransformationen führt die Scherung keine Tiefe oder Fluchtpunkte ein, sondern verzerrt stattdessen die Form von Objekten, indem ihre Winkel geändert werden, während gegenüberliegende Seiten parallel bleiben.
-10 | -5 | 0.0 | 5 | 10 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Perspektive (perspective)
- Bereich:
0.0-0.001 - Standard:
0 - Verwendung: Wendet eine vollständige Perspektivtransformation sowohl entlang der x-Achse als auch der y-Achse an, um zu simulieren, wie Objekte bei Betrachtung aus verschiedenen Tiefen oder Winkeln erscheinen. Der Hyperparameter
perspectivedefiniert die Stärke der Perspektivänderung, wobei die endgültige Anpassung zufällig zwischen-perspectiveundperspectivegewählt wird. Beiperspective=0.001wird die Perspektive beispielsweise zufällig innerhalb von-0.001bis0.001auf der x-Achse gewählt, und ein weiterer unabhängiger Zufallswert wird im selben Bereich für die y-Achse ausgewählt. - Zweck: Die Perspektiven-Augmentierung ist entscheidend für die Bewältigung extremer Blickwinkeländerungen, insbesondere in Szenarien, in denen Objekte aufgrund von Perspektivverschiebungen verkürzt oder verzerrt erscheinen. Zum Beispiel können bei der drohnenbasierten Objekterkennung Gebäude, Straßen und Fahrzeuge je nach Neigung und Höhe der Drohne gestreckt oder gestaucht wirken. Durch die Anwendung von Perspektivtransformationen lernen Modelle, Objekte trotz dieser perspektivbedingten Verzerrungen zu erkennen, was ihre Robustheit bei realen Einsätzen verbessert.
- Ultralytics-Implementierung: RandomPerspective
-0.001 | -0.0005 | 0.0 | 0.0005 | 0.001 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Vertikales Spiegeln (flipud)
- Bereich:
0.0-1.0 - Standard:
0 - Usage: Performs a vertical flip by inverting the image along the y-axis. This transformation mirrors the entire image upside-down but preserves all spatial relationships between objects. The flipud hyperparameter defines the probability of applying the transformation, with a value of
flipud=1.0ensuring that all images are flipped and a value offlipud=0.0disabling the transformation entirely. For example, withflipud=0.5, each image has a 50% chance of being flipped upside-down. - Zweck: Nützlich für Szenarien, in denen Objekte auf dem Kopf stehen können. In Roboter-Sichtsystemen können Objekte auf Förderbändern oder von Roboterarmen beispielsweise in verschiedenen Ausrichtungen aufgenommen und abgelegt werden. Das vertikale Spiegeln hilft dem Modell, Objekte unabhängig von ihrer Ausrichtung (oben/unten) zu erkennen.
- Ultralytics-Implementierung: RandomFlip
flipud aus | flipud an |
|---|---|
![]() | ![]() |
Horizontales Spiegeln (fliplr)
- Bereich:
0.0-1.0 - Standard:
0.5 - Verwendung: Führt ein horizontales Spiegeln durch, indem das Bild entlang der x-Achse gespiegelt wird. Diese Transformation vertauscht die linke und rechte Seite unter Beibehaltung der räumlichen Konsistenz, was dem Modell hilft, Objekte in gespiegelten Ausrichtungen zu verallgemeinern. Der Hyperparameter
fliplrdefiniert die Wahrscheinlichkeit der Anwendung, wobeifliplr=1.0garantiert, dass alle Bilder gespiegelt werden, undfliplr=0.0die Funktion deaktiviert. Beifliplr=0.5besteht beispielsweise eine 50-prozentige Chance, dass ein Bild horizontal gespiegelt wird. - Zweck: Horizontales Spiegeln wird häufig in der Objekterkennung, Pose-Schätzung und Gesichtserkennung eingesetzt, um die Robustheit gegenüber Links-Rechts-Variationen zu verbessern. Beim autonomen Fahren können Fahrzeuge und Fußgänger beispielsweise auf beiden Seiten der Straße erscheinen, und das horizontale Spiegeln hilft dem Modell, sie in beiden Ausrichtungen gleichermaßen gut zu erkennen.
- Ultralytics-Implementierung: RandomFlip
fliplr aus | fliplr an |
|---|---|
![]() | ![]() |
BGR-Kanalaustausch (bgr)
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Tauscht die Farbkanäle eines Bildes von RGB zu BGR und ändert die Reihenfolge der Farbdarstellung. Der Hyperparameter
bgrdefiniert die Wahrscheinlichkeit der Transformation, wobeibgr=1.0sicherstellt, dass alle Bilder den Kanalaustausch durchlaufen, undbgr=0.0ihn deaktiviert. Beibgr=0.5hat jedes Bild beispielsweise eine 50-prozentige Chance, von RGB zu BGR konvertiert zu werden. - Zweck: Erhöht die Robustheit gegenüber verschiedenen Farbkanalreihenfolgen. Dies ist hilfreich, wenn Modelle trainiert werden, die mit verschiedenen Kamerasystemen und Imaging-Bibliotheken funktionieren müssen, bei denen RGB- und BGR-Formate inkonsistent verwendet werden, oder wenn Modelle in Umgebungen bereitgestellt werden, in denen sich das Eingangsfarbformat von den Trainingsdaten unterscheiden könnte.
- Ultralytics-Implementierung: Format
bgr aus | bgr an |
|---|---|
![]() | ![]() |
Mosaik (mosaic)
- Bereich:
0.0-1.0 - Standard:
1 - Verwendung: Kombiniert vier Trainingsbilder zu einem. Der Hyperparameter
mosaicdefiniert die Wahrscheinlichkeit der Anwendung, wobeimosaic=1.0sicherstellt, dass alle Bilder kombiniert werden, undmosaic=0.0die Transformation deaktiviert. Beimosaic=0.5hat jedes Bild beispielsweise eine 50-prozentige Chance, mit drei anderen Bildern kombiniert zu werden. - Zweck: Äußerst effektiv zur Verbesserung der Erkennung kleiner Objekte und des Kontextverständnisses. In Wildtierschutzprojekten, in denen Tiere in verschiedenen Entfernungen und Maßstäben erscheinen können, hilft die Mosaik-Augmentierung dem Modell, dieselbe Art über verschiedene Größen, teilweise Verdeckungen und Umgebungskontexte hinweg zu erkennen, indem künstlich vielfältige Trainingsbeispiele aus begrenzten Daten erstellt werden.
- Ultralytics-Implementierung: Mosaic
- Hinweis:
- Auch wenn die
mosaic-Augmentierung das Modell robuster macht, kann sie den Trainingsprozess anspruchsvoller gestalten. - Die
mosaic-Augmentierung kann gegen Ende des Trainings deaktiviert werden, indemclose_mosaicauf die Anzahl der Epochen vor Abschluss festgelegt wird, nach denen sie abgeschaltet werden soll. Wennepochsauf200undclose_mosaicauf20gesetzt ist, wird diemosaic-Augmentierung nach180Epochen deaktiviert. Wennclose_mosaicauf0gesetzt ist, bleibt diemosaic-Augmentierung während des gesamten Trainingsprozesses aktiv. - Das Zentrum des generierten Mosaiks wird anhand von Zufallswerten bestimmt und kann entweder innerhalb oder außerhalb des Bildes liegen.
- Die aktuelle Implementierung der
mosaic-Augmentierung kombiniert 4 zufällig aus dem Datensatz ausgewählte Bilder. Wenn der Datensatz klein ist, kann dasselbe Bild im selben Mosaik mehrmals verwendet werden.
- Auch wenn die
mosaic aus | mosaic an |
|---|---|
![]() | ![]() |
Mixup (mixup)
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Mischt zwei Bilder und deren Labels mit einer gegebenen Wahrscheinlichkeit. Der Hyperparameter
mixupdefiniert die Wahrscheinlichkeit der Anwendung, wobeimixup=1.0sicherstellt, dass alle Bilder gemischt werden, undmixup=0.0die Transformation deaktiviert. Beimixup=0.5hat jedes Bild beispielsweise eine 50-prozentige Chance, mit einem anderen Bild gemischt zu werden. - Zweck: Verbessert die Modellrobustheit und reduziert Overfitting. In Einzelhandelsprodukt-Erkennungssystemen hilft Mixup dem Modell, robustere Merkmale zu lernen, indem Bilder verschiedener Produkte gemischt werden. Dies lehrt das Modell, Artikel selbst dann zu identifizieren, wenn sie nur teilweise sichtbar sind oder durch andere Produkte in überfüllten Verkaufsregalen verdeckt werden.
- Ultralytics-Implementierung: Mixup
- Hinweis:
- Das
mixup-Verhältnis ist ein Zufallswert, der aus einernp.random.beta(32.0, 32.0)-Beta-Verteilung ausgewählt wird, was bedeutet, dass jedes Bild zu etwa 50% beiträgt, mit leichten Abweichungen.
- Das
Erstes Bild, mixup aus | Zweites Bild, mixup aus | mixup an |
|---|---|---|
![]() | ![]() | ![]() |
CutMix (cutmix)
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Schneidet einen rechteckigen Bereich aus einem Bild aus und fügt ihn mit einer gegebenen Wahrscheinlichkeit in ein anderes Bild ein. Der Hyperparameter
cutmixdefiniert die Wahrscheinlichkeit der Anwendung, wobeicutmix=1.0sicherstellt, dass alle Bilder diese Transformation durchlaufen, undcutmix=0.0sie vollständig deaktiviert. Beicutmix=0.5hat jedes Bild beispielsweise eine 50-prozentige Chance, dass ein Bereich durch ein Stück eines anderen Bildes ersetzt wird. - Zweck: Verbessert die Modellleistung durch die Schaffung realistischer Verdeckungsszenarien bei gleichzeitiger Wahrung der lokalen Merkmalsintegrität. Bei autonomen Fahrsystemen hilft CutMix dem Modell beispielsweise, Fahrzeuge oder Fußgänger auch dann zu erkennen, wenn sie teilweise von anderen Objekten verdeckt werden, was die Erkennungsgenauigkeit in komplexen realen Umgebungen mit überlappenden Objekten verbessert.
- Ultralytics-Implementierung: CutMix
- Hinweis:
- Größe und Position des ausgeschnittenen Bereichs werden für jede Anwendung zufällig bestimmt.
- Im Gegensatz zu Mixup, das Pixelwerte global mischt, behält
cutmixdie ursprünglichen Pixelintensitäten innerhalb der ausgeschnittenen Bereiche bei und bewahrt so lokale Merkmale. - Ein Bereich wird nur dann in das Zielbild eingefügt, wenn er sich nicht mit einer bestehenden Bounding Box überschneidet. Zusätzlich werden nur diejenigen Bounding Boxes beibehalten, die mindestens
0.1(10 %) ihrer ursprünglichen Fläche innerhalb des eingefügten Bereichs behalten. - Dieser Schwellenwert für die minimale Fläche der Bounding Box kann in der aktuellen Implementierung nicht geändert werden und ist standardmäßig auf
0.1eingestellt.
Erstes Bild, cutmix aus | Zweites Bild, cutmix aus | cutmix an |
|---|---|---|
![]() | ![]() | ![]() |
Segmentierungsspezifische Augmentierungen
Copy-Paste (copy_paste)
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Funktioniert nur bei Segmentierungsaufgaben. Diese Augmentierung kopiert Objekte innerhalb oder zwischen Bildern basierend auf einer festgelegten Wahrscheinlichkeit, die durch den
copy_paste_modegesteuert wird. Der Hyperparametercopy_pastedefiniert die Wahrscheinlichkeit der Anwendung, wobeicopy_paste=1.0sicherstellt, dass alle Bilder kopiert werden, undcopy_paste=0.0die Transformation deaktiviert. Beicopy_paste=0.5hat jedes Bild beispielsweise eine 50-prozentige Chance, dass Objekte aus einem anderen Bild hineinkopiert werden. - Zweck: Besonders nützlich für Instanzsegmentierungsaufgaben und seltene Objektklassen. In der industriellen Fehlererkennung, wo bestimmte Fehlertypen nur selten auftreten, kann die Copy-Paste-Augmentierung das Vorkommen dieser seltenen Fehler künstlich erhöhen, indem sie sie von einem Bild in ein anderes kopiert. Dies hilft dem Modell, diese unterrepräsentierten Fälle besser zu lernen, ohne dass zusätzliche fehlerhafte Proben erforderlich sind.
- Ultralytics-Implementierung: CopyPaste
- Hinweis:
- Wie im folgenden GIF dargestellt, kann die
copy_paste-Augmentierung verwendet werden, um Objekte von einem Bild in ein anderes zu kopieren. - Sobald ein Objekt kopiert wurde, wird unabhängig vom
copy_paste_modesein Intersection over Area (IoA) mit allen Objekten des Quellbildes berechnet. Wenn alle IoA-Werte unter0.3(30 %) liegen, wird das Objekt in das Zielbild eingefügt. Wenn nur einer der IoA-Werte über0.3liegt, wird das Objekt nicht in das Zielbild eingefügt. - Der IoA-Schwellenwert kann in der aktuellen Implementierung nicht geändert werden und ist standardmäßig auf
0.3eingestellt.
- Wie im folgenden GIF dargestellt, kann die
copy_paste aus | copy_paste an mit copy_paste_mode=flip | Visualisierung des copy_paste-Prozesses |
|---|---|---|
![]() | ![]() | ![]() |
Copy-Paste-Modus (copy_paste_mode)
- Optionen:
'flip','mixup' - Standard:
'flip' - Verwendung: Bestimmt die Methode, die für die Copy-Paste-Augmentierung verwendet wird. Bei
'flip'stammen die Objekte aus demselben Bild, während'mixup'es ermöglicht, Objekte aus verschiedenen Bildern zu kopieren. - Zweck: Ermöglicht Flexibilität bei der Integration kopierter Objekte in Zielbilder.
- Ultralytics-Implementierung: CopyPaste
- Hinweis:
- Das IoA-Prinzip ist für beide
copy_paste_mode-Einstellungen gleich, aber die Art und Weise, wie die Objekte kopiert werden, unterscheidet sich. - Je nach Bildgröße können Objekte manchmal teilweise oder vollständig außerhalb des Rahmens kopiert werden.
- Abhängig von der Qualität der Polygon-Annotationen können kopierte Objekte leichte Formvariationen im Vergleich zu den Originalen aufweisen.
- Das IoA-Prinzip ist für beide
| Referenzbild | Ausgewähltes Bild für copy_paste | copy_paste an mit copy_paste_mode=mixup |
|---|---|---|
![]() | ![]() | ![]() |
Klassifizierungsspezifische Augmentierungen
Auto Augment (auto_augment)
- Optionen:
'randaugment','autoaugment','augmix',None - Standard:
'randaugment' - Verwendung: Wendet automatisierte Augmentierungsrichtlinien für die Klassifizierung an. Die Option
'randaugment'nutzt RandAugment,'autoaugment'verwendet AutoAugment und'augmix'nutzt AugMix. Die Einstellung aufNonedeaktiviert die automatisierte Augmentierung. - Zweck: Optimiert Augmentierungsstrategien automatisch für Klassifizierungsaufgaben. Die Unterschiede sind wie folgt:
- AutoAugment: Dieser Modus wendet vordefinierte Augmentierungsrichtlinien an, die aus Datensätzen wie ImageNet, CIFAR10 und SVHN gelernt wurden. Nutzer können diese bestehenden Richtlinien auswählen, aber innerhalb von Torchvision keine neuen trainieren. Um optimale Augmentierungsstrategien für spezifische Datensätze zu entdecken, wären externe Bibliotheken oder benutzerdefinierte Implementierungen notwendig. Verweis auf das AutoAugment-Paper.
- RandAugment: Wendet eine zufällige Auswahl von Transformationen mit einheitlicher Stärke an. Dieser Ansatz reduziert die Notwendigkeit einer umfangreichen Suchphase, was ihn recheneffizienter macht und dennoch die Robustheit des Modells verbessert. Verweis auf das RandAugment-Paper.
- AugMix: AugMix ist eine Datenaugmentierungsmethode, die die Robustheit des Modells verbessert, indem sie durch zufällige Kombinationen einfacher Transformationen vielfältige Bildvariationen erzeugt. Verweis auf das AugMix-Paper.
- Implementierung von Ultralytics: classify_augmentations()
- Hinweis:
- Im Grunde genommen liegt der Hauptunterschied zwischen den drei Methoden in der Art und Weise, wie die Augmentierungsrichtlinien definiert und angewendet werden.
- Du kannst diesen Artikel hinzuziehen, der die drei Methoden im Detail vergleicht.
Zufälliges Löschen (erasing)
- Bereich:
0.0-0.9 - Standard:
0.4 - Verwendung: Löscht während des Klassifizierungstrainings zufällig Teile des Bildes. Der Hyperparameter
erasingdefiniert die Wahrscheinlichkeit der Anwendung der Transformation, wobeierasing=0.9sicherstellt, dass fast alle Bilder gelöscht werden, underasing=0.0die Transformation deaktiviert. Zum Beispiel hat jedes Bild beierasing=0.5eine Chance von 50 %, dass ein Teil gelöscht wird. - Zweck: Hilft Modellen dabei, robuste Merkmale zu erlernen und verhindert eine zu starke Abhängigkeit von bestimmten Bildbereichen. Zum Beispiel hilft zufälliges Löschen bei Gesichtserkennungssystemen den Modellen, robuster gegenüber teilweisen Verdeckungen wie Sonnenbrillen, Gesichtsmasken oder anderen Objekten zu werden, die Gesichtsmerkmale teilweise verdecken könnten. Dies verbessert die Leistung in der realen Welt, indem das Modell gezwungen wird, Personen anhand mehrerer Gesichtsmerkmale zu identifizieren, anstatt sich ausschließlich auf markante Merkmale zu verlassen, die verdeckt sein könnten.
- Implementierung von Ultralytics: classify_augmentations()
- Hinweis:
- Die
erasing-Augmentierung enthält die Hyperparameterscale,ratioundvalue, die mit der aktuellen Implementierung nicht geändert werden können. Ihre Standardwerte sind(0.02, 0.33),(0.3, 3.3)bzw.0, wie in der PyTorch-Dokumentation angegeben. - Die Obergrenze des
erasing-Hyperparameters ist auf0.9festgelegt, um zu vermeiden, dass die Transformation auf alle Bilder angewendet wird.
- Die
erasing aus | erasing an (Beispiel 1) | erasing an (Beispiel 2) | erasing an (Beispiel 3) |
|---|---|---|---|
![]() | ![]() | ![]() | ![]() |
Erweiterte Augmentierungsfunktionen
Benutzerdefinierte Albumentations-Transformationen (augmentations)
- Typ:
listvon Albumentations-Transformationen - Standard:
None - Verwendung: Ermöglicht es dir, benutzerdefinierte Albumentations-Transformationen für die Datenaugmentierung über die Python API bereitzustellen. Dieser Parameter akzeptiert eine Liste von Albumentations-Transformations-Objekten, die während des Trainings anstelle der Standard-Albumentations-Transformationen angewendet werden.
- Zweck: Bietet eine feinkörnige Kontrolle über Datenaugmentierungsstrategien durch Nutzung der umfangreichen Bibliothek von Albumentations-Transformationen. Dies ist besonders nützlich, wenn du spezielle Augmentierungen benötigst, die über die integrierten YOLO-Optionen hinausgehen, wie z. B. erweiterte Farbanpassungen, Rauschinjektionen oder domänenspezifische Transformationen.
- Implementierung von Ultralytics: Albumentations
import albumentations as A
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt")
# Define custom Albumentations transforms
custom_transforms = [
A.Blur(blur_limit=7, p=0.5),
A.GaussNoise(var_limit=(10.0, 50.0), p=0.3),
A.CLAHE(clip_limit=4.0, p=0.5),
A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5),
A.HueSaturationValue(hue_shift_limit=20, sat_shift_limit=30, val_shift_limit=20, p=0.5),
]
# Train with custom Albumentations transforms
model.train(
data="coco8.yaml",
epochs=100,
augmentations=custom_transforms, # Pass custom transforms
imgsz=640,
)Wichtige Punkte:
- Nur Python API: Benutzerdefinierte Albumentations-Transformationen werden derzeit nur über die Python API unterstützt. Sie können nicht über CLI- oder YAML-Konfigurationsdateien spezifiziert werden.
- Ersetzt Standard-Transformationen: Wenn du benutzerdefinierte Transformationen über den
augmentations-Parameter bereitstellst, ersetzen diese die Standard-Albumentations-Transformationen vollständig. Die Standard-YOLO-Augmentierungen (wiemosaic,hsv_h,hsv_s,degreesusw.) bleiben aktiv und werden unabhängig davon angewendet. - Kompatibilität mit Bounding Boxen: Sei vorsichtig bei der Verwendung räumlicher Transformationen (Transformationen, die die Geometrie des Bildes verändern). Ultralytics handhabt die Anpassungen der Bounding Boxen automatisch, aber einige komplexe Transformationen erfordern möglicherweise eine zusätzliche Konfiguration.
- Umfangreiche Bibliothek: Albumentations bietet über 70+ verschiedene Transformationen. Erkunde die Albumentations-Dokumentation, um alle verfügbaren Optionen zu entdecken.
- Überlegung zur Leistung: Das Hinzufügen von zu vielen Augmentierungen oder die Verwendung rechenintensiver Transformationen kann das Training verlangsamen. Beginne mit einer kleinen Auswahl und überwache die Trainingsgeschwindigkeit.
Häufige Anwendungsfälle:
- Medizinische Bildgebung: Wende spezialisierte Transformationen wie elastische Verformungen oder Gitterverzerrungen für die Augmentierung von Röntgen- oder MRT-Bildern an
- Luft-/Satellitenbilder: Verwende Transformationen, die für Aufnahmen aus der Vogelperspektive optimiert sind
- Umgebungen bei schwachem Licht: Wende Rausch- und Helligkeitsanpassungen an, um schwierige Lichtverhältnisse zu simulieren
- Industrielle Inspektion: Füge fehlerähnliche Muster oder Texturvariationen für Qualitätskontrollanwendungen hinzu
Hinweise zur Kompatibilität:
- Erfordert Albumentations Version 1.0.3 oder höher
- Kompatibel mit allen YOLO-Erkennungs- und Segmentierungsaufgaben
- Nicht anwendbar für Klassifizierungsaufgaben (Klassifizierung verwendet eine andere Augmentierungspipeline)
Für weitere Informationen über Albumentations und verfügbare Transformationen besuche die offizielle Albumentations-Dokumentation.
FAQ
Es gibt zu viele Augmentierungen zur Auswahl. Woher weiß ich, welche ich verwenden soll?
Die Auswahl der richtigen Augmentierungen hängt von deinem spezifischen Anwendungsfall und Datensatz ab. Hier sind ein paar allgemeine Richtlinien, die dir bei der Entscheidung helfen sollen:
- In den meisten Fällen sind leichte Variationen in Farbe und Helligkeit vorteilhaft. Die Standardwerte für
hsv_h,hsv_sundhsv_vsind ein solider Ausgangspunkt. - Wenn der Blickwinkel der Kamera konsistent ist und sich nach der Bereitstellung des Modells nicht ändert, kannst du wahrscheinlich auf geometrische Transformationen wie
rotation,translation,scale,shearoderperspectiveverzichten. Wenn sich der Kamerawinkel jedoch ändern kann und du möchtest, dass das Modell robuster ist, ist es besser, diese Augmentierungen beizubehalten. - Verwende die
mosaic-Augmentierung nur, wenn das Vorhandensein von teilweise verdeckten Objekten oder mehreren Objekten pro Bild akzeptabel ist und den Label-Wert nicht ändert. Alternativ kannst dumosaicaktiv lassen, aber denclose_mosaic-Wert erhöhen, um es früher im Trainingsprozess zu deaktivieren.
Kurz gesagt: Halte es einfach. Beginne mit einem kleinen Satz an Augmentierungen und füge nach Bedarf schrittweise weitere hinzu. Das Ziel ist es, die Generalisierung und Robustheit des Modells zu verbessern, nicht den Trainingsprozess zu verkomplizieren. Stelle außerdem sicher, dass die von dir angewendeten Augmentierungen dieselbe Datenverteilung widerspiegeln, auf die dein Modell in der Produktion treffen wird.
Wenn ich ein Training starte, sehe ich einen albumentations: Blur[...]-Verweis. Bedeutet das, dass Ultralytics YOLO zusätzliche Augmentierungen wie Weichzeichnen durchführt?
Wenn das albumentations-Paket installiert ist, wendet Ultralytics automatisch eine Reihe zusätzlicher Bildaugmentierungen an, die dieses nutzen. Diese Augmentierungen werden intern gehandhabt und erfordern keine zusätzliche Konfiguration.
Du findest die vollständige Liste der angewendeten Transformationen in unserer technischen Dokumentation sowie in unserem Leitfaden zur Albumentations-Integration. Beachte, dass nur Augmentierungen mit einer Wahrscheinlichkeit p größer als 0 aktiv sind. Diese werden gezielt mit geringer Häufigkeit angewendet, um visuelle Artefakte aus der realen Welt nachzuahmen, wie z. B. Weichzeichnungs- oder Graustufeneffekte.
Du kannst auch deine eigenen benutzerdefinierten Albumentations-Transformationen über die Python API bereitstellen. Siehe den Abschnitt Erweiterte Augmentierungsfunktionen für weitere Details.
Wenn ich ein Training starte, sehe ich keinen Verweis auf Albumentations. Warum?
Prüfe, ob das albumentations-Paket installiert ist. Falls nicht, kannst du es durch Ausführen von pip install albumentations installieren. Sobald es installiert ist, sollte das Paket automatisch erkannt und von Ultralytics verwendet werden.
Wie passe ich meine Augmentierungen an?
Du kannst Augmentierungen anpassen, indem du eine benutzerdefinierte Dataset-Klasse und einen Trainer erstellst. Du kannst zum Beispiel die Standard-Klassifizierungs-Augmentierungen von Ultralytics durch PyTorchs torchvision.transforms.Resize oder andere Transformationen ersetzen. Siehe das Beispiel für benutzerdefiniertes Training in der Klassifizierungsdokumentation für Implementierungsdetails.
















































