Link to this sectionDatenaugmentation mit Ultralytics YOLO#
Link to this sectionEinführung#
Datenaugmentation ist eine entscheidende Technik im Bereich Computer Vision, die deinen Trainingsdatensatz künstlich erweitert, indem sie verschiedene Transformationen auf vorhandene Bilder anwendet. Beim Training von Deep Learning-Modellen wie Ultralytics YOLO hilft Datenaugmentation dabei, die Robustheit des Modells zu verbessern, Overfitting zu reduzieren und die Generalisierung auf reale Szenarien zu optimieren.
Watch: How to use Mosaic, MixUp & more Data Augmentations to help Ultralytics YOLO Models generalize better 🚀
Link to this sectionWarum Datenaugmentation wichtig ist#
Datenaugmentation erfüllt mehrere kritische Funktionen beim Training von Computer-Vision-Modellen:
- Erweiterter Datensatz: Durch das Erstellen von Variationen bestehender Bilder kannst du die Größe deines Trainingsdatensatzes effektiv vergrößern, ohne neue Daten sammeln zu müssen.
- Verbesserte Generalisierung: Modelle lernen, Objekte unter verschiedenen Bedingungen zu erkennen, was sie in realen Anwendungen robuster macht.
- Reduziertes Overfitting: Durch die Einführung von Variabilität in den Trainingsdaten ist es weniger wahrscheinlich, dass Modelle spezifische Bildmerkmale auswendig lernen.
- Verbesserte Leistung: Modelle, die mit geeigneter Augmentation trainiert wurden, erzielen in der Regel eine bessere Genauigkeit auf Validierungs- und Testsets.
Die Implementierung von Ultralytics YOLO bietet eine umfassende Suite von Augmentationstechniken, von denen jede spezifische Zwecke erfüllt und auf unterschiedliche Weise zur Modellleistung beiträgt. Dieser Leitfaden erläutert jeden Augmentationsparameter im Detail und hilft dir zu verstehen, wann und wie du sie in deinen Projekten effektiv einsetzt.
Link to this sectionBeispielkonfigurationen#
Du kannst jeden Parameter mithilfe der Python API, des Command Line Interface (CLI) oder einer Konfigurationsdatei anpassen. Nachfolgend findest du Beispiele, wie du die Datenaugmentation mit jeder Methode einrichtest.
import albumentations as A
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt")
# Training with custom augmentation parameters
model.train(data="coco.yaml", epochs=100, hsv_h=0.03, hsv_s=0.6, hsv_v=0.5)
# Training without any augmentations (disabled values omitted for clarity)
model.train(
data="coco.yaml",
epochs=100,
hsv_h=0.0,
hsv_s=0.0,
hsv_v=0.0,
translate=0.0,
scale=0.0,
fliplr=0.0,
mosaic=0.0,
erasing=0.0,
auto_augment=None,
)
# Training with custom Albumentations transforms (Python API only)
custom_transforms = [
A.Blur(blur_limit=7, p=0.5),
A.CLAHE(clip_limit=4.0, p=0.5),
]
model.train(data="coco.yaml", epochs=100, augmentations=custom_transforms)Link to this sectionVerwendung einer Konfigurationsdatei#
Du kannst alle Trainingsparameter, einschließlich Augmentationen, in einer YAML-Konfigurationsdatei (z. B. train_custom.yaml) definieren. Der mode-Parameter ist nur bei Verwendung des CLI erforderlich. Diese neue YAML-Datei überschreibt dann die Standarddatei, die sich im ultralytics-Paket befindet.
# train_custom.yaml
# 'mode' is required only for CLI usage
mode: train
data: coco8.yaml
model: yolo26n.pt
epochs: 100
hsv_h: 0.03
hsv_s: 0.6
hsv_v: 0.5Starte dann das Training mit der Python API:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model with custom configuration
model.train(cfg="train_custom.yaml")Link to this sectionFarbraum-Augmentationen#
Link to this sectionFarbtonanpassung (hsv_h)#
- Bereich:
0.0-1.0 - Standard:
0.015 - Verwendung: Verschiebt die Bildfarben, während ihre Beziehungen zueinander erhalten bleiben. Der Hyperparameter
hsv_hdefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zufällig zwischen-hsv_hundhsv_hgewählt wird. Zum Beispiel wird beihsv_h=0.3die Verschiebung zufällig zwischen-0.3und0.3ausgewählt. Bei Werten über0.5umschließt die Farbtonverschiebung das Farbrad, weshalb die Augmentationen zwischen0.5und-0.5identisch aussehen. - Zweck: Besonders nützlich für Außenaufnahmen, bei denen Lichtverhältnisse das Erscheinungsbild von Objekten stark beeinflussen können. Zum Beispiel kann eine Banane bei hellem Sonnenlicht gelber aussehen, in Innenräumen jedoch eher grünlich.
- Implementierung von Ultralytics: RandomHSV
-0.5 | -0.25 | 0.0 | 0.25 | 0.5 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionSättigungsanpassung (hsv_s)#
- Bereich:
0.0-1.0 - Standard:
0.7 - Verwendung: Ändert die Intensität der Farben im Bild. Der Hyperparameter
hsv_sdefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zufällig zwischen-hsv_sundhsv_sgewählt wird. Zum Beispiel wird beihsv_s=0.7die Intensität zufällig zwischen-0.7und0.7ausgewählt. - Zweck: Hilft Modellen dabei, mit unterschiedlichen Wetterbedingungen und Kameraeinstellungen umzugehen. Zum Beispiel kann ein rotes Verkehrsschild an einem sonnigen Tag sehr lebendig wirken, bei nebligen Bedingungen jedoch stumpf und verblasst aussehen.
- Implementierung von Ultralytics: RandomHSV
-1.0 | -0.5 | 0.0 | 0.5 | 1.0 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionHelligkeitsanpassung (hsv_v)#
- Bereich:
0.0-1.0 - Standard:
0.4 - Verwendung: Ändert die Helligkeit des Bildes. Der Hyperparameter
hsv_vdefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zufällig zwischen-hsv_vundhsv_vgewählt wird. Zum Beispiel wird beihsv_v=0.4die Intensität zufällig zwischen-0.4und0.4ausgewählt. - Zweck: Wesentlich für das Training von Modellen, die unter verschiedenen Lichtbedingungen funktionieren müssen. Zum Beispiel kann ein roter Apfel im Sonnenlicht hell erscheinen, im Schatten jedoch viel dunkler.
- Implementierung von Ultralytics: RandomHSV
-1.0 | -0.5 | 0.0 | 0.5 | 1.0 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionGeometrische Transformationen#
Link to this sectionRotation (degrees)#
- Bereich:
0.0bis180 - Standard:
0 - Verwendung: Rotiert Bilder zufällig innerhalb des angegebenen Bereichs. Der Hyperparameter
degreesdefiniert den Rotationswinkel, wobei die endgültige Anpassung zufällig zwischen-degreesunddegreesgewählt wird. Zum Beispiel wird beidegrees=10.0die Rotation zufällig zwischen-10.0und10.0gewählt. - Zweck: Entscheidend für Anwendungen, bei denen Objekte in verschiedenen Ausrichtungen erscheinen können. Zum Beispiel müssen in Luftaufnahmen von Drohnen Fahrzeuge in jede beliebige Richtung orientiert sein, was erfordert, dass Modelle die Objekte unabhängig von ihrer Rotation erkennen.
- Implementierung von Ultralytics: RandomPerspective
-180 | -90 | 0.0 | 90 | 180 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionTranslation (translate)#
- Bereich:
0.0-1.0 - Standard:
0.1 - Verwendung: Verschiebt Bilder horizontal und vertikal um einen zufälligen Bruchteil der Bildgröße. Der Hyperparameter
translatedefiniert das Ausmaß der Verschiebung, wobei die endgültige Anpassung zweimal (einmal für jede Achse) zufällig innerhalb des Bereichs-translatebistranslategewählt wird. Zum Beispiel wird beitranslate=0.5die Translation zufällig zwischen-0.5und0.5auf der x-Achse gewählt, und ein weiterer unabhängiger Zufallswert wird innerhalb desselben Bereichs für die y-Achse gewählt. - Zweck: Hilft Modellen dabei, teilweise sichtbare Objekte zu erkennen, und verbessert die Robustheit gegenüber der Objektposition. Zum Beispiel können in Anwendungen zur Bewertung von Fahrzeugschäden Autoteile je nach Position und Entfernung des Fotografen vollständig oder teilweise im Bild sein. Die Translations-Augmentation bringt dem Modell bei, diese Merkmale unabhängig von ihrer Vollständigkeit oder Position zu erkennen.
- Implementierung von Ultralytics: RandomPerspective
- Note: For simplicity, the translations applied below are the same each time for both
xandyaxes. Values-1.0and1.0are not shown as they would translate the image completely out of the frame.
-0.5 | -0.25 | 0.0 | 0.25 | 0.5 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionSkalierung (scale)#
- Bereich:
0.0-1.0 - Standard:
0.5 - Verwendung: Ändert die Bildgröße um einen zufälligen Faktor innerhalb des angegebenen Bereichs. Der Hyperparameter
scaledefiniert den Skalierungsfaktor, wobei die endgültige Anpassung zufällig zwischen1-scaleund1+scalegewählt wird. Zum Beispiel wird beiscale=0.5die Skalierung zufällig zwischen0.5und1.5gewählt. - Zweck: Ermöglicht Modellen den Umgang mit Objekten in unterschiedlichen Entfernungen und Größen. Zum Beispiel können in Anwendungen für autonomes Fahren Fahrzeuge in verschiedenen Entfernungen von der Kamera erscheinen, was erfordert, dass das Modell sie unabhängig von ihrer Größe erkennt.
- Implementierung von Ultralytics: RandomPerspective
- Hinweis:
- Der Wert
-1.0wird nicht angezeigt, da das Bild dadurch verschwinden würde, während1.0einfach zu einer 2-fachen Vergrößerung führt. - Die in der Tabelle unten angezeigten Werte sind diejenigen, die über den Hyperparameter
scaleangewendet werden, nicht der endgültige Skalierungsfaktor. - Wenn
scalegrößer als1.0ist, kann das Bild entweder sehr klein sein oder gespiegelt werden, da der Skalierungsfaktor zufällig zwischen1-scaleund1+scalegewählt wird. Zum Beispiel wird beiscale=3.0die Skalierung zufällig zwischen-2.0und4.0gewählt. Wenn ein negativer Wert gewählt wird, wird das Bild gespiegelt.
- Der Wert
-0.5 | -0.25 | 0.0 | 0.25 | 0.5 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionScherung (shear)#
- Bereich:
-180bis+180 - Standard:
0 - Verwendung: Führt eine geometrische Transformation ein, die das Bild entlang der x-Achse und y-Achse verzerrt, wobei Teile des Bildes in eine Richtung verschoben werden, während parallele Linien erhalten bleiben. Der Hyperparameter
sheardefiniert den Scherungswinkel, wobei die endgültige Anpassung zufällig zwischen-shearundsheargewählt wird. Zum Beispiel wird beishear=10.0die Scherung zufällig zwischen-10und10auf der x-Achse gewählt, und ein weiterer unabhängiger Zufallswert wird innerhalb desselben Bereichs für die y-Achse gewählt. - Zweck: Hilft Modellen dabei, auf Variationen von Blickwinkeln zu generalisieren, die durch leichte Neigungen oder schräge Perspektiven entstehen. Zum Beispiel können in der Verkehrsüberwachung Objekte wie Autos und Verkehrsschilder aufgrund von nicht senkrechten Kamerapositionen schräg erscheinen. Die Anwendung der Scherungs-Augmentation stellt sicher, dass das Modell lernt, Objekte trotz solcher verzerrten Perspektiven zu erkennen.
- Implementierung von Ultralytics: RandomPerspective
- Hinweis:
shear-Werte können das Bild schnell verzerren, daher wird empfohlen, mit kleinen Werten zu beginnen und diese schrittweise zu erhöhen.- Im Gegensatz zu perspektivischen Transformationen führt Scherung keine Tiefe oder Fluchtpunkte ein, sondern verzerrt die Form von Objekten durch Änderung ihrer Winkel, während gegenüberliegende Seiten parallel bleiben.
-10 | -5 | 0.0 | 5 | 10 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionPerspektive (perspective)#
- Bereich:
0.0-0.001 - Standard:
0 - Verwendung: Wendet eine vollständige Perspektivtransformation entlang der x- und y-Achse an, um zu simulieren, wie Objekte erscheinen, wenn sie aus verschiedenen Tiefen oder Blickwinkeln betrachtet werden. Der Hyperparameter
perspectivedefiniert das Ausmaß der Perspektive, wobei die endgültige Anpassung zufällig zwischen-perspectiveundperspectivegewählt wird. Zum Beispiel wird beiperspective=0.001die Perspektive zufällig innerhalb von-0.001bis0.001auf der x-Achse gewählt, und ein weiterer unabhängiger Zufallswert wird im gleichen Bereich für die y-Achse ausgewählt. - Zweck: Die Perspektiven-Augmentierung ist entscheidend für den Umgang mit extremen Blickwinkeländerungen, insbesondere in Szenarien, in denen Objekte aufgrund von Perspektivverschiebungen verkürzt oder verzerrt erscheinen. Beispielsweise können in der drohnengestützten Objekterkennung Gebäude, Straßen und Fahrzeuge je nach Neigung und Höhe der Drohne gestreckt oder gestaucht wirken. Durch die Anwendung von Perspektivtransformationen lernen Modelle, Objekte trotz dieser perspektivisch bedingten Verzerrungen zu erkennen, was ihre Robustheit bei realen Einsätzen verbessert.
- Implementierung von Ultralytics: RandomPerspective
-0.001 | -0.0005 | 0.0 | 0.0005 | 0.001 |
|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
Link to this sectionOben-Unten spiegeln (flipud)#
- Bereich:
0.0-1.0 - Standard:
0 - Usage: Performs a vertical flip by inverting the image along the y-axis. This transformation mirrors the entire image upside-down but preserves all spatial relationships between objects. The flipud hyperparameter defines the probability of applying the transformation, with a value of
flipud=1.0ensuring that all images are flipped and a value offlipud=0.0disabling the transformation entirely. For example, withflipud=0.5, each image has a 50% chance of being flipped upside-down. - Zweck: Nützlich für Szenarien, in denen Objekte auf dem Kopf stehen können. In robotischen Sichtsystemen können Objekte auf Förderbändern oder Greifarmen beispielsweise in verschiedenen Ausrichtungen aufgenommen und platziert werden. Vertikales Spiegeln hilft dem Modell, Objekte unabhängig von ihrer Ausrichtung von oben nach unten zu erkennen.
- Ultralytics' Implementierung: RandomFlip
flipud aus | flipud an |
|---|---|
![]() | ![]() |
Link to this sectionLinks-Rechts spiegeln (fliplr)#
- Bereich:
0.0-1.0 - Standard:
0.5 - Verwendung: Führt eine horizontale Spiegelung durch, indem das Bild entlang der x-Achse gespiegelt wird. Diese Transformation vertauscht die linke und rechte Seite unter Beibehaltung der räumlichen Konsistenz, was dem Modell hilft, Objekte in gespiegelten Ausrichtungen zu verallgemeinern. Der Hyperparameter
fliplrdefiniert die Wahrscheinlichkeit für die Anwendung der Transformation, wobeifliplr=1.0sicherstellt, dass alle Bilder gespiegelt werden, undfliplr=0.0die Transformation vollständig deaktiviert. Zum Beispiel hat jedes Bild beifliplr=0.5eine 50%ige Chance, von links nach rechts gespiegelt zu werden. - Zweck: Horizontales Spiegeln wird in der Objekterkennung, Pose-Schätzung und Gesichtserkennung weit verbreitet eingesetzt, um die Robustheit gegenüber Links-Rechts-Variationen zu verbessern. Im autonomen Fahren können Fahrzeuge und Fußgänger beispielsweise auf beiden Seiten der Straße erscheinen, und horizontales Spiegeln hilft dem Modell, sie in beiden Ausrichtungen gleichermaßen gut zu erkennen.
- Ultralytics' Implementierung: RandomFlip
fliplr aus | fliplr an |
|---|---|
![]() | ![]() |
Link to this sectionBGR-Kanal-Tausch (bgr)#
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Tauscht die Farbkanäle eines Bildes von RGB zu BGR, wodurch die Reihenfolge der Farbdarstellung geändert wird. Der Hyperparameter
bgrdefiniert die Wahrscheinlichkeit für die Anwendung der Transformation, wobeibgr=1.0sicherstellt, dass alle Bilder den Kanalaustausch durchlaufen, undbgr=0.0ihn deaktiviert. Zum Beispiel hat jedes Bild beibgr=0.5eine 50%ige Chance, von RGB zu BGR konvertiert zu werden. - Zweck: Erhöht die Robustheit gegenüber verschiedenen Farbkanal-Reihenfolgen. Dies ist nützlich beim Training von Modellen, die über verschiedene Kamerasysteme und Bildbibliotheken hinweg funktionieren müssen, in denen RGB- und BGR-Formate inkonsistent verwendet werden könnten, oder bei der Bereitstellung von Modellen in Umgebungen, in denen sich das Eingangsfarbformat von den Trainingsdaten unterscheiden kann.
- Ultralytics' Implementierung: Format
bgr aus | bgr an |
|---|---|
![]() | ![]() |
Link to this sectionMosaic (mosaic)#
- Bereich:
0.0-1.0 - Standard:
1 - Verwendung: Kombiniert vier Trainingsbilder zu einem. Der Hyperparameter
mosaicdefiniert die Wahrscheinlichkeit für die Anwendung der Transformation, wobeimosaic=1.0sicherstellt, dass alle Bilder kombiniert werden, undmosaic=0.0die Transformation deaktiviert. Zum Beispiel hat jedes Bild beimosaic=0.5eine 50%ige Chance, mit drei anderen Bildern kombiniert zu werden. - Zweck: Äußerst effektiv zur Verbesserung der Erkennung kleiner Objekte und des Kontextverständnisses. Bei Naturschutzprojekten, in denen Tiere in unterschiedlichen Entfernungen und Maßstäben erscheinen können, hilft die Mosaic-Augmentierung dem Modell beispielsweise, dieselbe Art über verschiedene Größen, Teilverdeckungen und Umweltkontexte hinweg zu erkennen, indem künstlich vielfältige Trainingsbeispiele aus begrenzten Daten erstellt werden.
- Ultralytics' Implementierung: Mosaic
- Hinweis:
- Auch wenn die
mosaic-Augmentierung das Modell robuster macht, kann sie den Trainingsprozess anspruchsvoller gestalten. - Die
mosaic-Augmentierung kann gegen Ende des Trainings deaktiviert werden, indemclose_mosaicauf die Anzahl der Epochen vor Abschluss gesetzt wird, nach denen sie abgeschaltet werden soll. Wennepochsbeispielsweise auf200undclose_mosaicauf20gesetzt ist, wird diemosaic-Augmentierung nach180Epochen deaktiviert. Wennclose_mosaicauf0gesetzt ist, bleibt diemosaic-Augmentierung während des gesamten Trainingsprozesses aktiviert. - Das Zentrum des generierten Mosaiks wird mithilfe von Zufallswerten bestimmt und kann entweder innerhalb oder außerhalb des Bildes liegen.
- Die aktuelle Implementierung der
mosaic-Augmentierung kombiniert 4 zufällig aus dem Datensatz ausgewählte Bilder. Wenn der Datensatz klein ist, kann dasselbe Bild mehrfach im selben Mosaik verwendet werden.
- Auch wenn die
mosaic aus | mosaic an |
|---|---|
![]() | ![]() |
Link to this sectionMixup (mixup)#
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Vermischt zwei Bilder und ihre Labels mit einer gegebenen Wahrscheinlichkeit. Der Hyperparameter
mixupdefiniert die Wahrscheinlichkeit für die Anwendung der Transformation, wobeimixup=1.0sicherstellt, dass alle Bilder gemischt werden, undmixup=0.0die Transformation deaktiviert. Zum Beispiel hat jedes Bild beimixup=0.5eine 50%ige Chance, mit einem anderen Bild gemischt zu werden. - Zweck: Verbessert die Robustheit des Modells und reduziert Overfitting. In Einzelhandel-Produkterkennungssystemen hilft Mixup dem Modell beispielsweise, robustere Merkmale zu lernen, indem Bilder verschiedener Produkte gemischt werden. Dies lehrt das Modell, Artikel auch dann zu identifizieren, wenn sie nur teilweise sichtbar sind oder durch andere Produkte in überfüllten Ladenregalen verdeckt werden.
- Ultralytics' Implementierung: Mixup
- Hinweis:
- Das
mixup-Verhältnis ist ein Zufallswert, der aus einernp.random.beta(32.0, 32.0)-Betaverteilung gezogen wird, was bedeutet, dass jedes Bild etwa 50% beiträgt, mit leichten Abweichungen.
- Das
Erstes Bild, mixup aus | Zweites Bild, mixup aus | mixup an |
|---|---|---|
![]() | ![]() | ![]() |
Link to this sectionCutMix (cutmix)#
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Schneidet einen rechteckigen Bereich aus einem Bild und fügt ihn mit einer gegebenen Wahrscheinlichkeit in ein anderes Bild ein. Der Hyperparameter
cutmixdefiniert die Wahrscheinlichkeit für die Anwendung der Transformation, wobeicutmix=1.0sicherstellt, dass alle Bilder diese Transformation durchlaufen, undcutmix=0.0sie vollständig deaktiviert. Zum Beispiel hat jedes Bild beicutmix=0.5eine 50%ige Chance, einen Bereich durch ein Stück aus einem anderen Bild ersetzt zu bekommen. - Zweck: Verbessert die Modellleistung durch die Schaffung realistischer Verdeckungsszenarien unter Beibehaltung der lokalen Merkmalsintegrität. In Systemen für autonomes Fahren hilft CutMix dem Modell beispielsweise, Fahrzeuge oder Fußgänger auch dann zu erkennen, wenn sie teilweise von anderen Objekten verdeckt sind, was die Erkennungsgenauigkeit in komplexen realen Umgebungen mit überlappenden Objekten verbessert.
- Ultralytics' Implementierung: CutMix
- Hinweis:
- Die Größe und Position des ausgeschnittenen Bereichs wird für jede Anwendung zufällig bestimmt.
- Im Gegensatz zu Mixup, das Pixelwerte global vermischt, behält
cutmixdie ursprünglichen Pixelintensitäten innerhalb der ausgeschnittenen Bereiche bei und bewahrt so lokale Merkmale. - Ein Bereich wird nur dann in das Zielbild eingefügt, wenn er sich nicht mit einer vorhandenen Bounding Box überschneidet. Außerdem werden nur die Bounding Boxen beibehalten, die mindestens
0.1(10%) ihrer ursprünglichen Fläche innerhalb des eingefügten Bereichs behalten. - Dieser Schwellenwert für die minimale Bounding-Box-Fläche kann in der aktuellen Implementierung nicht geändert werden und ist standardmäßig auf
0.1gesetzt.
Erstes Bild, cutmix aus | Zweites Bild, cutmix aus | cutmix an |
|---|---|---|
![]() | ![]() | ![]() |
Link to this sectionSegmentierungsspezifische Augmentierungen#
Link to this sectionCopy-Paste (copy_paste)#
- Bereich:
0.0-1.0 - Standard:
0 - Verwendung: Funktioniert nur bei Segmentierungsaufgaben. Diese Augmentierung kopiert Objekte innerhalb oder zwischen Bildern basierend auf einer festgelegten Wahrscheinlichkeit, die durch
copy_paste_modegesteuert wird. Der Hyperparametercopy_pastedefiniert die Wahrscheinlichkeit für die Anwendung der Transformation, wobeicopy_paste=1.0sicherstellt, dass alle Bilder kopiert werden, undcopy_paste=0.0die Transformation deaktiviert. Zum Beispiel hat jedes Bild beicopy_paste=0.5eine 50%ige Chance, dass Objekte aus einem anderen Bild kopiert werden. - Zweck: Besonders nützlich für Instanzsegmentierungsaufgaben und seltene Objektklassen. In der industriellen Fehlererkennung, bei der bestimmte Fehlerarten selten auftreten, kann die Copy-Paste-Augmentierung beispielsweise das Vorkommen dieser seltenen Defekte künstlich erhöhen, indem sie von einem Bild in ein anderes kopiert werden. Dies hilft dem Modell, diese unterrepräsentierten Fälle besser zu lernen, ohne dass zusätzliche fehlerhafte Proben erforderlich sind.
- Ultralytics' Implementierung: CopyPaste
- Hinweis:
- Wie im GIF unten dargestellt, kann die
copy_paste-Augmentierung verwendet werden, um Objekte von einem Bild in ein anderes zu kopieren. - Sobald ein Objekt kopiert wurde, wird unabhängig vom
copy_paste_modesein Schnitt-über-Fläche-Verhältnis (Intersection over Area, IoA) mit allen Objekten des Quellbildes berechnet. Wenn alle IoA-Werte unter0.3(30%) liegen, wird das Objekt in das Zielbild eingefügt. Wenn nur einer der IoA-Werte über0.3liegt, wird das Objekt nicht in das Zielbild eingefügt. - Der IoA-Schwellenwert kann in der aktuellen Implementierung nicht geändert werden und ist standardmäßig auf
0.3gesetzt.
- Wie im GIF unten dargestellt, kann die
copy_paste aus | copy_paste an mit copy_paste_mode=flip | Visualisierung des copy_paste-Prozesses |
|---|---|---|
![]() | ![]() | ![]() |
Link to this sectionCopy-Paste-Modus (copy_paste_mode)#
- Optionen:
'flip','mixup' - Standard:
'flip' - Verwendung: Bestimmt die Methode für die Copy-Paste-Augmentierung. Wenn auf
'flip'eingestellt, stammen die Objekte aus demselben Bild, während'mixup'das Kopieren von Objekten aus verschiedenen Bildern ermöglicht. - Zweck: Ermöglicht Flexibilität bei der Art und Weise, wie kopierte Objekte in Zielbilder integriert werden.
- Ultralytics' Implementierung: CopyPaste
- Hinweis:
- Das IoA-Prinzip ist für beide
copy_paste_modegleich, aber die Art und Weise, wie die Objekte kopiert werden, ist unterschiedlich. - Je nach Bildgröße können Objekte manchmal teilweise oder vollständig außerhalb des Rahmens kopiert werden.
- Abhängig von der Qualität der Polygon-Annotationen können kopierte Objekte leichte Formvariationen im Vergleich zu den Originalen aufweisen.
- Das IoA-Prinzip ist für beide
| Referenzbild | Ausgewähltes Bild für copy_paste | copy_paste an mit copy_paste_mode=mixup |
|---|---|---|
![]() | ![]() | ![]() |
Link to this sectionKlassifizierungsspezifische Augmentierungen#
Link to this sectionAuto Augment (auto_augment)#
- Optionen:
'randaugment','autoaugment','augmix',None - Standard:
'randaugment' - Verwendung: Wendet automatisierte Augmentierungsrichtlinien für die Klassifizierung an. Die Option
'randaugment'nutzt RandAugment,'autoaugment'verwendet AutoAugment und'augmix'nutzt AugMix. Die Einstellung aufNonedeaktiviert die automatisierte Augmentierung. - Zweck: Optimiert Augmentierungsstrategien automatisch für Klassifizierungsaufgaben. Die Unterschiede sind folgende:
- AutoAugment: Dieser Modus wendet vordefinierte Augmentierungsrichtlinien an, die von Datensätzen wie ImageNet, CIFAR10 und SVHN gelernt wurden. Benutzer können diese bestehenden Richtlinien auswählen, aber innerhalb von Torchvision keine neuen trainieren. Um optimale Augmentierungsstrategien für spezifische Datensätze zu finden, wären externe Bibliotheken oder benutzerdefinierte Implementierungen erforderlich. Verweis auf das AutoAugment-Paper.
- RandAugment: Wendet eine zufällige Auswahl von Transformationen mit einheitlicher Stärke an. Dieser Ansatz reduziert den Bedarf an einer umfangreichen Suchphase, was ihn recheneffizienter macht und gleichzeitig die Robustheit des Modells erhöht. Verweis auf das RandAugment-Paper.
- AugMix: AugMix ist eine Datenaugmentierungsmethode, die die Robustheit des Modells verbessert, indem sie durch zufällige Kombinationen einfacher Transformationen vielfältige Bildvariationen erzeugt. Verweis auf das AugMix-Paper.
- Ultralytics-Implementierung: classify_augmentations()
- Hinweis:
- Im Grunde liegt der Hauptunterschied zwischen den drei Methoden in der Art und Weise, wie die Augmentierungsrichtlinien definiert und angewendet werden.
- Du kannst auf diesen Artikel verweisen, der die drei Methoden im Detail vergleicht.
Link to this sectionZufälliges Löschen (erasing)#
- Bereich:
0.0-0.9 - Standard:
0.4 - Verwendung: Löscht während des Klassifizierungstrainings zufällig Bildbereiche. Der Hyperparameter
erasingdefiniert die Wahrscheinlichkeit der Anwendung dieser Transformation, wobeierasing=0.9sicherstellt, dass fast alle Bilder gelöscht werden, underasing=0.0die Transformation deaktiviert. Beispiel: Beierasing=0.5hat jedes Bild eine 50-prozentige Chance, dass ein Bereich gelöscht wird. - Zweck: Hilft Modellen dabei, robuste Merkmale zu erlernen und verhindert eine zu starke Abhängigkeit von bestimmten Bildbereichen. In Gesichtserkennungssystemen hilft das zufällige Löschen beispielsweise dabei, Modelle gegenüber teilweisen Verdeckungen wie Sonnenbrillen, Gesichtsmasken oder anderen Objekten, die Gesichtsmerkmale teilweise verdecken könnten, robuster zu machen. Dies verbessert die Leistung in der realen Welt, da das Modell gezwungen wird, Individuen anhand mehrerer Gesichtsmerkmale zu identifizieren, anstatt sich allein auf markante Merkmale zu verlassen, die möglicherweise verdeckt sind.
- Ultralytics-Implementierung: classify_augmentations()
- Hinweis:
- Die
erasing-Augmentierung besitzt die Hyperparameterscale,ratioundvalue, die mit der aktuellen Implementierung nicht geändert werden können. Ihre Standardwerte sind(0.02, 0.33),(0.3, 3.3)bzw.0, wie in der PyTorch-Dokumentation angegeben. - Die Obergrenze des
erasing-Hyperparameters ist auf0.9festgelegt, um zu vermeiden, dass die Transformation auf alle Bilder angewendet wird.
- Die
erasing aus | erasing an (Beispiel 1) | erasing an (Beispiel 2) | erasing an (Beispiel 3) |
|---|---|---|---|
![]() | ![]() | ![]() | ![]() |
Link to this sectionErweiterte Augmentierungsfunktionen#
Link to this sectionBenutzerdefinierte Albumentations-Transformationen (augmentations)#
- Typ:
listvon Albumentations-Transformationen - Standard:
None - Verwendung: Ermöglicht es dir, benutzerdefinierte Albumentations-Transformationen für die Datenaugmentierung über die Python API bereitzustellen. Dieser Parameter akzeptiert eine Liste von Albumentations-Transformations-Objekten, die anstelle der standardmäßigen Albumentations-Transformationen während des Trainings angewendet werden.
- Zweck: Bietet eine feinkörnige Kontrolle über Datenaugmentierungsstrategien durch Nutzung der umfangreichen Albumentations-Bibliothek. Dies ist besonders nützlich, wenn du spezielle Augmentierungen benötigst, die über die integrierten YOLO-Optionen hinausgehen, wie z. B. fortgeschrittene Farbanpassungen, Rauschinjektionen oder domänenspezifische Transformationen.
- Ultralytics-Implementierung: Albumentations
import albumentations as A
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt")
# Define custom Albumentations transforms
custom_transforms = [
A.Blur(blur_limit=7, p=0.5),
A.GaussNoise(var_limit=(10.0, 50.0), p=0.3),
A.CLAHE(clip_limit=4.0, p=0.5),
A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5),
A.HueSaturationValue(hue_shift_limit=20, sat_shift_limit=30, val_shift_limit=20, p=0.5),
]
# Train with custom Albumentations transforms
model.train(
data="coco8.yaml",
epochs=100,
augmentations=custom_transforms, # Pass custom transforms
imgsz=640,
)Wichtige Punkte:
- Nur Python API: Benutzerdefinierte Albumentations-Transformationen werden derzeit nur über die Python API unterstützt. Sie können nicht über CLI oder YAML-Konfigurationsdateien angegeben werden.
- Ersetzt Standardtransformationen: Wenn du benutzerdefinierte Transformationen über den Parameter
augmentationsbereitstellst, ersetzen diese vollständig die standardmäßigen Albumentations-Transformationen. Die standardmäßigen YOLO-Augmentierungen (wiemosaic,hsv_h,hsv_s,degreesetc.) bleiben aktiv und werden unabhängig davon angewendet. - Kompatibilität von Bounding Boxen: Sei vorsichtig bei der Verwendung räumlicher Transformationen (Transformationen, die die Geometrie des Bildes ändern). Ultralytics handhabt die Anpassungen der Bounding Boxen automatisch, aber einige komplexe Transformationen erfordern möglicherweise eine zusätzliche Konfiguration.
- Umfangreiche Bibliothek: Albumentations bietet über 70 verschiedene Transformationen an. Entdecke alle verfügbaren Optionen in der Albumentations-Dokumentation.
- Leistungsüberlegung: Das Hinzufügen von zu vielen Augmentierungen oder die Verwendung rechenintensiver Transformationen kann das Training verlangsamen. Beginne mit einer kleinen Auswahl und überwache die Trainingsgeschwindigkeit.
Häufige Anwendungsfälle:
- Medizinische Bildgebung: Wende spezialisierte Transformationen wie elastische Verformungen oder Gitterverzerrungen für die Augmentierung von Röntgen- oder MRT-Bildern an
- Luft-/Satellitenbilder: Verwende Transformationen, die für Ansichten aus der Vogelperspektive optimiert sind
- Lichtarme Bedingungen: Wende Rausch- und Helligkeitsanpassungen an, um schwierige Lichtverhältnisse zu simulieren
- Industrielle Inspektion: Füge fehlerähnliche Muster oder Texturvariationen für Qualitätskontrollanwendungen hinzu
Kompatibilitätshinweise:
- Erfordert Albumentations Version 1.0.3 oder höher
- Kompatibel mit allen YOLO-Erkennungs- und Segmentierungsaufgaben
- Nicht anwendbar für Klassifizierungsaufgaben (Klassifizierung verwendet eine andere Augmentierungspipeline)
Weitere Informationen zu Albumentations und verfügbaren Transformationen findest du in der offiziellen Albumentations-Dokumentation.
Link to this sectionFAQ#
Link to this sectionEs gibt zu viele Augmentierungen zur Auswahl. Woher weiß ich, welche ich verwenden soll?#
Die Wahl der richtigen Augmentierungen hängt von deinem spezifischen Anwendungsfall und Datensatz ab. Hier sind ein paar allgemeine Richtlinien, die dir bei der Entscheidung helfen können:
- In den meisten Fällen sind leichte Variationen in Farbe und Helligkeit vorteilhaft. Die Standardwerte für
hsv_h,hsv_sundhsv_vsind ein solider Ausgangspunkt. - Wenn der Blickwinkel der Kamera konsistent ist und sich nach der Bereitstellung des Modells nicht ändert, kannst du geometrische Transformationen wie
rotation,translation,scale,shearoderperspectivewahrscheinlich weglassen. Wenn der Kamerawinkel jedoch variieren kann und du möchtest, dass das Modell robuster ist, ist es besser, diese Augmentierungen beizubehalten. - Verwende die
mosaic-Augmentierung nur, wenn teilweise verdeckte Objekte oder mehrere Objekte pro Bild akzeptabel sind und den Label-Wert nicht ändern. Alternativ kannst dumosaicaktiv lassen, aber den Wert fürclose_mosaicerhöhen, um sie früher im Trainingsprozess zu deaktivieren.
Kurz gesagt: Halte es einfach. Beginne mit einer kleinen Menge an Augmentierungen und füge bei Bedarf nach und nach weitere hinzu. Das Ziel ist es, die Generalisierung und Robustheit des Modells zu verbessern, nicht den Trainingsprozess unnötig zu komplizieren. Stelle zudem sicher, dass die von dir angewendeten Augmentierungen dieselbe Datenverteilung widerspiegeln, auf die dein Modell in der Produktion treffen wird.
Link to this sectionWenn ich ein Training starte, sehe ich einen Hinweis auf albumentations: Blur[...]. Bedeutet das, dass Ultralytics YOLO zusätzliche Augmentierungen wie Weichzeichnen durchführt?#
Wenn das Paket albumentations installiert ist, wendet Ultralytics automatisch eine Reihe zusätzlicher Bildaugmentierungen damit an. Diese Augmentierungen werden intern gehandhabt und erfordern keine zusätzliche Konfiguration.
Die vollständige Liste der angewendeten Transformationen findest du in unserer technischen Dokumentation sowie in unserem Albumentations-Integrationsleitfaden. Beachte, dass nur Augmentierungen mit einer Wahrscheinlichkeit p größer als 0 aktiv sind. Diese werden gezielt mit geringer Häufigkeit angewendet, um visuelle Artefakte aus der realen Welt nachzuahmen, wie z. B. Weichzeichner oder Graustufeneffekte.
Du kannst auch deine eigenen benutzerdefinierten Albumentations-Transformationen über die Python API bereitstellen. Siehe dazu den Abschnitt Erweiterte Augmentierungsfunktionen für weitere Details.
Link to this sectionWenn ich ein Training starte, sehe ich keinen Hinweis auf Albumentations. Warum?#
Überprüfe, ob das Paket albumentations installiert ist. Falls nicht, kannst du es mit pip install albumentations installieren. Sobald es installiert ist, sollte das Paket automatisch von Ultralytics erkannt und verwendet werden.
Link to this sectionWie kann ich meine Augmentierungen anpassen?#
Du kannst Augmentierungen anpassen, indem du eine benutzerdefinierte Dataset-Klasse und einen Trainer erstellst. Du kannst beispielsweise die standardmäßigen Ultralytics-Klassifizierungsaugmentierungen durch torchvision.transforms.Resize von PyTorch oder andere Transformationen ersetzen. Siehe das Beispiel für benutzerdefiniertes Training in der Klassifizierungsdokumentation für Details zur Implementierung.
















































