Migliora il tuo dataset per addestrare YOLO26 utilizzando Albumentations

Q: What types of computer vision tasks can benefit from Albumentations augmentation?

Albumentations migliora varie attività di computer vision, tra cui: Le diverse opzioni di aumento della libreria la rendono preziosa per qualsiasi attività di visione che richieda prestazioni robuste del modello.

Quando si costruiscono modelli di visione artificiale, la qualità e la varietà dei dati di addestramento possono influenzare notevolmente le prestazioni del modello. Albumentations offre un modo rapido, flessibile ed efficiente per applicare un'ampia gamma di trasformazioni di immagini che possono migliorare la capacità del modello di adattarsi a scenari del mondo reale. Si integra facilmente con Ultralytics YOLO26 e può aiutarti a creare dataset robusti per attività di rilevamento di oggetti, segmentazione e classificazione.

Utilizzando Albumentations, puoi potenziare i tuoi dati di addestramento YOLO26 con tecniche come trasformazioni geometriche e regolazioni del colore. In questo articolo, vedremo come Albumentations può migliorare il tuo processo di data augmentation e rendere i tuoi progetti YOLO26 ancora più efficaci. Iniziamo!

Albumentations per l'aumento dei dati delle immagini

Albumentations è una libreria open source per l'aumento dei dati delle immagini creata nel giugno 2018. È progettata per semplificare e accelerare il processo di aumento dei dati delle immagini nella computer vision. Creata pensando alle prestazioni e alla flessibilità, supporta molte diverse tecniche di aumento dei dati, che vanno da semplici trasformazioni come rotazioni e capovolgimenti a regolazioni più complesse come modifiche di luminosità e contrasto. Albumentations aiuta gli sviluppatori a generare set di dati ricchi e vari per attività come la classificazione delle immagini, l'object detection e la segmentazione.

Puoi utilizzare Albumentations per applicare facilmente aumenti ai dati delle immagini, maschere di segmentazione, bounding box e punti chiave, e assicurarti che tutti gli elementi del tuo set di dati vengano trasformati insieme. Funziona perfettamente con framework di deep learning popolari come PyTorch e TensorFlow, rendendolo accessibile per un'ampia gamma di progetti.

Inoltre, Albumentations è un'ottima opzione per l'aumento dei dati, sia che tu stia gestendo piccoli set di dati sia attività di computer vision su larga scala. Garantisce un'elaborazione rapida ed efficiente, riducendo i tempi dedicati alla preparazione dei dati. Allo stesso tempo, aiuta a migliorare le prestazioni del modello, rendendo i tuoi modelli più efficaci nelle applicazioni del mondo reale.

Caratteristiche principali di Albumentations

Albumentations offre molte funzionalità utili che semplificano aumenti complessi dei dati delle immagini per un'ampia gamma di applicazioni di computer vision. Ecco alcune delle caratteristiche principali:

Ampia gamma di trasformazioni: Albumentations offre oltre 70 diverse trasformazioni, tra cui modifiche geometriche (ad esempio, rotazione, capovolgimento), regolazioni del colore (ad esempio, luminosità, contrasto) e aggiunta di rumore (ad esempio, rumore gaussiano). Avere più opzioni consente la creazione di set di dati di addestramento altamente diversificati e robusti.

Esempi di aumento delle albumentazioni

Ottimizzazione ad alte prestazioni: Basato su OpenCV e NumPy, Albumentations utilizza tecniche di ottimizzazione avanzate come SIMD (Single Instruction, Multiple Data), che elabora più punti dati contemporaneamente per accelerare l'elaborazione. Gestisce rapidamente grandi set di dati, rendendolo una delle opzioni più veloci disponibili per l'aumento delle immagini.
Tre livelli di aumento dati: Albumentations supporta tre livelli di aumento dati: trasformazioni a livello di pixel, trasformazioni a livello spaziale e trasformazioni a livello di mixing. Le trasformazioni a livello di pixel influiscono solo sulle immagini di input senza alterare maschere, bounding box o punti chiave. Nel frattempo, sia l'immagine che i suoi elementi, come maschere e bounding box, vengono trasformati utilizzando trasformazioni a livello spaziale. Inoltre, le trasformazioni a livello di mixing sono un modo unico per aumentare i dati poiché combinano più immagini in una sola.

Panoramica dei diversi livelli di aumentazioni

Risultati di benchmarking: Per quanto riguarda il benchmarking, Albumentations supera costantemente altre librerie, soprattutto con set di dati di grandi dimensioni.

Perché dovresti usare Albumentations per i tuoi progetti di Vision AI?

Per quanto riguarda l'aumento dei dati delle immagini, Albumentations si distingue come uno strumento affidabile per le attività di computer vision. Ecco alcuni motivi principali per cui dovresti considerare di utilizzarlo per i tuoi progetti di Vision AI:

API di facile utilizzo: Albumentations fornisce una singola API semplice per applicare un'ampia gamma di aumentazioni a immagini, maschere, bounding box e keypoint. È progettata per adattarsi facilmente a diversi set di dati, rendendo la preparazione dei dati più semplice ed efficiente.
Test rigorosi dei bug: I bug nella pipeline di aumento possono corrompere silenziosamente i dati di input, spesso passando inosservati ma alla fine degradando le prestazioni del modello. Albumentations affronta questo problema con una suite di test approfondita che aiuta a individuare i bug nelle prime fasi dello sviluppo.
Estensibilità: Albumentations può essere utilizzato per aggiungere facilmente nuove aumentazioni e utilizzarle nelle pipeline di computer vision attraverso un'unica interfaccia insieme alle trasformazioni integrate.

Come utilizzare Albumentations per aumentare i dati per l'addestramento di YOLO26

Ora che abbiamo trattato cos'è Albumentations e cosa può fare, vediamo come usarlo per aumentare i tuoi dati per l'addestramento del modello YOLO26. È facile da configurare perché si integra direttamente nella modalità di addestramento di Ultralytics e si applica automaticamente se hai il pacchetto Albumentations installato.

Installazione

Per utilizzare Albumentations con YOLO26, inizia assicurandoti di avere i pacchetti necessari installati. Se Albumentations non è installato, gli aumenti non verranno applicati durante l'addestramento. Una volta configurato, sarai pronto a creare un dataset aumentato per l'addestramento, con Albumentations integrato per migliorare automaticamente il tuo modello.

Installazione

CLI

# Install the required packages
pip install albumentations ultralytics

Per istruzioni dettagliate e best practice relative al processo di installazione, consulta la nostra guida all'installazione di Ultralytics. Durante l'installazione dei pacchetti richiesti per YOLO26, se riscontri difficoltà, consulta la nostra guida ai problemi comuni per soluzioni e suggerimenti.

Utilizzo

Dopo aver installato i pacchetti necessari, sei pronto per iniziare a utilizzare Albumentations con YOLO26. Quando addestri YOLO26, un set di aumenti viene applicato automaticamente tramite la sua integrazione con Albumentations, rendendo facile migliorare le prestazioni del tuo modello.

Utilizzo

PythonTrasformazioni Personalizzate (solo API python)

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolo26n.pt")

# Train the model with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

import albumentations as A

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolo26n.pt")

# Define custom Albumentations transforms
custom_transforms = [
    A.Blur(blur_limit=7, p=0.5),
    A.GaussNoise(var_limit=(10.0, 50.0), p=0.3),
    A.CLAHE(clip_limit=4.0, p=0.5),
    A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5),
]

# Train the model with custom Albumentations transforms
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    augmentations=custom_transforms,  # Pass custom transforms
)

Successivamente, diamo un'occhiata più da vicino agli aumenti specifici che vengono applicati durante l'addestramento.

Sfocatura

La trasformazione Blur in Albumentations applica un semplice effetto di sfocatura all'immagine calcolando la media dei valori dei pixel all'interno di una piccola area quadrata, o kernel. Questo viene fatto usando OpenCV. cv2.blur function, che aiuta a ridurre il rumore nell'immagine, anche se riduce leggermente anche i dettagli dell'immagine.

Ecco i parametri e i valori utilizzati in questa integrazione:

blur_limit: Questo controlla l'intervallo di dimensione dell'effetto sfocatura. L'intervallo predefinito è (3, 7), il che significa che la dimensione del kernel per la sfocatura può variare tra 3 e 7 pixel, con solo numeri dispari consentiti per mantenere la sfocatura centrata.
p: La probabilità di applicare la sfocatura. Nell'integrazione, p=0.01, quindi c'è una probabilità dell'1% che questa sfocatura venga applicata a ciascuna immagine. La bassa probabilità consente effetti di sfocatura occasionali, introducendo un po' di variazione per aiutare il modello a generalizzare senza sfocare eccessivamente le immagini.

Albumentations Risultato dell'aumento della sfocatura

Sfocatura mediana

La trasformazione MedianBlur in Albumentations applica un effetto di sfocatura mediana all'immagine, che è particolarmente utile per ridurre il rumore preservando i bordi. A differenza dei tipici metodi di sfocatura, MedianBlur utilizza un filtro mediano, che è particolarmente efficace nella rimozione del rumore a sale e pepe mantenendo la nitidezza attorno ai bordi.

Ecco i parametri e i valori utilizzati in questa integrazione:

blur_limit: Questo parametro controlla la dimensione massima del kernel di sfocatura. In questa integrazione, il valore predefinito è un intervallo di (3, 7), il che significa che la dimensione del kernel per la sfocatura viene scelta casualmente tra 3 e 7 pixel, con solo valori dispari consentiti per garantire un corretto allineamento.
p: Imposta la probabilità di applicare la sfocatura mediana. Qui, p=0.01, quindi la trasformazione ha una probabilità dell'1% di essere applicata a ciascuna immagine. Questa bassa probabilità garantisce che la sfocatura mediana venga utilizzata con parsimonia, aiutando il modello a generalizzare vedendo occasionalmente immagini con rumore ridotto e bordi preservati.

L'immagine qui sotto mostra un esempio di questa aumentazione applicata a un'immagine.

Albumentations Aumento della sfocatura mediana

Scala di grigi

La trasformazione ToGray in Albumentations converte un'immagine in scala di grigi, riducendola a un formato a canale singolo e, facoltativamente, replicando questo canale per corrispondere a un numero specificato di canali di output. È possibile utilizzare diversi metodi per regolare il modo in cui viene calcolata la luminosità in scala di grigi, che vanno dalla semplice media a tecniche più avanzate per una percezione realistica del contrasto e della luminosità.

Ecco i parametri e i valori utilizzati in questa integrazione:

num_output_channels: Imposta il numero di canali nell'immagine di output. Se questo valore è maggiore di 1, il singolo canale in scala di grigi verrà replicato per creare un'immagine multicanale in scala di grigi. Per impostazione predefinita, è impostato su 3, fornendo un'immagine in scala di grigi con tre canali identici.
method: Definisce il metodo di conversione in scala di grigi. Il metodo predefinito, "weighted_average", applica una formula (0.299R + 0.587G + 0.114B) che si allinea strettamente alla percezione umana, fornendo un effetto di scala di grigi dall'aspetto naturale. Altre opzioni, come "from_lab", "desaturation", "average", "max" e "pca", offrono modi alternativi per creare immagini in scala di grigi in base alle varie esigenze di velocità, enfasi della luminosità o conservazione dei dettagli.
p: Controlla la frequenza con cui viene applicata la trasformazione in scala di grigi. Con p=0.01, c'è una probabilità dell'1% di convertire ogni immagine in scala di grigi, rendendo possibile un mix di immagini a colori e in scala di grigi per aiutare il modello a generalizzare meglio.

L'immagine qui sotto mostra un esempio di questa trasformazione in scala di grigi applicata.

Conversione in scala di grigi Albumentations

Equalizzazione adattiva dell'istogramma con limite di contrasto (CLAHE)

La trasformazione CLAHE in Albumentations applica la equalizzazione adattiva dell'istogramma limitata al contrasto (CLAHE), una tecnica che migliora il contrasto dell'immagine equalizzando l'istogramma in regioni localizzate (tile) anziché sull'intera immagine. CLAHE produce un effetto di miglioramento bilanciato, evitando il contrasto eccessivamente amplificato che può derivare dalla equalizzazione standard dell'istogramma, specialmente in aree con contrasto inizialmente basso.

Ecco i parametri e i valori utilizzati in questa integrazione:

clip_limit: Controlla l'intervallo di miglioramento del contrasto. Impostato su un intervallo predefinito di (1, 4), determina il contrasto massimo consentito in ogni tile. Valori più alti vengono utilizzati per un maggiore contrasto, ma possono anche introdurre rumore.
tile_grid_size: Definisce la dimensione della griglia di riquadri, tipicamente come (righe, colonne). Il valore predefinito è (8, 8), il che significa che l'immagine è divisa in una griglia 8x8. Dimensioni dei riquadri più piccole forniscono regolazioni più localizzate, mentre quelle più grandi creano effetti più vicini all'equalizzazione globale.
p: La probabilità di applicare CLAHE. Qui, p=0.01 introduce l'effetto di miglioramento solo l'1% delle volte, garantendo che le regolazioni del contrasto vengano applicate con parsimonia per una variazione occasionale nelle immagini di addestramento.

L'immagine qui sotto mostra un esempio della trasformazione CLAHE applicata.

Albumentations CLAHE miglioramento del contrasto

Utilizzo di trasformazioni personalizzate Albumentations

Mentre l'integrazione predefinita di Albumentations fornisce un solido set di aumenti, potresti voler personalizzare le trasformazioni per il tuo caso d'uso specifico. Con Ultralytics YOLO26, puoi facilmente passare trasformazioni Albumentations personalizzate tramite l'API python utilizzando il augmentations parametro.

Come definire trasformazioni personalizzate

Puoi definire il tuo elenco di trasformazioni Albumentations e passarle alla funzione di training. Questo sostituisce le trasformazioni Albumentations predefinite mantenendo tutte le altre aumentazioni YOLO (come hsv_h, degrees, mosaic, ecc.) attivo.

Ecco un esempio con trasformazioni più avanzate:

import albumentations as A

from ultralytics import YOLO

# Load model
model = YOLO("yolo26n.pt")

# Define custom transforms with various augmentation techniques
custom_transforms = [
    # Blur variations
    A.OneOf(
        [
            A.MotionBlur(blur_limit=7, p=1.0),
            A.MedianBlur(blur_limit=7, p=1.0),
            A.GaussianBlur(blur_limit=7, p=1.0),
        ],
        p=0.3,
    ),
    # Noise variations
    A.OneOf(
        [
            A.GaussNoise(var_limit=(10.0, 50.0), p=1.0),
            A.ISONoise(color_shift=(0.01, 0.05), intensity=(0.1, 0.5), p=1.0),
        ],
        p=0.2,
    ),
    # Color and contrast adjustments
    A.CLAHE(clip_limit=4.0, tile_grid_size=(8, 8), p=0.5),
    A.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3, p=0.5),
    A.HueSaturationValue(hue_shift_limit=20, sat_shift_limit=30, val_shift_limit=20, p=0.5),
    # Simulate occlusions
    A.CoarseDropout(
        max_holes=8, max_height=32, max_width=32, min_holes=1, min_height=8, min_width=8, fill_value=0, p=0.2
    ),
]

# Train with custom transforms
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    augmentations=custom_transforms,
)

Considerazioni importanti

Quando si utilizzano trasformazioni Albumentations personalizzate, tenere a mente questi punti:

Solo API Python: Le trasformazioni personalizzate possono essere passate solo tramite l'API Python, non tramite CLI o file di configurazione YAML.
Sostituisce le impostazioni predefinite: Le tue trasformazioni personalizzate sostituiranno completamente le trasformazioni Albumentations predefinite. Altre aumentazioni YOLO rimangono attive.
Gestione dei bounding box: Ultralytics gestisce automaticamente le regolazioni dei bounding box per la maggior parte delle trasformazioni, ma le trasformazioni spaziali complesse potrebbero richiedere test aggiuntivi.
Prestazioni: Alcune trasformazioni sono computazionalmente costose. Monitora la velocità di addestramento e adatta di conseguenza.
Compatibilità delle Attività: Le trasformazioni personalizzate di Albumentations funzionano con le attività di detection e segmentation, ma non con la classificazione (che utilizza una pipeline di aumento diversa).

Casi d'uso per trasformazioni personalizzate

Applicazioni diverse traggono vantaggio da diverse strategie di augmentation:

Imaging medicale: Utilizza deformazioni elastiche, distorsioni della griglia e pattern di rumore specializzati
Immagini aeree/satellitari: Applica trasformazioni che simulano diverse altitudini, condizioni meteorologiche e angoli di illuminazione
Scenari di scarsa illuminazione: Enfatizza l'aggiunta di rumore e le regolazioni di luminosità per addestrare modelli robusti per condizioni di illuminazione difficili
Ispezione industriale: Aggiungi variazioni di texture e difetti simulati per applicazioni di controllo qualità

Per un elenco completo delle trasformazioni disponibili e dei relativi parametri, visita la documentazione di Albumentations.

Per esempi più dettagliati e best practice sull'utilizzo di trasformazioni Albumentations personalizzate con YOLO26, consulta la guida alla Data Augmentation di YOLO.

Continua a imparare su Albumentations

Se sei interessato a saperne di più su Albumentations, consulta le seguenti risorse per istruzioni ed esempi più approfonditi:

Documentazione di Albumentations: La documentazione ufficiale fornisce una gamma completa di trasformazioni supportate e tecniche di utilizzo avanzate.
Guida di Ultralytics su Albumentations: Dai un'occhiata più da vicino ai dettagli della funzione che facilita questa integrazione.
Repository GitHub di Albumentations: Il repository include esempi, benchmark e discussioni per aiutarti a iniziare a personalizzare le aumentazioni.

Punti chiave

In questa guida, abbiamo esplorato gli aspetti chiave di Albumentations, un'ottima libreria python per l'aumento delle immagini. Abbiamo discusso la sua vasta gamma di trasformazioni, le prestazioni ottimizzate e come puoi usarla nel tuo prossimo progetto YOLO26.

Inoltre, se desideri saperne di più su altre integrazioni Ultralytics YOLO26, visita la nostra pagina della guida all'integrazione. Lì troverai risorse e approfondimenti preziosi.

FAQ

Come posso integrare Albumentations con YOLO26 per un aumento dei dati migliorato?

Albumentations si integra perfettamente con YOLO26 e si applica automaticamente durante l'addestramento se il pacchetto è installato. Ecco come iniziare:

# Install required packages
# !pip install albumentations ultralytics
from ultralytics import YOLO

# Load and train model with automatic augmentations
model = YOLO("yolo26n.pt")
model.train(data="coco8.yaml", epochs=100)

L'integrazione include aumenti ottimizzati come sfocatura, sfocatura mediana, conversione in scala di grigi e CLAHE con probabilità accuratamente regolate per migliorare le prestazioni del modello.

Quali sono i principali vantaggi dell'utilizzo di Albumentations rispetto ad altre librerie di aumento dei dati?

Albumentations si distingue per diversi motivi:

Performance: basato su OpenCV e NumPy con ottimizzazione SIMD per una velocità superiore
Flessibilità: Supporta oltre 70 trasformazioni tra aumenti a livello di pixel, a livello spaziale e a livello di mixing
Compatibilità: Funziona perfettamente con framework popolari come PyTorch e TensorFlow
Affidabilità: Un'ampia suite di test previene il danneggiamento silenzioso dei dati
Facilità d'uso: API unificata singola per tutti i tipi di aumento

Quali tipi di attività di computer vision possono trarre vantaggio dall'aumento dei dati tramite Albumentations?

Albumentations migliora varie attività di visione artificiale tra cui:

Rilevamento di oggetti: Migliora la robustezza del modello alle variazioni di illuminazione, scala e orientamento
Segmentazione di istanze: Migliora l'accuratezza della previsione della maschera attraverso diverse trasformazioni
Classificazione: Aumenta la generalizzazione del modello con aumenti geometrici e di colore
Stima della posa: Aiuta i modelli ad adattarsi a diversi punti di vista e condizioni di illuminazione

Le diverse opzioni di aumento della libreria la rendono preziosa per qualsiasi attività di visione che richieda prestazioni robuste del modello.

📅 Creato 1 anno fa ✏️ Aggiornato 3 mesi fa

Migliora il tuo dataset per addestrare YOLO26 utilizzando Albumentations

Albumentations per l'aumento dei dati delle immagini

Caratteristiche principali di Albumentations

Perché dovresti usare Albumentations per i tuoi progetti di Vision AI?

Come utilizzare Albumentations per aumentare i dati per l'addestramento di YOLO26

Installazione

Utilizzo

Sfocatura

Sfocatura mediana

Scala di grigi

Equalizzazione adattiva dell'istogramma con limite di contrasto (CLAHE)

Utilizzo di trasformazioni personalizzate Albumentations

Come definire trasformazioni personalizzate

Considerazioni importanti

Casi d'uso per trasformazioni personalizzate

Continua a imparare su Albumentations

Punti chiave

FAQ

Come posso integrare Albumentations con YOLO26 per un aumento dei dati migliorato?

Quali sono i principali vantaggi dell'utilizzo di Albumentations rispetto ad altre librerie di aumento dei dati?

Quali tipi di attività di computer vision possono trarre vantaggio dall'aumento dei dati tramite Albumentations?

Commenti