Esecuzione di predizioni con Ultralytics YOLO

Ultralytics YOLO ecosystem and integrations

Introduzione

Nel mondo del machine learning e della computer vision, il processo di interpretazione dei dati visivi è spesso chiamato inferenza o predizione. Ultralytics YOLO26 offre una potente funzionalità nota come predict mode, progettata per un'inferenza ad alte prestazioni e in tempo reale su una vasta gamma di origini dati.



Watch: How to Extract Results from Ultralytics YOLO26 Tasks for Custom Projects 🚀

Applicazioni nel mondo reale

ProduzioneSportSicurezza
Rilevamento pezzi di ricambio veicoliRilevamento giocatori di calcioRilevamento cadute persone
Rilevamento pezzi di ricambio veicoliRilevamento giocatori di calcioRilevamento cadute persone

Perché utilizzare Ultralytics YOLO per l'inferenza?

Ecco perché dovresti considerare la predict mode di YOLO26 per le tue varie esigenze di inferenza:

  • Versatilità: In grado di eseguire l'inferenza su immagini, video e persino live stream.
  • Prestazioni: Progettato per un'elaborazione ad alta velocità e in tempo reale senza sacrificare l'accuracy.
  • Facilità d'uso: Interfacce Python e CLI intuitive per una distribuzione e un test rapidi.
  • Altamente personalizzabile: Varie impostazioni e parametri per regolare il comportamento di inferenza del modello in base ai tuoi requisiti specifici.
  • Pronto per la produzione: Distribuisci i modelli come endpoint API su Ultralytics Platform con auto-scaling e monitoraggio, oppure esegui l'inferenza localmente.

Caratteristiche principali della predict mode

La predict mode di YOLO26 è progettata per essere robusta e versatile, con le seguenti caratteristiche:

  • Compatibilità con molteplici origini dati: Che i tuoi dati siano sotto forma di singole immagini, una raccolta di immagini, file video o streaming video in tempo reale, la predict mode ti copre.
  • Modalità streaming: Usa la funzionalità di streaming per generare un generatore di oggetti Results efficiente in termini di memoria. Abilitala impostando stream=True nel metodo di chiamata del predittore.
  • Elaborazione batch: Elabora più immagini o fotogrammi video in un unico batch, riducendo ulteriormente il tempo totale di inferenza.
  • Facile integrazione: Integrazione semplice con pipeline di dati esistenti e altri componenti software, grazie alla sua API flessibile.

I modelli Ultralytics YOLO restituiscono una lista Python di oggetti Results o un generatore di oggetti Results efficiente in termini di memoria quando stream=True viene passato al modello durante l'inferenza:

Predict
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # pretrained YOLO26n model

# Run batched inference on a list of images
results = model(["image1.jpg", "image2.jpg"])  # return a list of Results objects

# Process results list
for result in results:
    boxes = result.boxes  # Boxes object for bounding box outputs
    masks = result.masks  # Masks object for segmentation masks outputs
    keypoints = result.keypoints  # Keypoints object for pose outputs
    probs = result.probs  # Probs object for classification outputs
    obb = result.obb  # Oriented boxes object for OBB outputs
    result.show()  # display to screen
    result.save(filename="result.jpg")  # save to disk

Origini di inferenza

YOLO26 può elaborare diversi tipi di origini di input per l'inferenza, come mostrato nella tabella seguente. Le origini includono immagini statiche, flussi video e vari formati di dati. La tabella indica anche se ogni origine può essere utilizzata in modalità streaming con l'argomento stream=True ✅. La modalità streaming è vantaggiosa per l'elaborazione di video o flussi live poiché crea un generatore di risultati invece di caricare tutti i fotogrammi in memoria.

Suggerimento

Usa stream=True per elaborare video lunghi o grandi dataset per gestire in modo efficiente la memoria. Quando stream=False, i risultati per tutti i fotogrammi o i punti dati vengono memorizzati in RAM, il che può accumularsi rapidamente e causare errori di esaurimento della memoria per input di grandi dimensioni. Al contrario, stream=True utilizza un generatore, che mantiene in memoria solo i risultati del fotogramma o del punto dati corrente, riducendo significativamente il consumo di memoria e prevenendo problemi di esaurimento della stessa.

OrigineEsempioTipoNote
immagine'image.jpg'str o PathSingolo file immagine.
URL'https://ultralytics.com/images/bus.jpg'strURL verso un'immagine.
screenshot'screen'strAcquisisci uno screenshot.
PILImage.open('image.jpg')PIL.ImageFormato HWC con canali RGB.
OpenCVcv2.imread('image.jpg')np.ndarrayFormato HWC con canali BGR uint8 (0-255).
NumPynp.zeros((640,1280,3))np.ndarrayFormato HWC con canali BGR uint8 (0-255).
torchtorch.zeros(16,3,320,640)torch.TensorFormato BCHW con canali RGB float32 (0.0-1.0).
CSV'sources.csv'str o PathFile CSV contenente percorsi verso immagini, video o directory.
video ✅'video.mp4'str o PathFile video in formati come MP4, AVI, ecc.
directory ✅'path/'str o PathPercorso verso una directory contenente immagini o video.
glob ✅'path/*.jpg'strPattern glob per corrispondere a più file. Usa il carattere * come jolly.
YouTube ✅'https://youtu.be/LNwODJXcvt4'strURL verso un video YouTube.
stream ✅'rtsp://example.com/media.mp4'strURL per protocolli di streaming come RTSP, RTMP, TCP o un indirizzo IP.
multi-stream ✅'list.streams'str o PathFile di testo *.streams con un URL di streaming per riga; es. 8 stream verranno eseguiti con batch-size 8.
webcam ✅0intIndice del dispositivo fotocamera collegato su cui eseguire l'inferenza.

Di seguito sono riportati esempi di codice per l'utilizzo di ciascun tipo di origine:

Origini di predizione

Esegui l'inferenza su un file immagine.

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Define path to the image file
source = "path/to/image.jpg"

# Run inference on the source
results = model(source)  # list of Results objects

Argomenti di inferenza

model.predict() accetta molteplici argomenti che possono essere passati al momento dell'inferenza per sovrascrivere le impostazioni predefinite:

Forma fissa vs rettangolo minimo (rect)

Per impostazione predefinita, predict utilizza rect=True, che abilita il padding a rettangolo minimo quando possibile. L'immagine viene scalata per adattarsi all'interno di imgsz e riempita solo fino al multiplo di stride più vicino, quindi il tensore finale potrebbe essere più piccolo di imgsz. Il padding a rettangolo minimo viene utilizzato solo quando tutte le immagini nel batch hanno la stessa forma e il backend lo supporta (PyTorch .pt, o ONNX dinamico / Triton). Altrimenti, le immagini vengono riempite fino al target completo imgsz.

Usa rect=False per riempire sempre fino al target completo imgsz. Questo è consigliato quando hai bisogno di una dimensione di input fissa per corrispondere ai modelli esportati (ONNX, TensorRT, ecc.).

Intero vs tupla imgsz

  • Un imgsz=640 intero diventa un target quadrato (640, 640) dopo l'arrotondamento dello stride.
  • Una tupla imgsz=(384, 672) imposta un target rettangolare. Con rect=True e auto=True, il tensore effettivo può essere più piccolo di questo target.

Addestramento vs predict/export

Training accepts only a single integer imgsz (a [h, w] list is coerced to the largest value). Predict and export accept either an integer or a (height, width) tuple.

Esempio
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on 'bus.jpg' with arguments
model.predict("https://ultralytics.com/images/bus.jpg", save=True, imgsz=320, conf=0.25)

Argomenti di inferenza:

ArgomentoTipoPredefinitoDescrizione
sourcestr o int o NoneNoneSpecifica la sorgente dati per l'inferenza. Può essere un percorso immagine, un file video, una directory, un URL o un ID dispositivo per feed in diretta. Se omesso, viene registrato un avviso e il modello ricorre agli asset demo integrati (ultralytics/assets, o un URL demo per OBB). Supporta un'ampia gamma di formati e sorgenti, consentendo un'applicazione flessibile su diversi tipi di input.
conffloat0.25Imposta la soglia di confidenza minima per le rilevazioni. Gli oggetti rilevati con una confidenza inferiore a questa soglia verranno ignorati. Regolare questo valore può aiutare a ridurre i falsi positivi.
ioufloat0.7Soglia Intersection Over Union (IoU) per la Non-Maximum Suppression (NMS). Valori più bassi portano a meno rilevazioni eliminando i riquadri sovrapposti, utile per ridurre i duplicati.
imgszint o tuple640Letterbox target. An integer gives a square N×N; a tuple gives (height, width). With rect=True, the actual tensor may be smaller than this target due to minimum-rectangle padding. Use rect=False for a fixed size. See Fixed shape vs minimum rectangle.
rectboolTrueSe True, usa il padding a rettangolo minimo quando possibile (batch della stessa forma e backend supportato). Se False, riempi sempre fino al imgsz completo. Vedi Forma fissa vs rettangolo minimo.
halfboolFalseAbilita l'inferenza a mezza precisione (FP16), che può velocizzare l'inferenza del modello su GPU supportate con un impatto minimo sull'accuratezza.
devicestrNoneSpecifica il dispositivo per l'inferenza (ad esempio, cpu, cuda:0, 0, npu o npu:0). Consente agli utenti di scegliere tra CPU, una GPU specifica, NPU Huawei Ascend o altri dispositivi di calcolo per l'esecuzione del modello.
batchint1Specifica la batch size per l'inferenza (funziona solo quando la sorgente è una directory, un file video o un file .txt). Una batch size più grande può fornire un throughput maggiore, accorciando il tempo totale richiesto per l'inferenza.
max_detint300Numero massimo di rilevazioni consentite per immagine. Limita il numero totale di oggetti che il modello può rilevare in una singola inferenza, evitando output eccessivi in scene dense.
vid_strideint1Stride dei fotogrammi per input video. Consente di saltare i fotogrammi nei video per velocizzare l'elaborazione a scapito della risoluzione temporale. Un valore di 1 elabora ogni fotogramma, valori più alti saltano i fotogrammi.
stream_bufferboolFalseDetermina se mettere in coda i fotogrammi in arrivo per i flussi video. Se False, i vecchi fotogrammi vengono eliminati per far posto ai nuovi (ottimizzato per applicazioni in tempo reale). Se True, accoda i nuovi fotogrammi in un buffer, assicurando che nessun fotogramma venga saltato, ma causerà latenza se gli FPS dell'inferenza sono inferiori agli FPS dello stream.
visualizeboolFalseAttiva la visualizzazione delle caratteristiche del modello durante l'inferenza, fornendo approfondimenti su ciò che il modello "vede". Utile per il debug e l'interpretazione del modello.
augmentboolFalseAbilita la test-time augmentation (TTA) per le previsioni, migliorando potenzialmente la robustezza della rilevazione a scapito della velocità di inferenza.
agnostic_nmsboolFalseAbilita la Non-Maximum Suppression (NMS) agnostica rispetto alla classe, che unisce i riquadri sovrapposti di diverse classi. Utile in scenari di rilevazione multi-classe in cui la sovrapposizione delle classi è comune. Per i modelli end-to-end (YOLO26, YOLOv10), questo impedisce solo che la stessa rilevazione appaia con più etichette di classe (duplicati IoU=1.0) e non esegue la soppressione basata sulla soglia IoU tra riquadri distinti.
classeslist[int]NoneFiltra le previsioni su un insieme di ID di classe. Verranno restituite solo le rilevazioni appartenenti alle classi specificate. Utile per concentrarsi sugli oggetti rilevanti in attività di rilevazione multi-classe.
retina_masksboolFalseRestituisce maschere di segmentazione ad alta risoluzione. Le maschere restituite (masks.data) corrisponderanno alla dimensione originale dell'immagine se abilitato. Se disabilitato, hanno la dimensione dell'immagine utilizzata durante l'inferenza.
embedlist[int]NoneSpecifica i layer da cui estrarre vettori di caratteristiche o embeddings. Utile per attività a valle come il clustering o la ricerca di similarità.
projectstrNoneNome della directory del progetto in cui vengono salvati gli output della previsione se save è abilitato.
namestrNoneNome dell'esecuzione della previsione. Utilizzato per creare una sottodirectory all'interno della cartella del progetto, dove vengono memorizzati gli output della previsione se save è abilitato.
streamboolFalseAbilita l'elaborazione efficiente in termini di memoria per video lunghi o numerose immagini restituendo un generatore di oggetti Results invece di caricare tutti i fotogrammi in memoria contemporaneamente.
verboseboolTrueControlla se visualizzare log di inferenza dettagliati nel terminale, fornendo un feedback in tempo reale sul processo di previsione.
compilebool o strFalseAbilita la compilazione del grafo torch.compile di PyTorch 2.x con backend='inductor'. Accetta True"default", False → disabilita, o una modalità stringa come "default", "reduce-overhead", "max-autotune-no-cudagraphs". Torna all'esecuzione eager con un avviso se non supportato.
end2endboolNoneSovrascrive la modalità end-to-end nei modelli YOLO che supportano l'inferenza senza NMS (YOLO26, YOLOv10). Impostandolo su False ti permette di eseguire la previsione utilizzando la pipeline NMS tradizionale, consentendoti inoltre di utilizzare l'argomento iou. Vedi la guida End-to-End Detection per i dettagli.

Argomenti di visualizzazione:

ArgomentoTipoPredefinitoDescrizione
showboolFalseSe True, visualizza le immagini o i video annotati in una finestra. Utile per un feedback visivo immediato durante lo sviluppo o il test.
saveboolFalse or TrueAbilita il salvataggio delle immagini o dei video annotati su file. Utile per documentazione, analisi successiva o condivisione dei risultati. Predefinito su True quando si usa CLI e False quando usato in Python.
save_framesboolFalseDurante l'elaborazione dei video, salva i singoli fotogrammi come immagini. Utile per estrarre fotogrammi specifici o per un'analisi dettagliata fotogramma per fotogramma.
save_txtboolFalseSalva i risultati della rilevazione in un file di testo, seguendo il formato [class] [x_center] [y_center] [width] [height] [confidence]. Utile per l'integrazione con altri strumenti di analisi.
save_confboolFalseInclude i punteggi di confidenza nei file di testo salvati. Migliora il dettaglio disponibile per la post-elaborazione e l'analisi.
save_cropboolFalseSalva le immagini ritagliate delle rilevazioni. Utile per l'aumento dei dati, l'analisi o la creazione di dataset mirati per oggetti specifici.
show_labelsboolTrueMostra le etichette per ogni rilevazione nell'output visivo. Fornisce una comprensione immediata degli oggetti rilevati.
show_confboolTrueMostra il punteggio di confidenza per ogni rilevazione accanto all'etichetta. Offre una panoramica sulla certezza del modello per ogni rilevazione.
show_boxesboolTrueDisegna le bounding box attorno agli oggetti rilevati. Essenziale per l'identificazione visiva e la localizzazione degli oggetti nelle immagini o nei frame video.
line_widthint or NoneNoneSpecifica lo spessore della linea delle bounding box. Se None, lo spessore della linea viene regolato automaticamente in base alla dimensione dell'immagine. Fornisce una personalizzazione visiva per una maggiore chiarezza.

Formati di Immagini e Video

YOLO26 supporta vari formati di immagini e video, come specificato in ultralytics/data/utils.py. Vedi le tabelle sottostanti per i suffissi validi e gli esempi di comandi di predizione.

Immagini

La tabella seguente contiene i formati di immagine validi per Ultralytics.

Nota

I formati HEIC/HEIF richiedono pi-heif, che viene installato automaticamente al primo utilizzo. AVIF è supportato nativamente da Pillow.

Suffissi ImmagineEsempio di Comando di PredizioneRiferimento
.avifyolo predict source=image.avifAV1 Image File Format
.bmpyolo predict source=image.bmpMicrosoft BMP File Format
.dngyolo predict source=image.dngAdobe DNG
.heicyolo predict source=image.heicHigh Efficiency Image Format
.heifyolo predict source=image.heifHigh Efficiency Image Format
.jp2yolo predict source=image.jp2JPEG 2000
.jpegyolo predict source=image.jpegJPEG
.jpgyolo predict source=image.jpgJPEG
.mpoyolo predict source=image.mpoMulti Picture Object
.pngyolo predict source=image.pngPortable Network Graphics
.tifyolo predict source=image.tifTag Image File Format
.tiffyolo predict source=image.tiffTag Image File Format
.webpyolo predict source=image.webpWebP

Video

La tabella seguente contiene i formati video validi per Ultralytics.

Suffissi VideoEsempio di Comando di PredizioneRiferimento
.asfyolo predict source=video.asfAdvanced Systems Format
.aviyolo predict source=video.aviAudio Video Interleave
.gifyolo predict source=video.gifGraphics Interchange Format
.m4vyolo predict source=video.m4vMPEG-4 Part 14
.mkvyolo predict source=video.mkvMatroska
.movyolo predict source=video.movQuickTime File Format
.mp4yolo predict source=video.mp4MPEG-4 Part 14 - Wikipedia
.mpegyolo predict source=video.mpegMPEG-1 Part 2
.mpgyolo predict source=video.mpgMPEG-1 Part 2
.tsyolo predict source=video.tsMPEG Transport Stream
.wmvyolo predict source=video.wmvWindows Media Video
.webmyolo predict source=video.webmWebM Project

Lavorare con i Risultati

Tutte le chiamate predict() di Ultralytics restituiranno un elenco di oggetti Results:

Risultati
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results = model(
    [
        "https://ultralytics.com/images/bus.jpg",
        "https://ultralytics.com/images/zidane.jpg",
    ]
)  # batch inference

Gli oggetti Results hanno i seguenti attributi:

AttributoTipoDescrizione
orig_imgnp.ndarrayL'immagine originale come array NumPy.
orig_shapetupleLa forma originale dell'immagine nel formato (altezza, larghezza).
boxesBoxes, optionalUn oggetto Boxes contenente i bounding box di rilevamento.
masksMasks, optionalUn oggetto Masks contenente le maschere di rilevamento.
probsProbs, optionalUn oggetto Probs contenente le probabilità di ogni classe per l'attività di classificazione.
keypointsKeypoints, optionalUn oggetto Keypoints contenente i punti chiave rilevati per ogni oggetto.
obbOBB, optionalUn oggetto OBB contenente i bounding box orientati.
speeddictUn dizionario delle velocità di pre-elaborazione, inferenza e post-elaborazione in millisecondi per immagine.
namesdictUn dizionario che mappa gli indici di classe ai nomi delle classi.
pathstrIl percorso verso il file immagine.
save_dirstr, optionalDirectory in cui salvare i risultati.

Gli oggetti Results hanno i seguenti metodi:

MetodoTipo di ritornoDescrizione
update()NoneAggiorna l'oggetto Results con nuovi dati di rilevamento (boxes, masks, probs, obb, keypoints).
cpu()ResultsRestituisce una copia dell'oggetto Results con tutti i tensori spostati nella memoria CPU.
numpy()ResultsRestituisce una copia dell'oggetto Results con tutti i tensori convertiti in array NumPy.
cuda()ResultsRestituisce una copia dell'oggetto Results con tutti i tensori spostati nella memoria GPU.
to()ResultsRestituisce una copia dell'oggetto Results con i tensori spostati nel dispositivo e nel tipo di dati specificati.
new()ResultsCrea un nuovo oggetto Results con gli stessi attributi di immagine, percorso, nomi e velocità.
plot()np.ndarrayTraccia i risultati di rilevamento su un'immagine RGB di input e restituisce l'immagine annotata.
show()NoneVisualizza l'immagine con i risultati dell'inferenza annotati.
save()strSalva l'immagine con i risultati dell'inferenza annotati su file e restituisce il nome del file.
verbose()strRestituisce una stringa di log per ogni attività, dettagliando i risultati del rilevamento e della classificazione.
save_txt()strSalva i risultati del rilevamento in un file di testo e restituisce il percorso del file salvato.
save_crop()NoneSalva le immagini di rilevamento ritagliate nella directory specificata.
summary()List[Dict[str, Any]]Converte i risultati dell'inferenza in un dizionario riassuntivo con normalizzazione opzionale.
to_df()DataFrameConverte i risultati del rilevamento in un DataFrame Polars.
to_csv()strConverte i risultati del rilevamento in formato CSV.
to_json()strConverte i risultati del rilevamento in formato JSON.

For more details see the Results class documentation.

Boxes

L'oggetto Boxes può essere utilizzato per indicizzare, manipolare e convertire i bounding box in diversi formati.

Boxes
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.boxes)  # print the Boxes object containing the detection bounding boxes

Ecco una tabella per i metodi e le proprietà della classe Boxes, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoSposta l'oggetto nella memoria CPU.
numpy()MetodoConverti l'oggetto in un array NumPy.
cuda()MetodoSposta l'oggetto nella memoria CUDA.
to()MetodoSposta l'oggetto nel dispositivo specificato.
xyxyProprietà (torch.Tensor)Restituisce i box nel formato xyxy.
confProprietà (torch.Tensor)Restituisce i valori di confidenza dei box.
clsProprietà (torch.Tensor)Restituisce i valori di classe dei box.
idProprietà (torch.Tensor)Restituisce gli ID di tracciamento dei box (se disponibili).
xywhProprietà (torch.Tensor)Restituisce i box nel formato xywh.
xyxynProprietà (torch.Tensor)Restituisce i box nel formato xyxy normalizzato in base alla dimensione dell'immagine originale.
xywhnProprietà (torch.Tensor)Restituisce i box nel formato xywh normalizzato in base alla dimensione dell'immagine originale.

For more details see the Boxes class documentation.

Masks

L'oggetto Masks può essere utilizzato per indicizzare, manipolare e convertire le maschere in segmenti.

Masks
from ultralytics import YOLO

# Load a pretrained YOLO26n-seg Segment model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.masks)  # print the Masks object containing the detected instance masks

Ecco una tabella per i metodi e le proprietà della classe Masks, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoRestituisce il tensore delle maschere nella memoria CPU.
numpy()MetodoRestituisce il tensore delle maschere come un array NumPy.
cuda()MetodoRestituisce il tensore delle maschere nella memoria GPU.
to()MetodoRestituisce il tensore delle maschere con il dispositivo e il tipo di dati specificati.
xynProprietà (torch.Tensor)Un elenco di segmenti normalizzati rappresentati come tensori.
xyProprietà (torch.Tensor)Un elenco di segmenti in coordinate pixel rappresentati come tensori.

Per ulteriori dettagli, consulta la documentazione della classe Masks.

Keypoints

L'oggetto Keypoints può essere utilizzato per indicizzare, manipolare e normalizzare le coordinate.

Keypoints
from ultralytics import YOLO

# Load a pretrained YOLO26n-pose Pose model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.keypoints)  # print the Keypoints object containing the detected keypoints

Ecco una tabella dei metodi e delle proprietà della classe Keypoints, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoRestituisce il tensore dei keypoints sulla memoria della CPU.
numpy()MetodoRestituisce il tensore dei keypoints come array NumPy.
cuda()MetodoRestituisce il tensore dei keypoints sulla memoria della GPU.
to()MetodoRestituisce il tensore dei keypoints con il dispositivo e il dtype specificati.
xynProprietà (torch.Tensor)Una lista di keypoints normalizzati rappresentati come tensori.
xyProprietà (torch.Tensor)Una lista di keypoints in coordinate pixel rappresentati come tensori.
confProprietà (torch.Tensor)Restituisce i valori di confidenza dei keypoints, se disponibili, altrimenti None.

Per ulteriori dettagli, consulta la documentazione della classe Keypoints.

Probs

L'oggetto Probs può essere utilizzato per indicizzare, ottenere indici top1 e top5 e i punteggi di classificazione.

Probs
from ultralytics import YOLO

# Load a pretrained YOLO26n-cls Classify model
model = YOLO("yolo26n-cls.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.probs)  # print the Probs object containing the detected class probabilities

Ecco una tabella che riassume i metodi e le proprietà della classe Probs:

NomeTipoDescrizione
cpu()MetodoRestituisce una copia del tensore probs sulla memoria della CPU.
numpy()MetodoRestituisce una copia del tensore probs come array NumPy.
cuda()MetodoRestituisce una copia del tensore probs sulla memoria della GPU.
to()MetodoRestituisce una copia del tensore probs con il dispositivo e il dtype specificati.
top1Proprietà (int)Indice della classe top 1.
top5Proprietà (list[int])Indici delle classi top 5.
top1confProprietà (torch.Tensor)Confidenza della classe top 1.
top5confProprietà (torch.Tensor)Confidenze delle classi top 5.

Per ulteriori dettagli, consulta la documentazione della classe Probs.

OBB

L'oggetto OBB può essere utilizzato per indicizzare, manipolare e convertire i bounding box orientati in diversi formati.

OBB
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n-obb.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/boats.jpg")  # results list

# View results
for r in results:
    print(r.obb)  # print the OBB object containing the oriented detection bounding boxes

Ecco una tabella dei metodi e delle proprietà della classe OBB, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoSposta l'oggetto nella memoria CPU.
numpy()MetodoConverti l'oggetto in un array NumPy.
cuda()MetodoSposta l'oggetto nella memoria CUDA.
to()MetodoSposta l'oggetto nel dispositivo specificato.
confProprietà (torch.Tensor)Restituisce i valori di confidenza dei box.
clsProprietà (torch.Tensor)Restituisce i valori di classe dei box.
idProprietà (torch.Tensor)Restituisce gli ID di tracciamento dei box (se disponibili).
xyxyProprietà (torch.Tensor)Restituisce i box orizzontali in formato xyxy.
xywhrProprietà (torch.Tensor)Restituisce i box ruotati in formato xywhr.
xyxyxyxyProprietà (torch.Tensor)Restituisce i box ruotati in formato xyxyxyxy.
xyxyxyxynProprietà (torch.Tensor)Restituisce i box ruotati in formato xyxyxyxy normalizzati in base alle dimensioni dell'immagine.

Per ulteriori dettagli, consulta la documentazione della classe OBB.

Visualizzazione dei risultati

Il metodo plot() negli oggetti Results facilita la visualizzazione delle predizioni sovrapponendo gli oggetti rilevati (come bounding box, maschere, keypoints e probabilità) sull'immagine originale. Questo metodo restituisce l'immagine annotata come array NumPy, consentendo una facile visualizzazione o salvataggio.

Visualizzazione
from PIL import Image

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on 'bus.jpg'
results = model(["https://ultralytics.com/images/bus.jpg", "https://ultralytics.com/images/zidane.jpg"])  # results list

# Visualize the results
for i, r in enumerate(results):
    # Plot results image
    im_bgr = r.plot()  # BGR-order numpy array
    im_rgb = Image.fromarray(im_bgr[..., ::-1])  # RGB-order PIL image

    # Show results to screen (in supported environments)
    r.show()

    # Save results to disk
    r.save(filename=f"results{i}.jpg")

Parametri del metodo plot()

Il metodo plot() supporta vari argomenti per personalizzare l'output:

ArgomentoTipoDescrizionePredefinito
confboolInclude i punteggi di confidenza del rilevamento.True
line_widthfloatSpessore della linea dei bounding box. Si scala in base alle dimensioni dell'immagine se è None.None
font_sizefloatDimensione del font del testo. Si scala in base alle dimensioni dell'immagine se è None.None
fontstrNome del font per le annotazioni di testo.'Arial.ttf'
pilboolRestituisce l'immagine come oggetto PIL Image.False
imgnp.ndarrayImmagine alternativa per la visualizzazione. Utilizza l'immagine originale se è None.None
im_gputorch.TensorImmagine accelerata via GPU per una visualizzazione più rapida delle maschere. Forma: (1, 3, 640, 640).None
kpt_radiusintRaggio per i keypoints disegnati.5
kpt_lineboolCollega i keypoints con delle linee.True
labelsboolInclude le etichette delle classi nelle annotazioni.True
boxesboolSovrappone i bounding box sull'immagine.True
masksboolSovrappone le maschere sull'immagine.True
probsboolInclude le probabilità di classificazione.True
showboolVisualizza l'immagine annotata direttamente utilizzando il visualizzatore di immagini predefinito.False
saveboolSalva l'immagine annotata in un file specificato da filename.False
filenamestrPercorso e nome del file in cui salvare l'immagine annotata se save è True.None
color_modestrSpecifica la modalità colore, ad esempio 'instance' o 'class'.'class'
txt_colortuple[int, int, int]Colore RGB del testo per il bounding box e l'etichetta di classificazione dell'immagine.(255, 255, 255)

Inferenza Thread-Safe

Garantire la sicurezza dei thread durante l'inferenza è fondamentale quando si eseguono più modelli YOLO in parallelo su thread diversi. L'inferenza thread-safe garantisce che le predizioni di ciascun thread siano isolate e non interferiscano tra loro, evitando race condition e assicurando output coerenti e affidabili.

Quando utilizzi modelli YOLO in un'applicazione multi-thread, è importante istanziare oggetti modello separati per ogni thread o utilizzare lo storage locale al thread per prevenire conflitti:

Inferenza Thread-Safe

Istanzia un singolo modello all'interno di ogni thread per un'inferenza thread-safe:

from threading import Thread

from ultralytics import YOLO

def thread_safe_predict(model, image_path):
    """Performs thread-safe prediction on an image using a locally instantiated YOLO model."""
    model = YOLO(model)
    results = model.predict(image_path)
    # Process results

# Starting threads that each have their own model instance
Thread(target=thread_safe_predict, args=("yolo26n.pt", "image1.jpg")).start()
Thread(target=thread_safe_predict, args=("yolo26n.pt", "image2.jpg")).start()

Per uno sguardo approfondito sull'inferenza thread-safe con i modelli YOLO e istruzioni passo-passo, consulta la nostra Guida all'Inferenza Thread-Safe di YOLO. Questa guida ti fornirà tutte le informazioni necessarie per evitare problemi comuni e assicurarti che la tua inferenza multi-thread funzioni correttamente.

Ciclo for per sorgente in streaming

Ecco uno script Python che utilizza OpenCV (cv2) e YOLO per eseguire l'inferenza sui frame video. Questo script presuppone che tu abbia già installato i pacchetti necessari (opencv-python e ultralytics).

Ciclo for per lo streaming
import cv2

from ultralytics import YOLO

# Load the YOLO model
model = YOLO("yolo26n.pt")

# Open the video file
video_path = "path/to/your/video/file.mp4"
cap = cv2.VideoCapture(video_path)

# Loop through the video frames
while cap.isOpened():
    # Read a frame from the video
    success, frame = cap.read()

    if success:
        # Run YOLO inference on the frame
        results = model(frame)

        # Visualize the results on the frame
        annotated_frame = results[0].plot()

        # Display the annotated frame
        cv2.imshow("YOLO Inference", annotated_frame)

        # Break the loop if 'q' is pressed
        if cv2.waitKey(1) & 0xFF == ord("q"):
            break
    else:
        # Break the loop if the end of the video is reached
        break

# Release the video capture object and close the display window
cap.release()
cv2.destroyAllWindows()

Questo script eseguirà le predizioni su ogni frame del video, visualizzerà i risultati e li mostrerà in una finestra. Il ciclo può essere interrotto premendo 'q'.

FAQ

Cos'è Ultralytics YOLO e la sua modalità predict per l'inferenza in tempo reale?

Ultralytics YOLO è un modello all'avanguardia per object detection, instance segmentation, semantic segmentation e classification in tempo reale. La sua modalità predict consente agli utenti di eseguire inferenza ad alta velocità su varie sorgenti di dati come immagini, video e stream live. Progettata per prestazioni e versatilità, offre anche modalità di elaborazione batch e in streaming. Per maggiori dettagli sulle sue funzionalità, consulta la modalità predict di Ultralytics YOLO.

Come posso eseguire l'inferenza utilizzando Ultralytics YOLO su diverse sorgenti di dati?

Ultralytics YOLO può elaborare un'ampia gamma di sorgenti di dati, tra cui singole immagini, video, directory, URL e stream. Puoi specificare la sorgente dati nella chiamata model.predict(). Ad esempio, usa 'image.jpg' per un'immagine locale o 'https://ultralytics.com/images/bus.jpg' per un URL. Dai un'occhiata agli esempi dettagliati per varie sorgenti di inferenza nella documentazione.

Come posso ottimizzare la velocità di inferenza e l'utilizzo della memoria di YOLO?

Per ottimizzare la velocità di inferenza e gestire la memoria in modo efficiente, puoi utilizzare la modalità streaming impostando stream=True nel metodo di chiamata del predictor. La modalità streaming genera un generatore di oggetti Results efficiente dal punto di vista della memoria, invece di caricare tutti i frame in memoria. Per l'elaborazione di video lunghi o grandi dataset, la modalità streaming è particolarmente utile. Scopri di più sulla modalità streaming.

Quali argomenti di inferenza supporta Ultralytics YOLO?

Il metodo model.predict() in YOLO supporta vari argomenti come conf, iou, imgsz, device e altri. Questi argomenti ti consentono di personalizzare il processo di inferenza, impostando parametri come soglie di confidenza, dimensioni dell'immagine e il dispositivo utilizzato per il calcolo. Descrizioni dettagliate di questi argomenti si trovano nella sezione argomenti di inferenza.

Come posso visualizzare e salvare i risultati delle predizioni di YOLO?

Dopo aver eseguito l'inferenza con YOLO, gli oggetti Results contengono metodi per visualizzare e salvare le immagini annotate. Puoi utilizzare metodi come result.show() e result.save(filename="result.jpg") per visualizzare e salvare i risultati. Eventuali directory parenti mancanti nel percorso del file vengono create automaticamente (ad esempio, result.save("path/to/result.jpg")). Per un elenco completo di questi metodi, fai riferimento alla sezione lavorare con i risultati.

Commenti