Skip to main content

Predizione del modello con Ultralytics YOLO

Ultralytics YOLO ecosystem and integrations

Introduzione

Nel mondo del machine learning e della computer vision, il processo di interpretazione dei dati visivi è spesso chiamato inferenza o predizione. Ultralytics YOLO26 offre una potente funzionalità nota come predict mode, progettata per un'inferenza ad alte prestazioni e in tempo reale su un'ampia gamma di fonti dati.



Watch: How to Extract Results from Ultralytics YOLO26 Tasks for Custom Projects 🚀

Applicazioni nel mondo reale

ProduzioneSportSicurezza
![Rilevamento pezzi di ricambio veicoli][car spare parts]![Rilevamento giocatori di calcio][football player detect]![Rilevamento cadute persone][human fall detect]
Rilevamento pezzi di ricambio veicoliRilevamento giocatori di calcioRilevamento cadute persone

Perché usare Ultralytics YOLO per l'inferenza?

Ecco perché dovresti considerare la predict mode di YOLO26 per le tue diverse esigenze di inferenza:

  • Versatilità: Capace di eseguire l'inferenza su immagini, video e persino live stream.
  • Prestazioni: Progettato per un'elaborazione in tempo reale ad alta velocità senza sacrificare la precisione.
  • Facilità d'uso: Interfacce intuitive Python e CLI per una distribuzione e un test rapidi.
  • Altamente personalizzabile: Varie impostazioni e parametri per regolare il comportamento di inferenza del modello in base alle tue specifiche esigenze.
  • Pronto per la produzione: Distribuisci i modelli come endpoint API su Ultralytics Platform con auto-scaling e monitoraggio, oppure esegui l'inferenza localmente.

Funzionalità chiave della Predict Mode

La predict mode di YOLO26 è progettata per essere robusta e versatile, caratterizzata da:

  • Compatibilità con molteplici fonti dati: Che i tuoi dati siano sotto forma di singole immagini, una raccolta di immagini, file video o flussi video in tempo reale, la predict mode ti copre.
  • Streaming Mode: Usa la funzionalità di streaming per generare un generatore efficiente in termini di memoria di oggetti Results . Abilitalo impostando stream=True nel metodo di chiamata del predittore.
  • Elaborazione in batch: Elabora più immagini o fotogrammi video in un unico batch, riducendo ulteriormente il tempo totale di inferenza.
  • Facilità di integrazione: Integra facilmente con pipeline di dati esistenti e altri componenti software, grazie alla sua API flessibile.

I modelli Ultralytics YOLO restituiscono una lista Python di oggetti Results o un generatore efficiente in termini di memoria di oggetti Results quando stream=True viene passato al modello durante l'inferenza:

Predict
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # pretrained YOLO26n model

# Run batched inference on a list of images
results = model(["image1.jpg", "image2.jpg"])  # return a list of Results objects

# Process results list
for result in results:
    boxes = result.boxes  # Boxes object for bounding box outputs
    masks = result.masks  # Masks object for segmentation masks outputs
    keypoints = result.keypoints  # Keypoints object for pose outputs
    probs = result.probs  # Probs object for classification outputs
    obb = result.obb  # Oriented boxes object for OBB outputs
    result.show()  # display to screen
    result.save(filename="result.jpg")  # save to disk

Fonti di inferenza

YOLO26 può elaborare diversi tipi di fonti di input per l'inferenza, come mostrato nella tabella seguente. Le fonti includono immagini statiche, flussi video e vari formati di dati. La tabella indica anche se ogni fonte può essere utilizzata in streaming mode con l'argomento stream=True ✅. La streaming mode è utile per l'elaborazione di video o flussi in tempo reale poiché crea un generatore di risultati invece di caricare tutti i fotogrammi in memoria.

Suggerimento

Usa stream=True per elaborare video lunghi o dataset di grandi dimensioni per gestire in modo efficiente la memoria. Quando stream=False, i risultati per tutti i fotogrammi o punti dati vengono memorizzati nella RAM, il che può accumularsi rapidamente e causare errori di memoria insufficiente per input di grandi dimensioni. Al contrario, stream=True utilizza un generatore, che mantiene in memoria solo i risultati del fotogramma o del punto dati corrente, riducendo significativamente il consumo di memoria e prevenendo problemi di memoria insufficiente.

FonteEsempioTipoNote
immagine'image.jpg'str o PathFile immagine singolo.
URL'https://ultralytics.com/images/bus.jpg'strURL verso un'immagine.
screenshot'screen'strCattura uno screenshot.
PILImage.open('image.jpg')PIL.ImageFormato HWC con canali RGB.
OpenCVcv2.imread('image.jpg')np.ndarrayFormato HWC con canali BGR uint8 (0-255).
numpynp.zeros((640,1280,3))np.ndarrayFormato HWC con canali BGR uint8 (0-255).
torchtorch.zeros(16,3,320,640)torch.TensorFormato BCHW con canali RGB float32 (0.0-1.0).
CSV'sources.csv'str o PathFile CSV contenente percorsi verso immagini, video o directory.
video ✅'video.mp4'str o PathFile video in formati come MP4, AVI, ecc.
directory ✅'path/'str o PathPercorso verso una directory contenente immagini o video.
glob ✅'path/*.jpg'strPattern Glob per trovare più file. Usa il carattere * come jolly.
YouTube ✅'https://youtu.be/LNwODJXcvt4'strURL verso un video YouTube.
stream ✅'rtsp://example.com/media.mp4'strURL per protocolli di streaming come RTSP, RTMP, TCP o un indirizzo IP.
multi-stream ✅'list.streams'str o Path*.streams file di testo con un URL di streaming per riga, es. 8 stream verranno eseguiti a batch-size 8.
webcam ✅0intIndice del dispositivo fotocamera collegato su cui eseguire l'inferenza.

Di seguito sono riportati esempi di codice per l'utilizzo di ciascun tipo di fonte:

Fonti di predizione

Esegui l'inferenza su un file immagine.

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Define path to the image file
source = "path/to/image.jpg"

# Run inference on the source
results = model(source)  # list of Results objects

Argomenti di inferenza

model.predict() accetta molteplici argomenti che possono essere passati al momento dell'inferenza per sovrascrivere le impostazioni predefinite:

Forma fissa vs rettangolo minimo (rect)

Di default, predict usa rect=True, che abilita minimum-rectangle padding quando possibile. L'immagine viene scalata per adattarsi all'interno di imgsz e riempita solo fino al multiplo dello stride più vicino, quindi il tensore finale potrebbe essere più piccolo di imgsz. Il padding del rettangolo minimo viene usato solo quando tutte le immagini nel batch hanno la stessa forma e il backend lo supporta (PyTorch .pt, o ONNX / Triton dinamico). Altrimenti, le immagini vengono riempite fino al pieno imgsz target.

Usa rect=False per riempire sempre fino al target imgsz pieno. Questo è raccomandato quando hai bisogno di una dimensione di input fissa per corrispondere ai modelli esportati (ONNX, TensorRT, ecc.).

Intero vs tupla imgsz

  • Un intero imgsz=640 diventa un target quadrato (640, 640) dopo l'arrotondamento dello stride.
  • Una tupla imgsz=(384, 672) imposta un target rettangolare. Con rect=True e della auto=True, il tensore effettivo può essere più piccolo di questo target.

Addestramento vs predict/export

L'addestramento accetta solo un singolo intero imgsz (una [h, w] lista viene forzata al valore più grande). Predict ed export accettano sia un intero che una (height, width) tupla.

Esempio
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on 'bus.jpg' with arguments
model.predict("https://ultralytics.com/images/bus.jpg", save=True, imgsz=320, conf=0.25)

Argomenti di inferenza:

ArgomentoTipoPredefinitoDescrizione
sourcestr o int o NoneNoneSpecifica la sorgente dati per l'inferenza. Può essere un percorso immagine, un file video, una directory, un URL o un ID dispositivo per feed in diretta. Se omesso, viene registrato un avviso e il modello ricade sugli asset demo integrati (ultralytics/assets, o un URL demo per OBB). Supporta una vasta gamma di formati e sorgenti, consentendo un'applicazione flessibile attraverso diversi tipi di input.
conffloat0.25Imposta la soglia di confidenza minima per le rilevazioni. Gli oggetti rilevati con una confidenza inferiore a questa soglia verranno ignorati. Regolare questo valore può aiutare a ridurre i falsi positivi.
ioufloat0.7Intersection Over Union (IoU) soglia per la Non-Maximum Suppression (NMS). Valori più bassi risultano in meno rilevazioni eliminando i box sovrapposti, utile per ridurre i duplicati.
imgszint o tuple640Target del letterbox. Un intero fornisce un quadrato N×N; una tupla fornisce (height, width). Con rect=True, il tensore effettivo può essere più piccolo di questo target a causa del padding del rettangolo minimo. Usa rect=False per una dimensione fissa. Vedi Forma fissa vs rettangolo minimo.
rectboolTrueSe True, usa il padding del rettangolo minimo quando possibile (batch con la stessa forma e backend supportato). Se False, riempi sempre fino al target imgsz. Vedi Forma fissa vs rettangolo minimo.
halfboolFalseAbilita l'inferenza in precisione dimezzata (FP16), che può velocizzare l'inferenza del modello su GPU supportate con un impatto minimo sull'accuratezza.
devicestrNoneSpecifica il dispositivo per l'inferenza (es. cpu, cuda:0, 0, npu o npu:0). Consente agli utenti di scegliere tra CPU, una specifica GPU, Huawei Ascend NPU o altri dispositivi di calcolo per l'esecuzione del modello.
batchint1Specifica la dimensione del batch per l'inferenza (funziona solo quando la sorgente è una directory, un file video o un .txt file). Una dimensione del batch maggiore può fornire una produttività più elevata, riducendo il tempo totale richiesto per l'inferenza.
max_detint300Numero massimo di rilevazioni consentite per immagine. Limita il numero totale di oggetti che il modello può rilevare in una singola inferenza, prevenendo output eccessivi in scene dense.
vid_strideint1Stride dei frame per input video. Consente di saltare i frame nei video per velocizzare l'elaborazione a costo della risoluzione temporale. Un valore di 1 elabora ogni frame, valori più alti saltano i frame.
stream_bufferboolFalseDetermina se mettere in coda i frame in arrivo per gli stream video. Se False, i vecchi frame vengono scartati per accogliere i nuovi (ottimizzato per applicazioni in tempo reale). Se True, mette in coda i nuovi frame in un buffer, assicurando che nessun frame venga saltato, ma causerà latenza se l'FPS dell'inferenza è inferiore all'FPS dello stream.
visualizeboolFalseAttiva la visualizzazione delle caratteristiche del modello durante l'inferenza, fornendo approfondimenti su ciò che il modello "vede". Utile per il debug e l'interpretazione del modello.
augmentboolFalseAbilita la test-time augmentation (TTA) per le previsioni, migliorando potenzialmente la robustezza del rilevamento a costo della velocità di inferenza.
agnostic_nmsboolFalseAbilita la Non-Maximum Suppression (NMS) classe-agnostica, che unisce i box sovrapposti di classi diverse. Utile in scenari di rilevamento multi-classe dove la sovrapposizione di classe è comune. Per i modelli end-to-end (YOLO26, YOLOv10), questo impedisce solo che la stessa rilevazione appaia con più etichette di classe (duplicati IoU=1.0) e non esegue la soppressione basata sulla soglia IoU tra box distinti.
classeslist[int]NoneFiltra le previsioni su un set di ID di classe. Verranno restituite solo le rilevazioni appartenenti alle classi specificate. Utile per concentrarsi su oggetti rilevanti in attività di rilevamento multi-classe.
retina_masksboolFalseRestituisce maschere di segmentazione ad alta risoluzione. Le maschere restituite (masks.data) corrisponderanno alla dimensione originale dell'immagine se abilitato. Se disabilitato, hanno la dimensione dell'immagine usata durante l'inferenza.
embedlist[int]NoneSpecifica i livelli da cui estrarre vettori di caratteristiche o embeddings. Utile per attività a valle come il clustering o la ricerca di similarità.
projectstrNoneNome della directory del progetto in cui vengono salvati gli output di predizione se save è abilitato.
namestrNoneNome dell'esecuzione di predizione. Utilizzato per creare una sottocartella all'interno della cartella del progetto, dove vengono memorizzati gli output di predizione se save è abilitato.
streamboolFalseAbilita l'elaborazione efficiente della memoria per video lunghi o numerose immagini restituendo un generatore di oggetti Results invece di caricare tutti i frame in memoria contemporaneamente.
verboseboolTrueControlla se visualizzare i log di inferenza dettagliati nel terminale, fornendo un feedback in tempo reale sul processo di predizione.
compilebool o strFalseAbilita la compilazione del grafo PyTorch 2.x torch.compile con backend='inductor'. Accetta True"default", False → disabilita, oppure una modalità stringa come "default", "reduce-overhead", "max-autotune-no-cudagraphs". Se non supportato, ritorna alla modalità eager con un avviso.
end2endboolNoneSovrascrive la modalità end-to-end nei modelli YOLO che supportano l'inferenza senza NMS (YOLO26, YOLOv10). Impostandolo su False ti permette di eseguire la predizione utilizzando la tradizionale pipeline NMS, consentendoti inoltre di sfruttare l'argomento iou. Consulta la guida End-to-End Detection guide per i dettagli.

Argomenti di visualizzazione:

ArgomentoTipoPredefinitoDescrizione
showboolFalseSe True, visualizza le immagini o i video annotati in una finestra. Utile per un feedback visivo immediato durante lo sviluppo o il test.
saveboolFalse or TrueAbilita il salvataggio delle immagini o dei video annotati su file. Utile per la documentazione, ulteriori analisi o la condivisione dei risultati. L'impostazione predefinita è True quando si usa CLI e False quando si usa in Python.
save_framesboolFalseDurante l'elaborazione dei video, salva i singoli frame come immagini. Utile per estrarre frame specifici o per un'analisi dettagliata frame per frame.
save_txtboolFalseSalva i risultati del rilevamento in un file di testo, seguendo il formato [class] [x_center] [y_center] [width] [height] [confidence]. Utile per l'integrazione con altri strumenti di analisi.
save_confboolFalseInclude i punteggi di confidenza nei file di testo salvati. Migliora il dettaglio disponibile per la post-elaborazione e l'analisi.
save_cropboolFalseSalva le immagini ritagliate dei rilevamenti. Utile per l'aumento del dataset, l'analisi o la creazione di dataset focalizzati su oggetti specifici.
show_labelsboolTrueVisualizza le etichette per ogni rilevamento nell'output visivo. Fornisce una comprensione immediata degli oggetti rilevati.
show_confboolTrueVisualizza il punteggio di confidenza per ogni rilevamento accanto all'etichetta. Fornisce informazioni sulla certezza del modello per ogni rilevamento.
show_boxesboolTrueDisegna riquadri di delimitazione (bounding boxes) attorno agli oggetti rilevati. Essenziale per l'identificazione visiva e la localizzazione degli oggetti nelle immagini o nei fotogrammi video.
line_widthint or NoneNoneSpecifica lo spessore della linea dei riquadri di delimitazione. Se None, lo spessore della linea viene regolato automaticamente in base alla dimensione dell'immagine. Fornisce personalizzazione visiva per una maggiore chiarezza.

Formati di Immagine e Video

YOLO26 supporta vari formati di immagine e video, come specificato in ultralytics/data/utils.py. Consulta le tabelle seguenti per i suffissi validi e i comandi di predizione di esempio.

Immagini

La tabella sottostante contiene i formati immagine validi di Ultralytics.

Nota

I formati HEIC/HEIF richiedono pi-heif, che viene installato automaticamente al primo utilizzo. AVIF è supportato nativamente da Pillow.

Suffissi ImmagineComando Predict di EsempioRiferimento
.avifyolo predict source=image.avifFormato File Immagine AV1
.bmpyolo predict source=image.bmpFormato File Microsoft BMP
.dngyolo predict source=image.dngAdobe DNG
.heicyolo predict source=image.heicFormato Immagine ad Alta Efficienza
.heifyolo predict source=image.heifFormato Immagine ad Alta Efficienza
.jp2yolo predict source=image.jp2JPEG 2000
.jpegyolo predict source=image.jpegJPEG
.jpgyolo predict source=image.jpgJPEG
.mpoyolo predict source=image.mpoOggetto Multi Immagine
.pngyolo predict source=image.pngPortable Network Graphics
.tifyolo predict source=image.tifFormato File Immagine Tag
.tiffyolo predict source=image.tiffFormato File Immagine Tag
.webpyolo predict source=image.webpWebP

Video

La tabella sottostante contiene i formati video validi di Ultralytics.

Suffissi VideoComando Predict di EsempioRiferimento
.asfyolo predict source=video.asfFormato Advanced Systems
.aviyolo predict source=video.aviAudio Video Interleave
.gifyolo predict source=video.gifGraphics Interchange Format
.m4vyolo predict source=video.m4vMPEG-4 Parte 14
.mkvyolo predict source=video.mkvMatroska
.movyolo predict source=video.movFormato File QuickTime
.mp4yolo predict source=video.mp4MPEG-4 Parte 14 - Wikipedia
.mpegyolo predict source=video.mpegMPEG-1 Parte 2
.mpgyolo predict source=video.mpgMPEG-1 Parte 2
.tsyolo predict source=video.tsMPEG Transport Stream
.wmvyolo predict source=video.wmvWindows Media Video
.webmyolo predict source=video.webmProgetto WebM

Lavorare con i Risultati

Tutte le chiamate Ultralytics predict() restituiranno una lista di oggetti Results:

Results
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results = model(
    [
        "https://ultralytics.com/images/bus.jpg",
        "https://ultralytics.com/images/zidane.jpg",
    ]
)  # batch inference

Results gli oggetti hanno i seguenti attributi:

AttributoTipoDescrizione
orig_imgnp.ndarrayL'immagine originale come numpy array.
orig_shapetupleLa forma dell'immagine originale in formato (altezza, larghezza).
boxesBoxes, optionalUn oggetto Boxes contenente i riquadri di delimitazione del rilevamento.
masksMasks, optionalUn oggetto Masks contenente le maschere di rilevamento.
probsProbs, optionalUn oggetto Probs contenente le probabilità di ogni classe per l'attività di classificazione.
keypointsKeypoints, optionalUn oggetto Keypoints contenente i punti chiave rilevati per ogni oggetto.
obbOBB, optionalUn oggetto OBB contenente riquadri di delimitazione orientati.
speeddictUn dizionario delle velocità di pre-elaborazione, inferenza e post-elaborazione in millisecondi per immagine.
namesdictUn dizionario che mappa gli indici di classe ai nomi delle classi.
pathstrIl percorso verso il file immagine.
save_dirstr, optionalDirectory per salvare i risultati.

Results gli oggetti hanno i seguenti metodi:

MetodoTipo di RitornoDescrizione
update()NoneAggiorna l'oggetto Results con nuovi dati di rilevamento (boxes, masks, probs, obb, keypoints).
cpu()ResultsRestituisce una copia dell'oggetto Results con tutti i tensori spostati nella memoria CPU.
numpy()ResultsRestituisce una copia dell'oggetto Results con tutti i tensori convertiti in numpy array.
cuda()ResultsRestituisce una copia dell'oggetto Results con tutti i tensori spostati nella memoria GPU.
to()ResultsRestituisce una copia dell'oggetto Results con i tensori spostati sul dispositivo e tipo di dato specificati.
new()ResultsCrea un nuovo oggetto Results con gli stessi attributi di immagine, percorso, nomi e velocità.
plot()np.ndarrayTraccia i risultati del rilevamento su un'immagine RGB di input e restituisce l'immagine annotata.
show()NoneVisualizza l'immagine con i risultati dell'inferenza annotati.
save()strSalva l'immagine dei risultati dell'inferenza annotata su file e restituisce il nome del file.
verbose()strRestituisce una stringa di log per ogni attività, dettagliando i risultati del rilevamento e della classificazione.
save_txt()strSalva i risultati del rilevamento in un file di testo e restituisce il percorso del file salvato.
save_crop()NoneSalva le immagini di rilevamento ritagliate nella directory specificata.
summary()List[Dict[str, Any]]Converte i risultati dell'inferenza in un dizionario riassuntivo con normalizzazione opzionale.
to_df()DataFrameConverte i risultati del rilevamento in un Polars DataFrame.
to_csv()strConverte i risultati del rilevamento in formato CSV.
to_json()strConverte i risultati della rilevazione in formato JSON.

Per maggiori dettagli consulta la Results documentazione della classe.

Boxes

Boxes L'oggetto può essere utilizzato per indicizzare, manipolare e convertire i BBox in formati diversi.

Boxes
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.boxes)  # print the Boxes object containing the detection bounding boxes

Ecco una tabella per la Boxes metodi e proprietà della classe, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoSposta l'oggetto nella memoria CPU.
numpy()MetodoConverti l'oggetto in un array numpy.
cuda()MetodoSposta l'oggetto nella memoria CUDA.
to()MetodoSposta l'oggetto sul dispositivo specificato.
xyxyProprietà (torch.Tensor)Restituisce i BBox in formato xyxy.
confProprietà (torch.Tensor)Restituisce i valori di confidenza dei BBox.
clsProprietà (torch.Tensor)Restituisce i valori di classe dei BBox.
idProprietà (torch.Tensor)Restituisce gli ID di tracciamento dei BBox (se disponibili).
xywhProprietà (torch.Tensor)Restituisce i BBox in formato xywh.
xyxynProprietà (torch.Tensor)Restituisce i BBox in formato xyxy normalizzato in base alle dimensioni dell'immagine originale.
xywhnProprietà (torch.Tensor)Restituisce i BBox in formato xywh normalizzato in base alle dimensioni dell'immagine originale.

Per maggiori dettagli consulta la Boxes documentazione della classe.

Masks

Masks L'oggetto può essere utilizzato per indicizzare, manipolare e convertire le maschere in segmenti.

Masks
from ultralytics import YOLO

# Load a pretrained YOLO26n-seg Segment model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.masks)  # print the Masks object containing the detected instance masks

Ecco una tabella per la Masks metodi e proprietà della classe, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoRestituisce il tensore delle maschere nella memoria CPU.
numpy()MetodoRestituisce il tensore delle maschere come array numpy.
cuda()MetodoRestituisce il tensore delle maschere nella memoria GPU.
to()MetodoRestituisce il tensore delle maschere con il dispositivo e il dtype specificati.
xynProprietà (torch.Tensor)Un elenco di segmenti normalizzati rappresentati come tensori.
xyProprietà (torch.Tensor)Un elenco di segmenti in coordinate pixel rappresentati come tensori.

Per maggiori dettagli consulta la Masks documentazione della classe.

Keypoints

Keypoints L'oggetto può essere utilizzato per indicizzare, manipolare e normalizzare le coordinate.

Keypoints
from ultralytics import YOLO

# Load a pretrained YOLO26n-pose Pose model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.keypoints)  # print the Keypoints object containing the detected keypoints

Ecco una tabella per la Keypoints metodi e proprietà della classe, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoRestituisce il tensore dei keypoints nella memoria CPU.
numpy()MetodoRestituisce il tensore dei keypoints come array numpy.
cuda()MetodoRestituisce il tensore dei keypoints nella memoria GPU.
to()MetodoRestituisce il tensore dei keypoints con il dispositivo e il dtype specificati.
xynProprietà (torch.Tensor)Un elenco di keypoints normalizzati rappresentati come tensori.
xyProprietà (torch.Tensor)Un elenco di keypoints in coordinate pixel rappresentati come tensori.
confProprietà (torch.Tensor)Restituisce i valori di confidenza dei keypoints se disponibili, altrimenti None.

Per maggiori dettagli consulta la Keypoints documentazione della classe.

Probs

Probs L'oggetto può essere utilizzato per indicizzare, ottenere top1 e della top5 indici e punteggi della classificazione.

Probs
from ultralytics import YOLO

# Load a pretrained YOLO26n-cls Classify model
model = YOLO("yolo26n-cls.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")  # results list

# View results
for r in results:
    print(r.probs)  # print the Probs object containing the detected class probabilities

Ecco una tabella che riassume i metodi e le proprietà per la Probs classe:

NomeTipoDescrizione
cpu()MetodoRestituisce una copia del tensore probs nella memoria CPU.
numpy()MetodoRestituisce una copia del tensore probs come array numpy.
cuda()MetodoRestituisce una copia del tensore probs nella memoria GPU.
to()MetodoRestituisce una copia del tensore probs con il dispositivo e il dtype specificati.
top1Proprietà (int)Indice della prima classe (top 1).
top5Proprietà (list[int])Indici delle prime 5 classi (top 5).
top1confProprietà (torch.Tensor)Confidenza della prima classe (top 1).
top5confProprietà (torch.Tensor)Confidenze delle prime 5 classi (top 5).

Per maggiori dettagli consulta la Probs documentazione della classe.

OBB

OBB L'oggetto può essere utilizzato per indicizzare, manipolare e convertire i BBox orientati in formati diversi.

OBB
from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n-obb.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/boats.jpg")  # results list

# View results
for r in results:
    print(r.obb)  # print the OBB object containing the oriented detection bounding boxes

Ecco una tabella per la OBB metodi e proprietà della classe, inclusi nome, tipo e descrizione:

NomeTipoDescrizione
cpu()MetodoSposta l'oggetto nella memoria CPU.
numpy()MetodoConverti l'oggetto in un array numpy.
cuda()MetodoSposta l'oggetto nella memoria CUDA.
to()MetodoSposta l'oggetto sul dispositivo specificato.
confProprietà (torch.Tensor)Restituisce i valori di confidenza dei BBox.
clsProprietà (torch.Tensor)Restituisce i valori di classe dei BBox.
idProprietà (torch.Tensor)Restituisce gli ID di tracciamento dei BBox (se disponibili).
xyxyProprietà (torch.Tensor)Restituisce i BBox orizzontali in formato xyxy.
xywhrProprietà (torch.Tensor)Restituisce i BBox ruotati in formato xywhr.
xyxyxyxyProprietà (torch.Tensor)Restituisce i BBox ruotati in formato xyxyxyxy.
xyxyxyxynProprietà (torch.Tensor)Restituisce i BBox ruotati in formato xyxyxyxy normalizzato per dimensioni immagine.

Per maggiori dettagli consulta la OBB documentazione della classe.

Visualizzazione dei risultati

Il plot() metodo negli Results oggetti facilita la visualizzazione delle predizioni sovrapponendo gli oggetti rilevati (come BBox, maschere, keypoints e probabilità) sull'immagine originale. Questo metodo restituisce l'immagine annotata come array NumPy, consentendo una facile visualizzazione o salvataggio.

Visualizzazione
from PIL import Image

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on 'bus.jpg'
results = model(["https://ultralytics.com/images/bus.jpg", "https://ultralytics.com/images/zidane.jpg"])  # results list

# Visualize the results
for i, r in enumerate(results):
    # Plot results image
    im_bgr = r.plot()  # BGR-order numpy array
    im_rgb = Image.fromarray(im_bgr[..., ::-1])  # RGB-order PIL image

    # Show results to screen (in supported environments)
    r.show()

    # Save results to disk
    r.save(filename=f"results{i}.jpg")

plot() Parametri del metodo

Il plot() Il metodo supporta vari argomenti per personalizzare l'output:

ArgomentoTipoDescrizionePredefinito
confboolIncludi i punteggi di confidenza della rilevazione.True
line_widthfloatSpessore della linea dei BBox. Si adatta alle dimensioni dell'immagine se None.None
font_sizefloatDimensione del font del testo. Si adatta alle dimensioni dell'immagine se None.None
fontstrNome del font per le annotazioni di testo.'Arial.ttf'
pilboolRestituisci l'immagine come oggetto PIL Image.False
imgnp.ndarrayImmagine alternativa per la visualizzazione. Utilizza l'immagine originale se None.None
im_gputorch.TensorImmagine accelerata via GPU per una visualizzazione delle maschere più rapida. Forma: (1, 3, 640, 640).None
kpt_radiusintRaggio per i keypoints disegnati.5
kpt_lineboolCollega i keypoints con linee.True
labelsboolIncludi le etichette di classe nelle annotazioni.True
boxesboolSovrapponi i BBox sull'immagine.True
masksboolSovrapponi le maschere sull'immagine.True
probsboolIncludi le probabilità di classificazione.True
showboolVisualizza direttamente l'immagine annotata utilizzando il visualizzatore di immagini predefinito.False
saveboolSalva l'immagine annotata in un file specificato da filename.False
filenamestrPercorso e nome del file in cui salvare l'immagine annotata se save è True.None
color_modestrSpecifica la modalità colore, ad esempio 'instance' o 'class'.'class'
txt_colortuple[int, int, int]Colore del testo RGB per il BBox e l'etichetta di classificazione dell'immagine.(255, 255, 255)

Inferenza Thread-Safe

Garantire la thread safety durante l'inferenza è cruciale quando esegui più modelli YOLO in parallelo su thread diversi. L'inferenza thread-safe garantisce che le predizioni di ogni thread siano isolate e non interferiscano tra loro, evitando race condition e assicurando output coerenti e affidabili.

Quando utilizzi modelli YOLO in un'applicazione multi-thread, è importante istanziare oggetti modello separati per ogni thread o impiegare lo storage locale del thread per prevenire conflitti:

Inferenza Thread-Safe

Istanzia un singolo modello all'interno di ogni thread per un'inferenza thread-safe:

from threading import Thread

from ultralytics import YOLO

def thread_safe_predict(model, image_path):
    """Performs thread-safe prediction on an image using a locally instantiated YOLO model."""
    model = YOLO(model)
    results = model.predict(image_path)
    # Process results

# Starting threads that each have their own model instance
Thread(target=thread_safe_predict, args=("yolo26n.pt", "image1.jpg")).start()
Thread(target=thread_safe_predict, args=("yolo26n.pt", "image2.jpg")).start()

Per uno sguardo approfondito all'inferenza thread-safe con i modelli YOLO e istruzioni dettagliate, ti preghiamo di consultare la nostra Guida all'inferenza YOLO Thread-Safe. Questa guida ti fornirà tutte le informazioni necessarie per evitare le insidie comuni e assicurare che la tua inferenza multi-thread funzioni senza problemi.

Ciclo sorgente in streaming for-loop

Ecco uno script Python che utilizza OpenCV (cv2) e YOLO per eseguire l'inferenza sui frame video. Questo script presuppone che tu abbia già installato i pacchetti necessari (opencv-python e della ultralytics).

Ciclo for per lo streaming
import cv2

from ultralytics import YOLO

# Load the YOLO model
model = YOLO("yolo26n.pt")

# Open the video file
video_path = "path/to/your/video/file.mp4"
cap = cv2.VideoCapture(video_path)

# Loop through the video frames
while cap.isOpened():
    # Read a frame from the video
    success, frame = cap.read()

    if success:
        # Run YOLO inference on the frame
        results = model(frame)

        # Visualize the results on the frame
        annotated_frame = results[0].plot()

        # Display the annotated frame
        cv2.imshow("YOLO Inference", annotated_frame)

        # Break the loop if 'q' is pressed
        if cv2.waitKey(1) & 0xFF == ord("q"):
            break
    else:
        # Break the loop if the end of the video is reached
        break

# Release the video capture object and close the display window
cap.release()
cv2.destroyAllWindows()

Questo script eseguirà le predizioni su ogni frame del video, visualizzerà i risultati e li mostrerà in una finestra. Il ciclo può essere interrotto premendo 'q'.

FAQ

Cos'è Ultralytics YOLO e la sua modalità predict per l'inferenza in tempo reale?

Ultralytics YOLO è un modello all'avanguardia per l'inferenza in tempo reale object detection, segmentazione e classificazione. La sua predict mode consente agli utenti di eseguire inferenza ad alta velocità su varie fonti di dati come immagini, video e streaming live. Progettato per prestazioni e versatilità, offre anche modalità di elaborazione batch e streaming. Per maggiori dettagli sulle sue funzionalità, dai un'occhiata alla modalità Ultralytics YOLO predict.

Come posso eseguire l'inferenza usando Ultralytics YOLO su diverse origini dati?

Ultralytics YOLO può elaborare un'ampia gamma di origini dati, inclusi singole immagini, video, directory, URL e stream. Puoi specificare l'origine dati nella chiamata model.predict() chiamata. Ad esempio, usa 'image.jpg' per un'immagine locale o 'https://ultralytics.com/images/bus.jpg' per un URL. Dai un'occhiata agli esempi dettagliati per varie origini di inferenza nella documentazione.

Come posso ottimizzare la velocità di inferenza e l'utilizzo della memoria di YOLO?

Per ottimizzare la velocità di inferenza e gestire la memoria in modo efficiente, puoi usare la modalità streaming impostando stream=True nel metodo di chiamata del predictor. La modalità streaming genera un generatore efficiente dal punto di vista della memoria di Results oggetti invece di caricare tutti i fotogrammi in memoria. Per l'elaborazione di video lunghi o dataset di grandi dimensioni, la modalità streaming è particolarmente utile. Scopri di più sulla modalità streaming.

Quali argomenti di inferenza supporta Ultralytics YOLO?

Il model.predict() metodo in YOLO supporta vari argomenti come conf, iou, imgsz, device, e altro ancora. Questi argomenti ti consentono di personalizzare il processo di inferenza, impostando parametri come soglie di confidenza, dimensioni dell'immagine e il dispositivo utilizzato per il calcolo. Descrizioni dettagliate di questi argomenti possono essere trovate nella sezione argomenti di inferenza.

Come posso visualizzare e salvare i risultati delle previsioni YOLO?

Dopo aver eseguito l'inferenza con YOLO, gli Results oggetti contengono metodi per visualizzare e salvare le immagini annotate. Puoi usare metodi come result.show() e della result.save(filename="result.jpg") per visualizzare e salvare i risultati. Qualsiasi directory genitore mancante nel percorso del nome file viene creata automaticamente (ad es., result.save("path/to/result.jpg")). Per un elenco completo di questi metodi, consulta lavorare con i risultati.

Commenti