Predição de Modelo com Ultralytics YOLO
Introdução
No mundo do machine learning e da computer vision, o processo de interpretar dados visuais é frequentemente chamado de inferência ou predição. O Ultralytics YOLO26 oferece um recurso poderoso conhecido como predict mode, projetado para inferência de alto desempenho em tempo real através de uma ampla gama de fontes de dados.
Watch: How to Extract Results from Ultralytics YOLO26 Tasks for Custom Projects 🚀
Aplicações do Mundo Real
| Manufatura | Esportes | Segurança |
|---|---|---|
![]() | ![]() | ![]() |
| Detecção de Peças Sobressalentes de Veículos | Detecção de Jogadores de Futebol | Detecção de Queda de Pessoas |
Por que usar o Ultralytics YOLO para inferência?
Veja por que você deve considerar o predict mode do YOLO26 para suas diversas necessidades de inferência:
- Versatilidade: Capaz de executar inferência em imagens, vídeos e até mesmo transmissões ao vivo.
- Desempenho: Projetado para processamento em tempo real de alta velocidade sem sacrificar a accuracy.
- Facilidade de Uso: Interfaces intuitivas em Python e CLI para implementação e testes rápidos.
- Altamente Customizável: Diversas configurações e parâmetros para ajustar o comportamento de inferência do modelo de acordo com seus requisitos específicos.
- Pronto para Produção: Implemente modelos como endpoints de API na Ultralytics Platform com escalonamento automático e monitoramento, ou execute a inferência localmente.
Principais Recursos do Predict Mode
O predict mode do YOLO26 foi projetado para ser robusto e versátil, apresentando:
- Compatibilidade com Múltiplas Fontes de Dados: Se seus dados estão na forma de imagens individuais, uma coleção de imagens, arquivos de vídeo ou transmissões de vídeo em tempo real, o predict mode atende a você.
- Modo de Streaming: Use o recurso de streaming para gerar um gerador eficiente em termos de memória de objetos
Results. Habilite isso definindostream=Trueno método de chamada do preditor. - Processamento em Lote: Processe várias imagens ou quadros de vídeo em um único lote, reduzindo ainda mais o tempo total de inferência.
- Fácil Integração: Integre facilmente com pipelines de dados existentes e outros componentes de software, graças à sua API flexível.
Os modelos Ultralytics YOLO retornam uma lista Python de objetos Results ou um gerador eficiente de memória de objetos Results quando stream=True é passado para o modelo durante a inferência:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n.pt") # pretrained YOLO26n model
# Run batched inference on a list of images
results = model(["image1.jpg", "image2.jpg"]) # return a list of Results objects
# Process results list
for result in results:
boxes = result.boxes # Boxes object for bounding box outputs
masks = result.masks # Masks object for segmentation masks outputs
keypoints = result.keypoints # Keypoints object for pose outputs
probs = result.probs # Probs object for classification outputs
obb = result.obb # Oriented boxes object for OBB outputs
result.show() # display to screen
result.save(filename="result.jpg") # save to diskFontes de Inferência
O YOLO26 pode processar diferentes tipos de fontes de entrada para inferência, conforme mostrado na tabela abaixo. As fontes incluem imagens estáticas, transmissões de vídeo e vários formatos de dados. A tabela também indica se cada fonte pode ser usada no modo de streaming com o argumento stream=True ✅. O modo de streaming é benéfico para processar vídeos ou transmissões ao vivo, pois cria um gerador de resultados em vez de carregar todos os quadros na memória.
Use stream=True para processar vídeos longos ou grandes conjuntos de dados para gerenciar a memória de forma eficiente. Quando stream=False, os resultados de todos os quadros ou pontos de dados são armazenados na memória, o que pode acumular rapidamente e causar erros de falta de memória (out-of-memory) para entradas grandes. Em contraste, stream=True utiliza um gerador, que mantém apenas os resultados do quadro ou ponto de dados atual na memória, reduzindo significativamente o consumo de memória e prevenindo problemas de falta de memória.
| Fonte | Exemplo | Tipo | Notas |
|---|---|---|---|
| imagem | 'image.jpg' | str ou Path | Arquivo de imagem única. |
| URL | 'https://ultralytics.com/images/bus.jpg' | str | URL para uma imagem. |
| captura de tela | 'screen' | str | Capture uma captura de tela. |
| PIL | Image.open('image.jpg') | PIL.Image | Formato HWC com canais RGB. |
| OpenCV | cv2.imread('image.jpg') | np.ndarray | Formato HWC com canais BGR uint8 (0-255). |
| NumPy | np.zeros((640,1280,3)) | np.ndarray | Formato HWC com canais BGR uint8 (0-255). |
| torch | torch.zeros(16,3,320,640) | torch.Tensor | Formato BCHW com canais RGB float32 (0.0-1.0). |
| CSV | 'sources.csv' | str ou Path | Arquivo CSV contendo caminhos para imagens, vídeos ou diretórios. |
| vídeo ✅ | 'video.mp4' | str ou Path | Arquivo de vídeo em formatos como MP4, AVI, etc. |
| diretório ✅ | 'path/' | str ou Path | Caminho para um diretório contendo imagens ou vídeos. |
| glob ✅ | 'path/*.jpg' | str | Padrão Glob para corresponder a vários arquivos. Use o caractere * como um curinga. |
| YouTube ✅ | 'https://youtu.be/LNwODJXcvt4' | str | URL para um vídeo do YouTube. |
| stream ✅ | 'rtsp://example.com/media.mp4' | str | URL para protocolos de streaming como RTSP, RTMP, TCP ou um endereço IP. |
| multi-stream ✅ | 'list.streams' | str ou Path | Arquivo de texto *.streams com uma URL de stream por linha, i.e., 8 streams serão executados em batch-size 8. |
| webcam ✅ | 0 | int | Índice do dispositivo de câmera conectado para executar a inferência. |
Abaixo estão exemplos de código para usar cada tipo de fonte:
Execute a inferência em um arquivo de imagem.
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Define path to the image file
source = "path/to/image.jpg"
# Run inference on the source
results = model(source) # list of Results objectsArgumentos de Inferência
model.predict() aceita múltiplos argumentos que podem ser passados no momento da inferência para substituir os padrões:
Forma fixa versus retângulo mínimo (rect)
Por padrão, o predict usa rect=True, o que permite o preenchimento de retângulo mínimo quando possível. A imagem é escalonada para caber dentro de imgsz e preenchida apenas até ao múltiplo de stride mais próximo, portanto, o tensor final pode ser menor que imgsz. O preenchimento de retângulo mínimo só é usado quando todas as imagens no lote têm a mesma forma e o backend suporta isso (PyTorch .pt, ou ONNX dinâmico / Triton). Caso contrário, as imagens são preenchidas até ao alvo imgsz completo.
Usa rect=False para preencher sempre até ao alvo imgsz completo. Isto é recomendado quando precisas de um tamanho de entrada fixo para corresponder a modelos exportados (ONNX, TensorRT, etc.).
Inteiro versus tuplo imgsz
- Um
imgsz=640inteiro torna-se um alvo quadrado(640, 640)após o arredondamento do stride. - Um tuplo
imgsz=(384, 672)define um alvo retangular. Comrect=Trueeauto=True, o tensor real pode ser menor que este alvo.
Treino versus predict/export
O treino aceita apenas um imgsz inteiro único (uma lista [h, w] é forçada para o valor maior). Predict e export aceitam um inteiro ou um tuplo (height, width).
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on 'bus.jpg' with arguments
model.predict("https://ultralytics.com/images/bus.jpg", save=True, imgsz=320, conf=0.25)Argumentos de inferência:
| Argumento | Tipo | Padrão | Descrição |
|---|---|---|---|
source | str ou int ou None | None | Especifica a fonte de dados para a inferência. Pode ser um caminho de imagem, ficheiro de vídeo, diretório, URL ou ID de dispositivo para feeds ao vivo. Se omitido, um aviso é registado e o modelo recorre aos ativos de demonstração integrados (ultralytics/assets, ou um URL de demonstração para OBB). Suporta uma ampla gama de formatos e fontes, permitindo uma aplicação flexível em diferentes tipos de entrada. |
conf | float | 0.25 | Define o limiar mínimo de confiança para deteções. Objetos detetados com confiança abaixo deste limiar serão desconsiderados. Ajustar este valor pode ajudar a reduzir falsos positivos. |
iou | float | 0.7 | Limiar de Intersection Over Union (IoU) para Non-Maximum Suppression (NMS). Valores mais baixos resultam em menos deteções ao eliminar caixas sobrepostas, útil para reduzir duplicados. |
imgsz | int ou tuple | 640 | Alvo letterbox. Um inteiro dá um quadrado N×N; um tuplo dá (height, width). Com rect=True, o tensor real pode ser menor que este alvo devido ao preenchimento de retângulo mínimo. Usa rect=False para um tamanho fixo. Vê Forma fixa versus retângulo mínimo. |
rect | bool | True | Se True, usa o preenchimento de retângulo mínimo quando possível (batch da mesma forma e backend suportado). Se False, preenche sempre até ao imgsz completo. Vê Forma fixa versus retângulo mínimo. |
half | bool | False | Ativa a inferência de precisão média (FP16), que pode acelerar a inferência do modelo em GPUs suportadas com impacto mínimo na precisão. |
device | str | None | Especifica o dispositivo para inferência (ex: cpu, cuda:0, 0, npu ou npu:0). Permite aos utilizadores selecionar entre CPU, uma GPU específica, Huawei Ascend NPU ou outros dispositivos de computação para a execução do modelo. |
batch | int | 1 | Especifica o tamanho do batch para inferência (funciona apenas quando a fonte é um diretório, ficheiro de vídeo ou ficheiro .txt). Um tamanho de batch maior pode proporcionar um rendimento mais elevado, reduzindo o tempo total necessário para a inferência. |
max_det | int | 300 | Número máximo de deteções permitidas por imagem. Limita o número total de objetos que o modelo pode detetar numa única inferência, evitando saídas excessivas em cenas densas. |
vid_stride | int | 1 | Stride de fotogramas para entradas de vídeo. Permite saltar fotogramas em vídeos para acelerar o processamento ao custo da resolução temporal. Um valor de 1 processa todos os fotogramas, valores mais altos saltam fotogramas. |
stream_buffer | bool | False | Determina se deve colocar em fila os fotogramas recebidos para streams de vídeo. Se False, fotogramas antigos são descartados para acomodar novos fotogramas (otimizado para aplicações em tempo real). Se True, coloca novos fotogramas num buffer, garantindo que nenhum fotograma seja ignorado, mas causará latência se os FPS de inferência forem inferiores aos FPS do stream. |
visualize | bool | False | Ativa a visualização das características do modelo durante a inferência, fornecendo insights sobre o que o modelo está a "ver". Útil para depuração e interpretação do modelo. |
augment | bool | False | Ativa a aumentação em tempo de teste (TTA) para previsões, melhorando potencialmente a robustez da deteção ao custo da velocidade de inferência. |
agnostic_nms | bool | False | Ativa a Non-Maximum Suppression (NMS) agnóstica de classe, que funde caixas sobrepostas de diferentes classes. Útil em cenários de deteção multi-classe onde a sobreposição de classes é comum. Para modelos end-to-end (YOLO26, YOLOv10), isto apenas evita que a mesma deteção apareça com múltiplas etiquetas de classe (duplicados de IoU=1.0) e não realiza supressão baseada no limiar de IoU entre caixas distintas. |
classes | list[int] | None | Filtra previsões para um conjunto de IDs de classe. Apenas deteções pertencentes às classes especificadas serão retornadas. Útil para focar em objetos relevantes em tarefas de deteção multi-classe. |
retina_masks | bool | False | Retorna máscaras de segmentação de alta resolução. As máscaras retornadas (masks.data) corresponderão ao tamanho original da imagem se ativado. Se desativado, elas têm o tamanho da imagem usado durante a inferência. |
embed | list[int] | None | Especifica as camadas das quais extrair vetores de características ou embeddings. Útil para tarefas a jusante como agrupamento ou pesquisa de similaridade. |
project | str | None | Nome do diretório do projeto onde as saídas de previsão são guardadas se save estiver ativado. |
name | str | None | Nome da execução da previsão. Usado para criar um subdiretório dentro da pasta do projeto, onde as saídas de previsão são armazenadas se save estiver ativado. |
stream | bool | False | Ativa o processamento eficiente em termos de memória para vídeos longos ou numerosas imagens, retornando um gerador de objetos Results em vez de carregar todos os fotogramas para a memória de uma só vez. |
verbose | bool | True | Controla se deve exibir registos de inferência detalhados no terminal, fornecendo feedback em tempo real sobre o processo de previsão. |
compile | bool ou str | False | Ativa a compilação de grafo torch.compile do PyTorch 2.x com backend='inductor'. Aceita True → "default", False → desativa, ou um modo de string como "default", "reduce-overhead", "max-autotune-no-cudagraphs". Volta para o modo eager com um aviso se não for suportado. |
end2end | bool | None | Substitui o modo end-to-end em modelos YOLO que suportam inferência sem NMS (YOLO26, YOLOv10). Definir como False permite que executes a previsão usando o pipeline NMS tradicional, permitindo adicionalmente fazer uso do argumento iou. Vê o guia de Deteção End-to-End para detalhes. |
Argumentos de visualização:
| Argumento | Tipo | Padrão | Descrição |
|---|---|---|---|
show | bool | False | Se True, exibe as imagens ou vídeos anotados numa janela. Útil para feedback visual imediato durante o desenvolvimento ou teste. |
save | bool | False or True | Ativa a gravação das imagens ou vídeos anotados em ficheiros. Útil para documentação, análise adicional ou partilha de resultados. O padrão é True ao usar CLI e False quando usado em Python. |
save_frames | bool | False | Ao processar vídeos, guarda fotogramas individuais como imagens. Útil para extrair fotogramas específicos ou para análise detalhada fotograma a fotograma. |
save_txt | bool | False | Guarda os resultados da deteção num ficheiro de texto, seguindo o formato [class] [x_center] [y_center] [width] [height] [confidence]. Útil para integração com outras ferramentas de análise. |
save_conf | bool | False | Inclui pontuações de confiança nos ficheiros de texto guardados. Melhora o detalhe disponível para pós-processamento e análise. |
save_crop | bool | False | Salva imagens recortadas das detecções. Útil para aumento de dados, análise ou criação de conjuntos de dados focados em objetos específicos. |
show_labels | bool | True | Exibe rótulos para cada detecção na saída visual. Proporciona compreensão imediata dos objetos detectados. |
show_conf | bool | True | Exibe a pontuação de confiança para cada detecção ao lado do rótulo. Fornece insights sobre a certeza do modelo para cada detecção. |
show_boxes | bool | True | Desenha caixas delimitadoras ao redor dos objetos detectados. Essencial para identificação visual e localização de objetos em imagens ou quadros de vídeo. |
line_width | int or None | None | Especifica a largura da linha das caixas delimitadoras. Se None, a largura da linha é ajustada automaticamente com base no tamanho da imagem. Proporciona personalização visual para maior clareza. |
Formatos de Imagem e Vídeo
O YOLO26 suporta vários formatos de imagem e vídeo, conforme especificado em ultralytics/data/utils.py. Veja as tabelas abaixo para os sufixos válidos e comandos de exemplo de previsão.
Imagens
A tabela abaixo contém formatos de imagem Ultralytics válidos.
Os formatos HEIC/HEIF requerem pi-heif, que é instalado automaticamente no primeiro uso. AVIF é suportado nativamente pelo Pillow.
| Sufixos de Imagem | Exemplo de Comando de Previsão | Referência |
|---|---|---|
.avif | yolo predict source=image.avif | Formato de Arquivo de Imagem AV1 |
.bmp | yolo predict source=image.bmp | Formato de Arquivo BMP da Microsoft |
.dng | yolo predict source=image.dng | Adobe DNG |
.heic | yolo predict source=image.heic | Formato de Imagem de Alta Eficiência |
.heif | yolo predict source=image.heif | Formato de Imagem de Alta Eficiência |
.jp2 | yolo predict source=image.jp2 | JPEG 2000 |
.jpeg | yolo predict source=image.jpeg | JPEG |
.jpg | yolo predict source=image.jpg | JPEG |
.mpo | yolo predict source=image.mpo | Objeto de Multi Imagem |
.png | yolo predict source=image.png | Portable Network Graphics |
.tif | yolo predict source=image.tif | Tag Image File Format |
.tiff | yolo predict source=image.tiff | Tag Image File Format |
.webp | yolo predict source=image.webp | WebP |
Vídeos
A tabela abaixo contém formatos de vídeo Ultralytics válidos.
| Sufixos de Vídeo | Exemplo de Comando de Previsão | Referência |
|---|---|---|
.asf | yolo predict source=video.asf | Advanced Systems Format |
.avi | yolo predict source=video.avi | Audio Video Interleave |
.gif | yolo predict source=video.gif | Graphics Interchange Format |
.m4v | yolo predict source=video.m4v | MPEG-4 Part 14 |
.mkv | yolo predict source=video.mkv | Matroska |
.mov | yolo predict source=video.mov | Formato de Arquivo QuickTime |
.mp4 | yolo predict source=video.mp4 | MPEG-4 Part 14 - Wikipédia |
.mpeg | yolo predict source=video.mpeg | MPEG-1 Part 2 |
.mpg | yolo predict source=video.mpg | MPEG-1 Part 2 |
.ts | yolo predict source=video.ts | MPEG Transport Stream |
.wmv | yolo predict source=video.wmv | Windows Media Video |
.webm | yolo predict source=video.webm | Projeto WebM |
Trabalhando com Resultados
Todas as chamadas predict() da Ultralytics retornarão uma lista de objetos Results:
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results = model(
[
"https://ultralytics.com/images/bus.jpg",
"https://ultralytics.com/images/zidane.jpg",
]
) # batch inferenceObjetos Results possuem os seguintes atributos:
| Atributo | Tipo | Descrição |
|---|---|---|
orig_img | np.ndarray | A imagem original como um array NumPy. |
orig_shape | tuple | O formato original da imagem em (altura, largura). |
boxes | Boxes, optional | Um objeto Boxes contendo as caixas delimitadoras (bounding boxes) da detecção. |
masks | Masks, optional | Um objeto Masks contendo as máscaras de detecção. |
probs | Probs, optional | Um objeto Probs contendo as probabilidades de cada classe para a tarefa de classificação. |
keypoints | Keypoints, optional | Um objeto Keypoints contendo os pontos-chave detectados para cada objeto. |
obb | OBB, optional | Um objeto OBB contendo caixas delimitadoras orientadas. |
speed | dict | Um dicionário com as velocidades de pré-processamento, inferência e pós-processamento em milissegundos por imagem. |
names | dict | Um dicionário mapeando índices de classes para nomes de classes. |
path | str | O caminho para o arquivo de imagem. |
save_dir | str, optional | Diretório para salvar os resultados. |
Objetos Results possuem os seguintes métodos:
| Método | Tipo de Retorno | Descrição |
|---|---|---|
update() | None | Atualiza o objeto Results com novos dados de detecção (boxes, masks, probs, obb, keypoints). |
cpu() | Results | Retorna uma cópia do objeto Results com todos os tensores movidos para a memória da CPU. |
numpy() | Results | Retorna uma cópia do objeto Results com todos os tensores convertidos para arrays NumPy. |
cuda() | Results | Retorna uma cópia do objeto Results com todos os tensores movidos para a memória da GPU. |
to() | Results | Retorna uma cópia do objeto Results com os tensores movidos para o dispositivo e dtype especificados. |
new() | Results | Cria um novo objeto Results com os mesmos atributos de imagem, caminho, nomes e velocidade. |
plot() | np.ndarray | Plota os resultados da detecção em uma imagem RGB de entrada e retorna a imagem anotada. |
show() | None | Exibe a imagem com os resultados da inferência anotados. |
save() | str | Salva a imagem com os resultados da inferência anotados em um arquivo e retorna o nome do arquivo. |
verbose() | str | Retorna uma string de log para cada tarefa, detalhando os resultados da detecção e classificação. |
save_txt() | str | Salva os resultados da detecção em um arquivo de texto e retorna o caminho para o arquivo salvo. |
save_crop() | None | Salva as imagens de detecção recortadas no diretório especificado. |
summary() | List[Dict[str, Any]] | Converte os resultados da inferência para um dicionário resumido com normalização opcional. |
to_df() | DataFrame | Converte os resultados da detecção para um DataFrame do Polars. |
to_csv() | str | Converte os resultados da detecção para o formato CSV. |
to_json() | str | Converte os resultados da detecção para o formato JSON. |
Para mais detalhes, veja a documentação da classe Results.
Boxes
O objeto Boxes pode ser usado para indexar, manipular e converter caixas delimitadoras para diferentes formatos.
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg") # results list
# View results
for r in results:
print(r.boxes) # print the Boxes object containing the detection bounding boxesAqui está uma tabela para os métodos e propriedades da classe Boxes, incluindo seu nome, tipo e descrição:
| Nome | Tipo | Descrição |
|---|---|---|
cpu() | Método | Move o objeto para a memória da CPU. |
numpy() | Método | Converte o objeto para um array NumPy. |
cuda() | Método | Move o objeto para a memória da CUDA. |
to() | Método | Move o objeto para o dispositivo especificado. |
xyxy | Propriedade (torch.Tensor) | Retorna as caixas no formato xyxy. |
conf | Propriedade (torch.Tensor) | Retorna os valores de confiança das caixas. |
cls | Propriedade (torch.Tensor) | Retorna os valores de classe das caixas. |
id | Propriedade (torch.Tensor) | Retorna os IDs de rastreamento das caixas (se disponíveis). |
xywh | Propriedade (torch.Tensor) | Retorna as caixas no formato xywh. |
xyxyn | Propriedade (torch.Tensor) | Retorna as caixas no formato xyxy normalizado pelo tamanho original da imagem. |
xywhn | Propriedade (torch.Tensor) | Retorna as caixas no formato xywh normalizado pelo tamanho original da imagem. |
Para mais detalhes, veja a documentação da classe Boxes.
Masks
O objeto Masks pode ser usado para indexar, manipular e converter máscaras em segmentos.
from ultralytics import YOLO
# Load a pretrained YOLO26n-seg Segment model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg") # results list
# View results
for r in results:
print(r.masks) # print the Masks object containing the detected instance masksAqui está uma tabela para os métodos e propriedades da classe Masks, incluindo seu nome, tipo e descrição:
| Nome | Tipo | Descrição |
|---|---|---|
cpu() | Método | Retorna o tensor de máscaras na memória da CPU. |
numpy() | Método | Retorna o tensor de máscaras como um array NumPy. |
cuda() | Método | Retorna o tensor de máscaras na memória da GPU. |
to() | Método | Retorna o tensor de máscaras com o dispositivo e dtype especificados. |
xyn | Propriedade (torch.Tensor) | Uma lista de segmentos normalizados representados como tensores. |
xy | Propriedade (torch.Tensor) | Uma lista de segmentos em coordenadas de pixel representados como tensores. |
Para mais detalhes, veja a documentação da classe Masks.
Keypoints
O objeto Keypoints pode ser usado para indexar, manipular e normalizar coordenadas.
from ultralytics import YOLO
# Load a pretrained YOLO26n-pose Pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg") # results list
# View results
for r in results:
print(r.keypoints) # print the Keypoints object containing the detected keypointsAqui está uma tabela para os métodos e propriedades da classe Keypoints, incluindo seus nomes, tipos e descrições:
| Nome | Tipo | Descrição |
|---|---|---|
cpu() | Método | Retorna o tensor de keypoints na memória da CPU. |
numpy() | Método | Retorna o tensor de keypoints como um array NumPy. |
cuda() | Método | Retorna o tensor de keypoints na memória da GPU. |
to() | Método | Retorna o tensor de keypoints com o dispositivo e o dtype especificados. |
xyn | Propriedade (torch.Tensor) | Uma lista de keypoints normalizados representados como tensores. |
xy | Propriedade (torch.Tensor) | Uma lista de keypoints em coordenadas de pixel representados como tensores. |
conf | Propriedade (torch.Tensor) | Retorna os valores de confiança dos keypoints, se disponíveis, caso contrário, None. |
Para mais detalhes, veja a documentação da classe Keypoints.
Probs
O objeto Probs pode ser usado para indexar e obter índices e pontuações top1 e top5 da classificação.
from ultralytics import YOLO
# Load a pretrained YOLO26n-cls Classify model
model = YOLO("yolo26n-cls.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg") # results list
# View results
for r in results:
print(r.probs) # print the Probs object containing the detected class probabilitiesAqui está uma tabela resumindo os métodos e propriedades da classe Probs:
| Nome | Tipo | Descrição |
|---|---|---|
cpu() | Método | Retorna uma cópia do tensor probs na memória da CPU. |
numpy() | Método | Retorna uma cópia do tensor probs como um array NumPy. |
cuda() | Método | Retorna uma cópia do tensor probs na memória da GPU. |
to() | Método | Retorna uma cópia do tensor probs com o dispositivo e o dtype especificados. |
top1 | Propriedade (int) | Índice da classe top 1. |
top5 | Propriedade (list[int]) | Índices das classes top 5. |
top1conf | Propriedade (torch.Tensor) | Confiança da classe top 1. |
top5conf | Propriedade (torch.Tensor) | Confianças das classes top 5. |
Para mais detalhes, veja a documentação da classe Probs.
OBB
O objeto OBB pode ser usado para indexar, manipular e converter caixas delimitadoras orientadas para diferentes formatos.
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n-obb.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/boats.jpg") # results list
# View results
for r in results:
print(r.obb) # print the OBB object containing the oriented detection bounding boxesAqui está uma tabela para os métodos e propriedades da classe OBB, incluindo seus nomes, tipos e descrições:
| Nome | Tipo | Descrição |
|---|---|---|
cpu() | Método | Move o objeto para a memória da CPU. |
numpy() | Método | Converte o objeto para um array NumPy. |
cuda() | Método | Move o objeto para a memória da CUDA. |
to() | Método | Move o objeto para o dispositivo especificado. |
conf | Propriedade (torch.Tensor) | Retorna os valores de confiança das caixas. |
cls | Propriedade (torch.Tensor) | Retorna os valores de classe das caixas. |
id | Propriedade (torch.Tensor) | Retorna os IDs de rastreamento das caixas (se disponíveis). |
xyxy | Propriedade (torch.Tensor) | Retorna as caixas horizontais no formato xyxy. |
xywhr | Propriedade (torch.Tensor) | Retorna as caixas rotacionadas no formato xywhr. |
xyxyxyxy | Propriedade (torch.Tensor) | Retorna as caixas rotacionadas no formato xyxyxyxy. |
xyxyxyxyn | Propriedade (torch.Tensor) | Retorna as caixas rotacionadas no formato xyxyxyxy normalizado pelo tamanho da imagem. |
Para mais detalhes, veja a documentação da classe OBB.
Visualizando Resultados
O método plot() em objetos Results facilita a visualização de predições ao sobrepor objetos detectados (como caixas delimitadoras, máscaras, keypoints e probabilidades) na imagem original. Este método retorna a imagem anotada como um array NumPy, permitindo fácil exibição ou salvamento.
from PIL import Image
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on 'bus.jpg'
results = model(["https://ultralytics.com/images/bus.jpg", "https://ultralytics.com/images/zidane.jpg"]) # results list
# Visualize the results
for i, r in enumerate(results):
# Plot results image
im_bgr = r.plot() # BGR-order numpy array
im_rgb = Image.fromarray(im_bgr[..., ::-1]) # RGB-order PIL image
# Show results to screen (in supported environments)
r.show()
# Save results to disk
r.save(filename=f"results{i}.jpg")Parâmetros do método plot()
O método plot() suporta vários argumentos para personalizar a saída:
| Argumento | Tipo | Descrição | Padrão |
|---|---|---|---|
conf | bool | Incluir pontuações de confiança da detecção. | True |
line_width | float | Espessura da linha das caixas delimitadoras. Escala com o tamanho da imagem se for None. | None |
font_size | float | Tamanho da fonte do texto. Escala com o tamanho da imagem se for None. | None |
font | str | Nome da fonte para anotações de texto. | 'Arial.ttf' |
pil | bool | Retornar imagem como um objeto PIL Image. | False |
img | np.ndarray | Imagem alternativa para plotagem. Usa a imagem original se for None. | None |
im_gpu | torch.Tensor | Imagem acelerada por GPU para plotagem de máscara mais rápida. Formato: (1, 3, 640, 640). | None |
kpt_radius | int | Raio para keypoints desenhados. | 5 |
kpt_line | bool | Conectar keypoints com linhas. | True |
labels | bool | Incluir rótulos de classe nas anotações. | True |
boxes | bool | Sobrepor caixas delimitadoras na imagem. | True |
masks | bool | Sobrepor máscaras na imagem. | True |
probs | bool | Incluir probabilidades de classificação. | True |
show | bool | Exibir a imagem anotada diretamente usando o visualizador de imagens padrão. | False |
save | bool | Salvar a imagem anotada em um arquivo especificado por filename. | False |
filename | str | Caminho e nome do arquivo para salvar a imagem anotada se save for True. | None |
color_mode | str | Especificar o modo de cor, ex: 'instance' ou 'class'. | 'class' |
txt_color | tuple[int, int, int] | Cor do texto RGB para caixa delimitadora e rótulo de classificação de imagem. | (255, 255, 255) |
Inferência Thread-Safe
Garantir a segurança de thread durante a inferência é crucial quando você está executando vários modelos YOLO em paralelo através de diferentes threads. A inferência thread-safe garante que as predições de cada thread sejam isoladas e não interfiram umas nas outras, evitando condições de corrida e garantindo resultados consistentes e confiáveis.
Ao usar modelos YOLO em uma aplicação multi-threaded, é importante instanciar objetos de modelo separados para cada thread ou empregar armazenamento local de thread para evitar conflitos:
Instancie um único modelo dentro de cada thread para uma inferência thread-safe:
from threading import Thread
from ultralytics import YOLO
def thread_safe_predict(model, image_path):
"""Performs thread-safe prediction on an image using a locally instantiated YOLO model."""
model = YOLO(model)
results = model.predict(image_path)
# Process results
# Starting threads that each have their own model instance
Thread(target=thread_safe_predict, args=("yolo26n.pt", "image1.jpg")).start()
Thread(target=thread_safe_predict, args=("yolo26n.pt", "image2.jpg")).start()Para uma visão detalhada sobre inferência thread-safe com modelos YOLO e instruções passo a passo, por favor, consulte nosso Guia de Inferência Thread-Safe YOLO. Este guia fornecerá todas as informações necessárias para evitar erros comuns e garantir que sua inferência multi-threaded funcione sem problemas.
Loop for de fonte de streaming
Aqui está um script Python usando OpenCV (cv2) e YOLO para executar inferência em frames de vídeo. Este script assume que você já instalou os pacotes necessários (opencv-python e ultralytics).
import cv2
from ultralytics import YOLO
# Load the YOLO model
model = YOLO("yolo26n.pt")
# Open the video file
video_path = "path/to/your/video/file.mp4"
cap = cv2.VideoCapture(video_path)
# Loop through the video frames
while cap.isOpened():
# Read a frame from the video
success, frame = cap.read()
if success:
# Run YOLO inference on the frame
results = model(frame)
# Visualize the results on the frame
annotated_frame = results[0].plot()
# Display the annotated frame
cv2.imshow("YOLO Inference", annotated_frame)
# Break the loop if 'q' is pressed
if cv2.waitKey(1) & 0xFF == ord("q"):
break
else:
# Break the loop if the end of the video is reached
break
# Release the video capture object and close the display window
cap.release()
cv2.destroyAllWindows()Este script executará predições em cada frame do vídeo, visualizará os resultados e os exibirá em uma janela. O loop pode ser encerrado pressionando 'q'.
FAQ
O que é Ultralytics YOLO e seu modo predict para inferência em tempo real?
Ultralytics YOLO é um modelo de última geração para detecção de objetos em tempo real, segmentação de instância, segmentação semântica e classificação. Seu modo predict permite aos usuários realizar inferência de alta velocidade em várias fontes de dados, como imagens, vídeos e transmissões ao vivo. Projetado para desempenho e versatilidade, ele também oferece modos de processamento em lote e streaming. Para mais detalhes sobre seus recursos, confira o modo predict do Ultralytics YOLO.
Como posso executar inferência usando Ultralytics YOLO em diferentes fontes de dados?
Ultralytics YOLO pode processar uma ampla gama de fontes de dados, incluindo imagens individuais, vídeos, diretórios, URLs e streams. Você pode especificar a fonte de dados na chamada model.predict(). Por exemplo, use 'image.jpg' para uma imagem local ou 'https://ultralytics.com/images/bus.jpg' para uma URL. Confira os exemplos detalhados para várias fontes de inferência na documentação.
Como otimizo a velocidade de inferência e o uso de memória do YOLO?
Para otimizar a velocidade de inferência e gerenciar a memória de forma eficiente, você pode usar o modo de streaming definindo stream=True no método de chamada do preditor. O modo de streaming gera um gerador eficiente em termos de memória de objetos Results em vez de carregar todos os frames na memória. Para processar vídeos longos ou grandes conjuntos de dados, o modo de streaming é particularmente útil. Saiba mais sobre o modo de streaming.
Quais argumentos de inferência o Ultralytics YOLO suporta?
O método model.predict() no YOLO suporta vários argumentos como conf, iou, imgsz, device e outros. Esses argumentos permitem que você personalize o processo de inferência, definindo parâmetros como limites de confiança, tamanho da imagem e o dispositivo usado para computação. Descrições detalhadas desses argumentos podem ser encontradas na seção argumentos de inferência.
Como posso visualizar e salvar os resultados das predições YOLO?
Após executar a inferência com YOLO, os objetos Results contêm métodos para exibir e salvar imagens anotadas. Você pode usar métodos como result.show() e result.save(filename="result.jpg") para visualizar e salvar os resultados. Quaisquer diretórios pais ausentes no caminho do filename são criados automaticamente (ex: result.save("path/to/result.jpg")). Para uma lista abrangente desses métodos, consulte a seção trabalhando com resultados.


