Modelo de predicción con Ultralytics YOLO
Introducción
En el mundo del aprendizaje automático y la visión por ordenador, el proceso de dar sentido a los datos visuales se denomina "inferencia" o "predicción". Ultralytics YOLO11 ofrece una potente función conocida como modo de predicción, diseñada para realizar inferencias de alto rendimiento y en tiempo real sobre una amplia gama de fuentes de datos.
Observa: Cómo extraer los resultados del modelo Ultralytics YOLO para proyectos personalizados.
Aplicaciones en el mundo real
Fabricación | Deportes | Seguridad |
---|---|---|
Detección de recambios de vehículos | Detección de jugadores de fútbol | Detección de caídas de personas |
¿Por qué utilizar Ultralytics YOLO para la inferencia?
He aquí por qué deberías considerar el modo de predicción de YOLO11 para tus diversas necesidades de inferencia:
- Versatilidad: Capaz de hacer inferencias sobre imágenes, vídeos e incluso transmisiones en directo.
- Rendimiento: Diseñado para el procesamiento en tiempo real a alta velocidad sin sacrificar la precisión.
- Facilidad de uso: interfaces intuitivas Python y CLI para una rápida implantación y pruebas.
- Altamente personalizable: Varios ajustes y parámetros para ajustar el comportamiento de inferencia del modelo según tus requisitos específicos.
Características principales del modo Predecir
El modo de predicción de YOLO11 está diseñado para ser robusto y versátil, y cuenta con:
- Compatibilidad con múltiples fuentes de datos: Tanto si tus datos están en forma de imágenes individuales, una colección de imágenes, archivos de vídeo o flujos de vídeo en tiempo real, el modo Predecir te tiene cubierto.
- Modo Streaming: Utiliza la función de streaming para generar un generador de memoria eficiente de
Results
objetos. Actívalo configurandostream=True
en el método de llamada del predictor. - Procesamiento por lotes: La capacidad de procesar varias imágenes o fotogramas de vídeo en un solo lote, lo que acelera aún más el tiempo de inferencia.
- Fácil de integrar: se integra fácilmente con las canalizaciones de datos existentes y otros componentes de software, gracias a su flexible API.
Ultralytics YOLO devuelven una lista Python de Results
o un generador de objetos de memoria eficiente Python Results
objetos cuando stream=True
se pasa al modelo durante la inferencia:
Predecir
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # pretrained YOLO11n model
# Run batched inference on a list of images
results = model(["image1.jpg", "image2.jpg"]) # return a list of Results objects
# Process results list
for result in results:
boxes = result.boxes # Boxes object for bounding box outputs
masks = result.masks # Masks object for segmentation masks outputs
keypoints = result.keypoints # Keypoints object for pose outputs
probs = result.probs # Probs object for classification outputs
obb = result.obb # Oriented boxes object for OBB outputs
result.show() # display to screen
result.save(filename="result.jpg") # save to disk
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # pretrained YOLO11n model
# Run batched inference on a list of images
results = model(["image1.jpg", "image2.jpg"], stream=True) # return a generator of Results objects
# Process results generator
for result in results:
boxes = result.boxes # Boxes object for bounding box outputs
masks = result.masks # Masks object for segmentation masks outputs
keypoints = result.keypoints # Keypoints object for pose outputs
probs = result.probs # Probs object for classification outputs
obb = result.obb # Oriented boxes object for OBB outputs
result.show() # display to screen
result.save(filename="result.jpg") # save to disk
Fuentes de inferencia
YOLO11 puede procesar distintos tipos de fuentes de entrada para la inferencia, como se muestra en la tabla siguiente. Las fuentes incluyen imágenes estáticas, secuencias de vídeo y diversos formatos de datos. La tabla también indica si cada fuente puede utilizarse en modo streaming con el argumento stream=True
✅. El modo Streaming es beneficioso para procesar vídeos o transmisiones en directo, ya que crea un generador de resultados en lugar de cargar todos los fotogramas en la memoria.
Consejo
Utiliza stream=True
para procesar vídeos largos o grandes conjuntos de datos, con el fin de gestionar eficazmente la memoria. Cuando stream=False
los resultados de todos los fotogramas o puntos de datos se almacenan en memoria, lo que puede sumarse rápidamente y provocar errores de falta de memoria para entradas grandes. Por el contrario, stream=True
utiliza un generador, que sólo mantiene en memoria los resultados del fotograma o punto de datos actual, reduciendo significativamente el consumo de memoria y evitando problemas de falta de memoria.
Fuente | Ejemplo | Tipo | Notas |
---|---|---|---|
imagen | 'image.jpg' | str o Path | Un solo archivo de imagen. |
URL | 'https://ultralytics.com/images/bus.jpg' | str | URL de una imagen. |
captura de pantalla | 'screen' | str | Haz una captura de pantalla. |
PIL | Image.open('image.jpg') | PIL.Image | Formato HWC con canales RGB. |
OpenCV | cv2.imread('image.jpg') | np.ndarray | Formato HWC con canales BGR uint8 (0-255) . |
numpy | np.zeros((640,1280,3)) | np.ndarray | Formato HWC con canales BGR uint8 (0-255) . |
torch | torch.zeros(16,3,320,640) | torch.Tensor | Formato BCHW con canales RGB float32 (0.0-1.0) . |
CSV | 'sources.csv' | str o Path | Archivo CSV que contiene rutas a imágenes, vídeos o directorios. |
vídeo ✅ | 'video.mp4' | str o Path | Archivo de vídeo en formatos como MP4, AVI, etc. |
directorio ✅ | 'path/' | str o Path | Ruta a un directorio que contenga imágenes o vídeos. |
glob ✅ | 'path/*.jpg' | str | Patrón glob para que coincida con varios archivos. Utiliza el patrón * como comodín. |
YouTube ✅ | 'https://youtu.be/LNwODJXcvt4' | str | URL a un vídeo de YouTube. |
flujo ✅ | 'rtsp://example.com/media.mp4' | str | URL para protocolos de streaming como RTSP, RTMP, TCP, o una dirección IP. |
multiflujo ✅ | 'list.streams' | str o Path | *.streams archivo de texto con una URL de flujo por fila, es decir, 8 flujos se ejecutarán con un tamaño de lote 8. |
webcam ✅ | 0 | int | Índice del dispositivo de cámara conectado sobre el que ejecutar la inferencia. |
A continuación encontrarás ejemplos de código para utilizar cada tipo de fuente:
Fuentes de predicción
Ejecuta la inferencia en un archivo de imagen.
Ejecuta la inferencia sobre el contenido de la pantalla actual como una captura de pantalla.
Ejecuta la inferencia en una imagen o vídeo alojado a distancia mediante una URL.
Ejecuta la inferencia en una imagen abierta con Python Biblioteca de Imágenes (PIL).
Ejecuta la inferencia sobre una imagen leída con OpenCV.
Ejecuta la inferencia sobre una imagen representada como una matriz numpy.
import numpy as np
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Create a random numpy array of HWC shape (640, 640, 3) with values in range [0, 255] and type uint8
source = np.random.randint(low=0, high=255, size=(640, 640, 3), dtype="uint8")
# Run inference on the source
results = model(source) # list of Results objects
Ejecutar la inferencia sobre una imagen representada como PyTorch tensor.
import torch
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Create a random torch tensor of BCHW shape (1, 3, 640, 640) with values in range [0, 1] and type float32
source = torch.rand(1, 3, 640, 640, dtype=torch.float32)
# Run inference on the source
results = model(source) # list of Results objects
Ejecuta la inferencia sobre una colección de imágenes, URLs, vídeos y directorios listados en un archivo CSV.
Ejecuta la inferencia en un archivo de vídeo. Utilizando stream=True
puedes crear un generador de objetos Resultados para reducir el uso de memoria.
Ejecuta la inferencia en todas las imágenes y vídeos de un directorio. Para capturar también imágenes y vídeos en subdirectorios, utiliza un patrón glob, es decir path/to/dir/**/*
.
Ejecuta la inferencia en todas las imágenes y vídeos que coincidan con una expresión glob con *
caracteres.
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Define a glob search for all JPG files in a directory
source = "path/to/dir/*.jpg"
# OR define a recursive glob search for all JPG files including subdirectories
source = "path/to/dir/**/*.jpg"
# Run inference on the source
results = model(source, stream=True) # generator of Results objects
Ejecuta la inferencia en un vídeo de YouTube. Utilizando stream=True
puedes crear un generador de objetos Resultados para reducir el uso de memoria en los vídeos largos.
Utiliza el modo de flujo para ejecutar la inferencia en flujos de vídeo en directo utilizando protocolos RTSP, RTMP, TCP o direcciones IP. Si se proporciona un único flujo, el modelo ejecuta la inferencia con un tamaño del lote de 1. Para flujos múltiples, a .streams
puede utilizarse para realizar inferencias por lotes, en las que el tamaño del lote viene determinado por el número de flujos proporcionados (por ejemplo, tamaño de lote 8 para 8 flujos).
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Single stream with batch-size 1 inference
source = "rtsp://example.com/media.mp4" # RTSP, RTMP, TCP, or IP streaming address
# Run inference on the source
results = model(source, stream=True) # generator of Results objects
Para el uso de un único flujo, el tamaño del lote se establece en 1 por defecto, lo que permite un procesamiento eficiente en tiempo real de la señal de vídeo.
Para manejar varios flujos de vídeo simultáneamente, utiliza un .streams
archivo de texto que contiene las fuentes de flujo. El modelo ejecutará la inferencia por lotes, donde el tamaño del lote es igual al número de flujos. Esta configuración permite un procesamiento eficaz de múltiples fuentes simultáneamente.
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Multiple streams with batched inference (e.g., batch-size 8 for 8 streams)
source = "path/to/list.streams" # *.streams text file with one streaming address per line
# Run inference on the source
results = model(source, stream=True) # generator of Results objects
Ejemplo .streams
archivo de texto:
rtsp://example.com/media1.mp4
rtsp://example.com/media2.mp4
rtmp://example2.com/live
tcp://192.168.1.100:554
...
Cada fila del archivo representa una fuente de flujo, lo que te permite controlar y realizar inferencias sobre varios flujos de vídeo a la vez.
Puedes ejecutar la inferencia en un dispositivo de cámara conectado pasando el índice de esa cámara concreta a source
.
Argumentos de inferencia
model.predict()
acepta múltiples argumentos que pueden pasarse en el momento de la inferencia para anular los valores por defecto:
Ejemplo
Argumentos de inferencia:
Argumento | Tipo | Por defecto | Descripción |
---|---|---|---|
source | str | 'ultralytics/assets' | Especifica la fuente de datos para la inferencia. Puede ser una ruta de imagen, un archivo de vídeo, un directorio, una URL o el ID de un dispositivo para transmisiones en directo. Admite una amplia gama de formatos y fuentes, lo que permite una aplicación flexible en distintos tipos de entrada. |
conf | float | 0.25 | Establece el umbral mínimo de confianza para las detecciones. Los objetos detectados con una confianza inferior a este umbral serán descartados. Ajustar este valor puede ayudar a reducir los falsos positivos. |
iou | float | 0.7 | Umbral de Intersección Sobre Unión (IoU) para la Supresión No Máxima (NMS). Los valores más bajos dan lugar a menos detecciones al eliminar las cajas superpuestas, lo que resulta útil para reducir los duplicados. |
imgsz | int or tuple | 640 | Define el tamaño de la imagen para la inferencia. Puede ser un único número entero 640 para un cambio de tamaño cuadrado o una tupla (alto, ancho). Un tamaño adecuado puede mejorar la detección precisión y la velocidad de procesamiento. |
half | bool | False | Permite la inferencia de media precisión (FP16), que puede acelerar la inferencia del modelo en las GPU compatibles con un impacto mínimo en la precisión. |
device | str | None | Especifica el dispositivo para la inferencia (por ejemplo, cpu , cuda:0 o 0 ). Permite a los usuarios seleccionar entre CPU, un GPU específico u otros dispositivos de cálculo para la ejecución del modelo. |
max_det | int | 300 | Número máximo de detecciones permitidas por imagen. Limita el número total de objetos que el modelo puede detectar en una sola inferencia, evitando salidas excesivas en escenas densas. |
vid_stride | int | 1 | Salto de fotogramas para entradas de vídeo. Permite saltar fotogramas en los vídeos para acelerar el procesamiento a costa de la resolución temporal. Un valor de 1 procesa cada fotograma, valores superiores omiten fotogramas. |
stream_buffer | bool | False | Determina si se ponen en cola los fotogramas entrantes para las secuencias de vídeo. Si False Si es `Verdadero', los fotogramas antiguos se omiten para dar cabida a los nuevos (optimizado para aplicaciones en tiempo real). Si es `Verdadero', pone en cola los fotogramas nuevos en un búfer, asegurando que no se salte ningún fotograma, pero causará latencia si los FPS de la inferencia son inferiores a los FPS del flujo. |
visualize | bool | False | Activa la visualización de las características del modelo durante la inferencia, proporcionando información sobre lo que el modelo está "viendo". Útil para la depuración y la interpretación del modelo. |
augment | bool | False | Permite el aumento del tiempo de prueba (TTA) para las predicciones, mejorando potencialmente la robustez de la detección a costa de la velocidad de inferencia. |
agnostic_nms | bool | False | Activa la Supresión No Máxima (NMS) agnóstica de clases, que fusiona las cajas superpuestas de clases diferentes. Útil en escenarios de detección multiclase en los que el solapamiento de clases es habitual. |
classes | list[int] | None | Filtra las predicciones a un conjunto de ID de clase. Sólo se devolverán las detecciones que pertenezcan a las clases especificadas. Útil para centrarse en objetos relevantes en tareas de detección multiclase. |
retina_masks | bool | False | Devuelve máscaras de segmentación de alta resolución. Las máscaras devueltas (masks.data ) coincidirán con el tamaño original de la imagen si están activados. Si están desactivadas, tendrán el tamaño de imagen utilizado durante la inferencia. |
embed | list[int] | None | Especifica las capas de las que extraer vectores de características o incrustaciones. Útil para tareas posteriores como la agrupación o la búsqueda de similitudes. |
project | str | None | Nombre del directorio del proyecto donde se guardan los resultados de la predicción si save está activado. |
name | str | None | Nombre de la ejecución de la predicción. Se utiliza para crear un subdirectorio dentro de la carpeta del proyecto, donde se almacenan los resultados de la predicción si save está activado. |
Argumentos de visualización:
Argumento | Tipo | Por defecto | Descripción |
---|---|---|---|
show | bool | False | Si True muestra las imágenes o vídeos anotados en una ventana. Resulta útil para obtener información visual inmediata durante el desarrollo o las pruebas. |
save | bool | False o True | Permite guardar las imágenes o vídeos anotados en un archivo. Útil para documentación, análisis posteriores o para compartir resultados. Por defecto es Verdadero cuando se utiliza CLI y Falso cuando se utiliza en Python. |
save_frames | bool | False | Al procesar vídeos, guarda fotogramas individuales como imágenes. Es útil para extraer fotogramas concretos o para un análisis detallado fotograma a fotograma. |
save_txt | bool | False | Guarda los resultados de la detección en un archivo de texto, siguiendo el formato [class] [x_center] [y_center] [width] [height] [confidence] . Útil para la integración con otras herramientas de análisis. |
save_conf | bool | False | Incluye puntuaciones de confianza en los archivos de texto guardados. Aumenta el detalle disponible para el postprocesado y el análisis. |
save_crop | bool | False | Guarda imágenes recortadas de las detecciones. Útil para aumentar el conjunto de datos, analizarlos o crear conjuntos de datos centrados en objetos concretos. |
show_labels | bool | True | Muestra etiquetas para cada detección en la salida visual. Proporciona una comprensión inmediata de los objetos detectados. |
show_conf | bool | True | Muestra la puntuación de confianza de cada detección junto a la etiqueta. Da una idea de la certeza del modelo para cada detección. |
show_boxes | bool | True | Dibuja recuadros delimitadores alrededor de los objetos detectados. Esencial para la identificación visual y la localización de objetos en imágenes o fotogramas de vídeo. |
line_width | None o int | None | Especifica la anchura de línea de los cuadros delimitadores. Si None El ancho de línea se ajusta automáticamente en función del tamaño de la imagen. Proporciona personalización visual para mayor claridad. |
Formatos de imagen y vídeo
YOLO11 admite varios formatos de imagen y vídeo, como se especifica en ultralytics/data/utils .py. Consulta las tablas siguientes para ver los sufijos válidos y los comandos predict de ejemplo.
Imágenes
La siguiente tabla contiene los formatos de imagen válidos de Ultralytics .
Nota
Las imágenes HEIC sólo se admiten para la inferencia, no para el entrenamiento.
Sufijos de imagen | Ejemplo de orden Predecir | Referencia |
---|---|---|
.bmp | yolo predict source=image.bmp | Microsoft Formato de archivo BMP |
.dng | yolo predict source=image.dng | Adobe DNG |
.jpeg | yolo predict source=image.jpeg | JPEG |
.jpg | yolo predict source=image.jpg | JPEG |
.mpo | yolo predict source=image.mpo | Objeto Multiimagen |
.png | yolo predict source=image.png | Gráficos de red portátiles |
.tif | yolo predict source=image.tif | Etiqueta Formato de archivo de imagen |
.tiff | yolo predict source=image.tiff | Etiqueta Formato de archivo de imagen |
.webp | yolo predict source=image.webp | WebP |
.pfm | yolo predict source=image.pfm | FloatMap portátil |
.HEIC | yolo predict source=image.HEIC | Formato de Imagen de Alta Eficacia |
Vídeos
La siguiente tabla contiene los formatos de vídeo válidos de Ultralytics .
Sufijos de vídeo | Ejemplo de orden Predecir | Referencia |
---|---|---|
.asf | yolo predict source=video.asf | Formato de sistemas avanzados |
.avi | yolo predict source=video.avi | Intercalación de audio y vídeo |
.gif | yolo predict source=video.gif | Formato de intercambio de gráficos |
.m4v | yolo predict source=video.m4v | MPEG-4 Parte 14 |
.mkv | yolo predict source=video.mkv | Matroska |
.mov | yolo predict source=video.mov | Formato de archivo QuickTime |
.mp4 | yolo predict source=video.mp4 | MPEG-4 Parte 14 - Wikipedia |
.mpeg | yolo predict source=video.mpeg | MPEG-1 Parte 2 |
.mpg | yolo predict source=video.mpg | MPEG-1 Parte 2 |
.ts | yolo predict source=video.ts | Flujo de transporte MPEG |
.wmv | yolo predict source=video.wmv | Vídeo de Windows Media |
.webm | yolo predict source=video.webm | Proyecto WebM |
Trabajar con resultados
Todos Ultralytics predict()
devolverá una lista de Results
objetos:
Resultados
Results
tienen los siguientes atributos:
Atributo | Tipo | Descripción |
---|---|---|
orig_img | numpy.ndarray | La imagen original como matriz numpy. |
orig_shape | tuple | La forma de la imagen original en formato (alto, ancho). |
boxes | Boxes, optional | Un objeto Cajas que contiene las cajas delimitadoras de la detección. |
masks | Masks, optional | Un objeto Máscaras que contiene las máscaras de detección. |
probs | Probs, optional | Un objeto Probs que contiene las probabilidades de cada clase para la tarea de clasificación. |
keypoints | Keypoints, optional | Un objeto Puntos clave que contiene los puntos clave detectados para cada objeto. |
obb | OBB, optional | Un objeto OBB que contiene cuadros delimitadores orientados. |
speed | dict | Un diccionario de velocidades de preproceso, inferencia y postproceso en milisegundos por imagen. |
names | dict | Un diccionario de nombres de clases. |
path | str | La ruta al archivo de imagen. |
Results
tienen los siguientes métodos:
Método | Tipo de devolución | Descripción |
---|---|---|
update() | None | Actualiza los atributos casillas, máscaras y probs del objeto Resultados. |
cpu() | Results | Devuelve una copia del objeto Resultados con todos los tensores en la memoria CPU . |
numpy() | Results | Devuelve una copia del objeto Resultados con todos los tensores como matrices numpy. |
cuda() | Results | Devuelve una copia del objeto Resultados con todos los tensores en la memoria GPU . |
to() | Results | Devuelve una copia del objeto Resultados con tensores en el dispositivo y dtype especificados. |
new() | Results | Devuelve un nuevo objeto Resultados con la misma imagen, ruta y nombres. |
plot() | numpy.ndarray | Traza los resultados de la detección. Devuelve una matriz numpy de la imagen anotada. |
show() | None | Mostrar resultados anotados en pantalla. |
save() | None | Guarda los resultados anotados en un archivo. |
verbose() | str | Devuelve la cadena de registro de cada tarea. |
save_txt() | None | Guarda las predicciones en un archivo txt. |
save_crop() | None | Guardar predicciones recortadas en save_dir/cls/file_name.jpg . |
tojson() | str | Convierte el objeto a formato JSON. |
Para más detalles, consulta Results
documentación de clase.
Cajas
Boxes
puede utilizarse para indexar, manipular y convertir cuadros delimitadores a distintos formatos.
Cajas
Aquí tienes una tabla para la Boxes
métodos y propiedades de la clase, incluyendo su nombre, tipo y descripción:
Nombre | Tipo | Descripción |
---|---|---|
cpu() | Método | Mueve el objeto a la memoria CPU . |
numpy() | Método | Convierte el objeto en una matriz numpy. |
cuda() | Método | Mueve el objeto a la memoria CUDA . |
to() | Método | Mueve el objeto al dispositivo especificado. |
xyxy | Propiedad (torch.Tensor ) | Devuelve las casillas en formato xyxy. |
conf | Propiedad (torch.Tensor ) | Devuelve los valores de confianza de las casillas. |
cls | Propiedad (torch.Tensor ) | Devuelve los valores de clase de las cajas. |
id | Propiedad (torch.Tensor ) | Devuelve los ID de pista de las cajas (si están disponibles). |
xywh | Propiedad (torch.Tensor ) | Devuelve las cajas en formato xywh. |
xyxyn | Propiedad (torch.Tensor ) | Devuelve las cajas en formato xyxy normalizadas por el tamaño de la imagen original. |
xywhn | Propiedad (torch.Tensor ) | Devuelve las cajas en formato xywh normalizadas por tamaño de imagen original. |
Para más detalles, consulta Boxes
documentación de clase.
Máscaras
Masks
se puede utilizar para indexar, manipular y convertir máscaras en segmentos.
Máscaras
Aquí tienes una tabla para la Masks
métodos y propiedades de la clase, incluyendo su nombre, tipo y descripción:
Nombre | Tipo | Descripción |
---|---|---|
cpu() | Método | Devuelve las máscaras tensor en la memoria CPU . |
numpy() | Método | Devuelve las máscaras tensor como una matriz numpy. |
cuda() | Método | Devuelve las máscaras tensor en la memoria GPU . |
to() | Método | Devuelve las máscaras tensor con el dispositivo y dtype especificados. |
xyn | Propiedad (torch.Tensor ) | Una lista de segmentos normalizados representados como tensores. |
xy | Propiedad (torch.Tensor ) | Una lista de segmentos en coordenadas de píxel representados como tensores. |
Para más detalles, consulta Masks
documentación de clase.
Puntos clave
Keypoints
se puede utilizar para indexar, manipular y normalizar coordenadas.
Puntos clave
Aquí tienes una tabla para la Keypoints
métodos y propiedades de la clase, incluyendo su nombre, tipo y descripción:
Nombre | Tipo | Descripción |
---|---|---|
cpu() | Método | Devuelve los puntos clave tensor en la memoria CPU . |
numpy() | Método | Devuelve los puntos clave tensor como una matriz numpy. |
cuda() | Método | Devuelve los puntos clave tensor en la memoria GPU . |
to() | Método | Devuelve los puntos clave tensor con el dispositivo y dtype especificados. |
xyn | Propiedad (torch.Tensor ) | Una lista de puntos clave normalizados representados como tensores. |
xy | Propiedad (torch.Tensor ) | Una lista de puntos clave en coordenadas de píxel representados como tensores. |
conf | Propiedad (torch.Tensor ) | Devuelve los valores de confianza de los puntos clave si están disponibles, en caso contrario Ninguno. |
Para más detalles, consulta Keypoints
documentación de clase.
Probs
Probs
se puede utilizar indexar, obtener top1
y top5
índices y puntuaciones de clasificación.
Probs
Aquí tienes una tabla que resume los métodos y propiedades de la función Probs
clase:
Nombre | Tipo | Descripción |
---|---|---|
cpu() | Método | Devuelve una copia de los probs tensor en la memoria CPU . |
numpy() | Método | Devuelve una copia de las probs tensor como matriz numpy. |
cuda() | Método | Devuelve una copia de los probs tensor en la memoria GPU . |
to() | Método | Devuelve una copia de los probs tensor con el dispositivo y dtype especificados. |
top1 | Propiedad (int ) | Índice de la clase 1 superior. |
top5 | Propiedad (list[int] ) | Índices de las 5 clases principales. |
top1conf | Propiedad (torch.Tensor ) | Confianza de la clase 1 superior. |
top5conf | Propiedad (torch.Tensor ) | Confidencias de las 5 primeras clases. |
Para más detalles, consulta Probs
documentación de clase.
OBB
OBB
puede utilizarse para indexar, manipular y convertir cuadros delimitadores orientados a distintos formatos.
OBB
Aquí tienes una tabla para la OBB
métodos y propiedades de la clase, incluyendo su nombre, tipo y descripción:
Nombre | Tipo | Descripción |
---|---|---|
cpu() | Método | Mueve el objeto a la memoria CPU . |
numpy() | Método | Convierte el objeto en una matriz numpy. |
cuda() | Método | Mueve el objeto a la memoria CUDA . |
to() | Método | Mueve el objeto al dispositivo especificado. |
conf | Propiedad (torch.Tensor ) | Devuelve los valores de confianza de las casillas. |
cls | Propiedad (torch.Tensor ) | Devuelve los valores de clase de las cajas. |
id | Propiedad (torch.Tensor ) | Devuelve los ID de pista de las cajas (si están disponibles). |
xyxy | Propiedad (torch.Tensor ) | Devuelve las cajas horizontales en formato xyxy. |
xywhr | Propiedad (torch.Tensor ) | Devuelve las cajas giradas en formato xywhr. |
xyxyxyxy | Propiedad (torch.Tensor ) | Devuelve las cajas rotadas en formato xyxyxyxy. |
xyxyxyxyn | Propiedad (torch.Tensor ) | Devuelve las cajas rotadas en formato xyxyxyxy normalizadas por el tamaño de la imagen. |
Para más detalles, consulta OBB
documentación de clase.
Trazar resultados
En plot()
método en Results
facilita la visualización de las predicciones superponiendo los objetos detectados (como cuadros delimitadores, máscaras, puntos clave y probabilidades) sobre la imagen original. Este método devuelve la imagen anotada como una matriz NumPy, lo que permite visualizarla o guardarla fácilmente.
Trazando
from PIL import Image
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on 'bus.jpg'
results = model(["bus.jpg", "zidane.jpg"]) # results list
# Visualize the results
for i, r in enumerate(results):
# Plot results image
im_bgr = r.plot() # BGR-order numpy array
im_rgb = Image.fromarray(im_bgr[..., ::-1]) # RGB-order PIL image
# Show results to screen (in supported environments)
r.show()
# Save results to disk
r.save(filename=f"results{i}.jpg")
plot()
Parámetros del método
En plot()
admite varios argumentos para personalizar la salida:
Argumento | Tipo | Descripción | Por defecto |
---|---|---|---|
conf | bool | Incluye puntuaciones de confianza en la detección. | True |
line_width | float | Anchura de línea de los cuadros delimitadores. Se ajusta al tamaño de la imagen si None . | None |
font_size | float | Tamaño de la fuente del texto. Se adapta al tamaño de la imagen si None . | None |
font | str | Nombre de la fuente para las anotaciones de texto. | 'Arial.ttf' |
pil | bool | Devuelve la imagen como un objeto PIL Imagen. | False |
img | numpy.ndarray | Imagen alternativa para el trazado. Utiliza la imagen original si None . | None |
im_gpu | torch.Tensor | GPU-Imagen acelerada para un trazado más rápido de la máscara. Forma: (1, 3, 640, 640). | None |
kpt_radius | int | Radio de los puntos clave dibujados. | 5 |
kpt_line | bool | Conecta los puntos clave con líneas. | True |
labels | bool | Incluye etiquetas de clase en las anotaciones. | True |
boxes | bool | Superponer cuadros delimitadores en la imagen. | True |
masks | bool | Superponer máscaras en la imagen. | True |
probs | bool | Incluye las probabilidades de clasificación. | True |
show | bool | Visualiza directamente la imagen anotada utilizando el visor de imágenes predeterminado. | False |
save | bool | Guarda la imagen anotada en un archivo especificado por filename . | False |
filename | str | Ruta y nombre del archivo para guardar la imagen anotada si save es True . | None |
color_mode | str | Especifica el modo de color, por ejemplo, "instancia" o "clase". | 'class' |
Inferencia segura de hilos
Garantizar la seguridad de los hilos durante la inferencia es crucial cuando ejecutas varios modelos YOLO en paralelo a través de distintos hilos. La inferencia a prueba de hilos garantiza que las predicciones de cada hilo estén aisladas y no interfieran entre sí, evitando condiciones de carrera y asegurando resultados coherentes y fiables.
Cuando utilices modelos YOLO en una aplicación multihilo, es importante instanciar objetos modelo distintos para cada hilo o emplear almacenamiento local de hilos para evitar conflictos:
Inferencia segura de hilos
Instanciar un único modelo dentro de cada hilo para una inferencia a prueba de hilos:
from threading import Thread
from ultralytics import YOLO
def thread_safe_predict(model, image_path):
"""Performs thread-safe prediction on an image using a locally instantiated YOLO model."""
model = YOLO(model)
results = model.predict(image_path)
# Process results
# Starting threads that each have their own model instance
Thread(target=thread_safe_predict, args=("yolo11n.pt", "image1.jpg")).start()
Thread(target=thread_safe_predict, args=("yolo11n.pt", "image2.jpg")).start()
Para conocer en profundidad la inferencia a prueba de hilos con los modelos YOLO y las instrucciones paso a paso, consulta nuestra Guía de inferencia a prueba de hilosYOLO . Esta guía te proporcionará toda la información necesaria para evitar errores comunes y garantizar que tu inferencia multihilo se ejecute sin problemas.
Fuente de streaming for
-bucle
Aquí tienes un script Python que utiliza OpenCV (cv2
) y YOLO para ejecutar la inferencia sobre fotogramas de vídeo. Este script supone que ya tienes instalados los paquetes necesarios (opencv-python
y ultralytics
).
Flujo for-loop
import cv2
from ultralytics import YOLO
# Load the YOLO model
model = YOLO("yolo11n.pt")
# Open the video file
video_path = "path/to/your/video/file.mp4"
cap = cv2.VideoCapture(video_path)
# Loop through the video frames
while cap.isOpened():
# Read a frame from the video
success, frame = cap.read()
if success:
# Run YOLO inference on the frame
results = model(frame)
# Visualize the results on the frame
annotated_frame = results[0].plot()
# Display the annotated frame
cv2.imshow("YOLO Inference", annotated_frame)
# Break the loop if 'q' is pressed
if cv2.waitKey(1) & 0xFF == ord("q"):
break
else:
# Break the loop if the end of the video is reached
break
# Release the video capture object and close the display window
cap.release()
cv2.destroyAllWindows()
Este script ejecutará predicciones en cada fotograma del vídeo, visualizará los resultados y los mostrará en una ventana. Se puede salir del bucle pulsando "q".
PREGUNTAS FRECUENTES
¿Qué es Ultralytics YOLO y su modo de predicción para la inferencia en tiempo real?
Ultralytics YOLO es un modelo de vanguardia para la detección, segmentación y clasificación de objetos en tiempo real. Su modo de predicción permite a los usuarios realizar inferencias a alta velocidad en diversas fuentes de datos, como imágenes, vídeos y secuencias en directo. Diseñado para ofrecer rendimiento y versatilidad, también ofrece modos de procesamiento por lotes y streaming. Para más detalles sobre sus funciones, consulta Ultralytics YOLO modo predicción.
¿Cómo puedo realizar inferencias utilizando Ultralytics YOLO en diferentes fuentes de datos?
Ultralytics YOLO puede procesar una amplia gama de fuentes de datos, incluyendo imágenes individuales, vídeos, directorios, URLs y flujos. Puedes especificar la fuente de datos en el campo model.predict()
llamada. Por ejemplo, utiliza 'image.jpg'
para una imagen local o 'https://ultralytics.com/images/bus.jpg'
para una URL. Consulta los ejemplos detallados de varios fuentes de inferencia en la documentación.
¿Cómo optimizo la velocidad de inferencia y el uso de memoria de YOLO ?
Para optimizar la velocidad de inferencia y gestionar la memoria de forma eficiente, puedes utilizar el modo streaming configurando stream=True
en el método de llamada del predictor. El modo streaming genera un generador de memoria eficiente de Results
en lugar de cargar todos los fotogramas en memoria. Para procesar vídeos largos o grandes conjuntos de datos, el modo streaming es especialmente útil. Más información modo streaming.
¿Qué argumentos de inferencia apoya Ultralytics YOLO ?
En model.predict()
en YOLO admite varios argumentos, como conf
, iou
, imgsz
, device
y más. Estos argumentos te permiten personalizar el proceso de inferencia, estableciendo parámetros como los umbrales de confianza, el tamaño de la imagen y el dispositivo utilizado para el cálculo. Puedes encontrar descripciones detalladas de estos argumentos en la página argumentos de inferencia sección.
¿Cómo puedo visualizar y guardar los resultados de las predicciones de YOLO ?
Tras realizar la inferencia con YOLO, la Results
contienen métodos para mostrar y guardar imágenes anotadas. Puedes utilizar métodos como result.show()
y result.save(filename="result.jpg")
para visualizar y guardar los resultados. Para obtener una lista completa de estos métodos, consulta la página trabajar con resultados sección.