Inferência segura de threads com YOLO Models

Q: What are the best practices for running multi-threaded YOLO model inference in Python?

Para executar a inferência de modelos YOLO multi-threaded com segurança em Python, siga estas práticas recomendadas: Exemplo de instanciação de modelo thread-safe: Para contexto adicional, consulte a secção sobre Inferência Thread-Safe.

Q: Is it safer to use process-based parallelism instead of threading for YOLO model inference?

Sim, usar o módulo de multiprocessamento do Python é mais seguro e geralmente mais eficiente para executar a inferência do modelo YOLO em paralelo. O paralelismo baseado em processos cria espaços de memória separados, evitando o Bloqueio do Interpretador Global (GIL) e reduzindo o risco de problemas de concorrência. Cada processo funcionará de forma independente com sua própria instância do modelo YOLO . Para obter mais detalhes sobre o paralelismo baseado em processos com modelos YOLO , consulte a página sobre Inferência Thread-Safe.

A execução dos modelos YOLO num ambiente multi-threaded requer uma consideração cuidadosa para garantir a segurança do thread. Python's threading permite executar vários threads simultaneamente, mas quando se trata de usar modelos YOLO nesses threads, há questões de segurança importantes a serem consideradas. Esta página o guiará na criação de inferência de modelo YOLO segura para threads.

Compreender Python Threading

Python As threads são uma forma de paralelismo que permite ao seu programa executar várias operações ao mesmo tempo. No entanto, o Global Interpreter Lock (GIL) do Python significa que apenas um thread pode executar o bytecode Python de cada vez.

Exemplos de um ou vários threads

Embora isso pareça uma limitação, os threads ainda podem fornecer simultaneidade, especialmente para operações vinculadas a E/S ou ao usar operações que liberam o GIL, como as executadas pelas bibliotecas C subjacentes do YOLO.

O perigo das instâncias de modelo partilhadas

A instanciação de um modelo YOLO fora das suas threads e a partilha desta instância entre várias threads pode levar a condições de corrida, em que o estado interno do modelo é modificado de forma inconsistente devido a acessos simultâneos. Isso é particularmente problemático quando o modelo ou seus componentes mantêm um estado que não foi projetado para ser thread-safe.

Exemplo não seguro de thread: Instância de modelo único

Ao usar threads em Python, é importante reconhecer padrões que podem levar a problemas de concorrência. Eis o que deve ser evitado: partilhar uma única instância do modelo YOLO em várias threads.

# Unsafe: Sharing a single model instance across threads
from threading import Thread

from ultralytics import YOLO

# Instantiate the model outside the thread
shared_model = YOLO("yolo11n.pt")


def predict(image_path):
    """Predicts objects in an image using a preloaded YOLO model, take path string to image as argument."""
    results = shared_model.predict(image_path)
    # Process results


# Starting threads that share the same model instance
Thread(target=predict, args=("image1.jpg",)).start()
Thread(target=predict, args=("image2.jpg",)).start()

No exemplo acima, o shared_model é utilizado por várias threads, o que pode levar a resultados imprevisíveis porque predict pode ser executada simultaneamente por várias threads.

Exemplo não seguro de thread: Várias instâncias de modelo

Da mesma forma, aqui está um padrão inseguro com várias instâncias do modelo YOLO :

# Unsafe: Sharing multiple model instances across threads can still lead to issues
from threading import Thread

from ultralytics import YOLO

# Instantiate multiple models outside the thread
shared_model_1 = YOLO("yolo11n_1.pt")
shared_model_2 = YOLO("yolo11n_2.pt")


def predict(model, image_path):
    """Runs prediction on an image using a specified YOLO model, returning the results."""
    results = model.predict(image_path)
    # Process results


# Starting threads with individual model instances
Thread(target=predict, args=(shared_model_1, "image1.jpg")).start()
Thread(target=predict, args=(shared_model_2, "image2.jpg")).start()

Mesmo que existam duas instâncias de modelo separadas, o risco de problemas de concorrência ainda existe. Se a implementação interna do YOLO não é thread-safe, a utilização de instâncias separadas pode não evitar condições de corrida, especialmente se estas instâncias partilharem quaisquer recursos ou estados subjacentes que não sejam locais.

Inferência Thread-Safe

Para realizar a inferência thread-safe, você deve instanciar um modelo YOLO separado em cada thread. Isso garante que cada thread tenha sua própria instância de modelo isolada, eliminando o risco de condições de corrida.

Exemplo de Thread-Safe

Veja como instanciar um modelo YOLO dentro de cada thread para uma inferência paralela segura:

# Safe: Instantiating a single model inside each thread
from threading import Thread

from ultralytics import YOLO


def thread_safe_predict(image_path):
    """Predict on an image using a new YOLO model instance in a thread-safe manner; takes image path as input."""
    local_model = YOLO("yolo11n.pt")
    results = local_model.predict(image_path)
    # Process results


# Starting threads that each have their own model instance
Thread(target=thread_safe_predict, args=("image1.jpg",)).start()
Thread(target=thread_safe_predict, args=("image2.jpg",)).start()

Neste exemplo, cada thread cria o seu próprio YOLO instância. Isto impede que qualquer thread interfira com o estado do modelo de outra, garantindo assim que cada thread efectua a inferência de forma segura e sem interações inesperadas com as outras threads.

Utilização do Decorador ThreadingLocked

Ultralytics fornece um ThreadingLocked que pode ser usado para garantir a execução de funções thread-safe. Este decorador utiliza um bloqueio para garantir que apenas um thread de cada vez pode executar a função decorada.

from ultralytics import YOLO
from ultralytics.utils import ThreadingLocked

# Create a model instance
model = YOLO("yolo11n.pt")


# Decorate the predict method to make it thread-safe
@ThreadingLocked()
def thread_safe_predict(image_path):
    """Thread-safe prediction using a shared model instance."""
    results = model.predict(image_path)
    return results


# Now you can safely call this function from multiple threads

O ThreadingLocked é particularmente útil quando você precisa compartilhar uma instância de modelo entre threads, mas quer garantir que apenas uma thread possa acessá-la de cada vez. Esta abordagem pode poupar memória em comparação com a criação de uma nova instância de modelo para cada thread, mas pode reduzir a concorrência, uma vez que os threads terão de esperar que o bloqueio seja libertado.

Conclusão

Ao utilizar os modelos YOLO com Python's threadingSempre instancie seus modelos dentro do thread que os utilizará para garantir a segurança do thread. Esta prática evita condições de corrida e garante que as suas tarefas de inferência são executadas de forma fiável.

Para cenários mais avançados e para otimizar ainda mais o desempenho da inferência multiencadeada, considere a utilização de paralelismo baseado em processos com multiprocessamento ou a utilização de uma fila de tarefas com processos de trabalho dedicados.

FAQ

Como posso evitar condições de corrida ao utilizar modelos YOLO num ambiente Python multithread?

Para evitar condições de corrida ao usar modelos Ultralytics YOLO em um ambiente Python multithread, instancie um modelo YOLO separado em cada thread. Isso garante que cada thread tenha sua própria instância de modelo isolada, evitando a modificação simultânea do estado do modelo.

Exemplo:

from threading import Thread

from ultralytics import YOLO


def thread_safe_predict(image_path):
    """Predict on an image in a thread-safe manner."""
    local_model = YOLO("yolo11n.pt")
    results = local_model.predict(image_path)
    # Process results


Thread(target=thread_safe_predict, args=("image1.jpg",)).start()
Thread(target=thread_safe_predict, args=("image2.jpg",)).start()

Para obter mais informações sobre como garantir a segurança da linha, visite a Inferência segura da linha com YOLO Models.

Quais são as melhores práticas para executar a inferência de modelos YOLO multithread em Python?

Para executar a inferência de modelo YOLO multi-threaded com segurança em Python, siga estas práticas recomendadas:

Instanciar modelos YOLO em cada thread em vez de partilhar uma única instância de modelo entre threads.
Utilizar Python's multiprocessing para processamento paralelo, a fim de evitar problemas relacionados com o Bloqueio Global do Intérprete (GIL).
Liberte o GIL utilizando operações efectuadas pelas bibliotecas C subjacentes do YOLO.
Considerar a utilização do ThreadingLocked para instâncias de modelos partilhados quando a memória é uma preocupação.

Exemplo de instanciação de modelo com segurança de thread:

from threading import Thread

from ultralytics import YOLO


def thread_safe_predict(image_path):
    """Runs inference in a thread-safe manner with a new YOLO model instance."""
    model = YOLO("yolo11n.pt")
    results = model.predict(image_path)
    # Process results


# Initiate multiple threads
Thread(target=thread_safe_predict, args=("image1.jpg",)).start()
Thread(target=thread_safe_predict, args=("image2.jpg",)).start()

Para contexto adicional, consulte a secção sobre Inferência Thread-Safe.

Porque é que cada thread deve ter a sua própria instância do modelo YOLO ?

Cada thread deve ter sua própria instância do modelo YOLO para evitar condições de corrida. Quando uma única instância de modelo é compartilhada entre vários threads, os acessos simultâneos podem levar a um comportamento imprevisível e a modificações do estado interno do modelo. Ao usar instâncias separadas, você garante o isolamento do thread, tornando suas tarefas multi-threaded confiáveis e seguras.

Para obter orientações detalhadas, consulte as secções Exemplo não seguro de thread: Instância de modelo único e Exemplo Thread-Safe.

Como é que o Global Interpreter Lock (GIL) do Python afecta a inferência do modelo YOLO ?

O Global Interpreter Lock (GIL) do Python permite que apenas uma thread execute o bytecode Python de cada vez, o que pode limitar o desempenho de tarefas multi-threading CPU. No entanto, para operações vinculadas a E/S ou processos que usam bibliotecas que liberam o GIL, como as bibliotecas C subjacentes do YOLO, ainda é possível obter simultaneidade. Para melhorar o desempenho, considere usar o paralelismo baseado em processos com Python multiprocessing módulo.

Para mais informações sobre threading em Python, consulte a secção Compreender Python Threading.

É mais seguro utilizar o paralelismo baseado em processos em vez de threading para a inferência do modelo YOLO ?

Sim, utilizando Python's multiprocessing é mais seguro e frequentemente mais eficiente para executar a inferência do modelo YOLO em paralelo. O paralelismo baseado em processos cria espaços de memória separados, evitando o Bloqueio Global do Interpretador (GIL) e reduzindo o risco de problemas de concorrência. Cada processo operará de forma independente com sua própria instância do modelo YOLO .

Para obter mais detalhes sobre o paralelismo baseado em processos com os modelos YOLO , consulte a página sobre Inferência Thread-Safe.

📅C riado há 1 ano ✏️ Atualizado há 8 dias