YOLO-Мировая модель

Q: What is the YOLO-World model and how does it work?

Модель YOLO-World - это передовой подход к обнаружению объектов в режиме реального времени, основанный на фреймворке Ultralytics YOLOv8 . Она отлично справляется с задачами обнаружения объектов с открытым словарем, идентифицируя объекты на изображении на основе описательных текстов. Используя моделирование языка зрения и предварительное обучение на больших наборах данных, YOLO-World достигает высокой эффективности и производительности при значительно сниженных вычислительных требованиях, что делает ее идеальной для приложений реального времени в различных отраслях.

Q: How do I train a YOLO-World model on my dataset?

Обучение модели YOLO-World на вашем наборе данных осуществляется с помощью API Python или команд CLI . Вот как начать обучение с помощью Python: Или с помощью CLI:

Модель мира YOLO представляет собой усовершенствованную систему, работающую в режиме реального времени. Ultralytics YOLOv8-основанный подход к задачам обнаружения открытых словарей. Эта инновация позволяет обнаружить любой объект на изображении на основе описательных текстов. Благодаря значительному снижению вычислительных требований при сохранении конкурентоспособной производительности, YOLO-World становится универсальным инструментом для множества приложений, основанных на зрении.

Смотреть: YOLO Всемирный процесс обучения на пользовательском наборе данных

YOLO-Обзор архитектуры модели мира

Обзор

YOLO-World решает проблемы, с которыми сталкиваются традиционные модели обнаружения открытой лексики, которые часто опираются на громоздкие модели трансформеров, требующие больших вычислительных ресурсов. Зависимость этих моделей от заранее определенных категорий объектов также ограничивает их применение в динамических сценариях. YOLO-World возрождает фреймворк YOLOv8 с возможностями обнаружения объектов с открытым словарем, используямоделирование языка зрения и предварительное обучение на обширных наборах данных, чтобы с непревзойденной эффективностью идентифицировать широкий спектр объектов в сценариях с нулевыми снимками.

Основные характеристики

Решение в реальном времени: Используя скорость вычислений CNN, YOLO-World обеспечивает быстрое решение для обнаружения открытых словарей, удовлетворяя потребности отраслей, нуждающихся в немедленных результатах.
Эффективность и производительность: YOLO-World снижает требования к вычислениям и ресурсам без ущерба для производительности, предлагая надежную альтернативу таким моделям, как SAM , но с меньшими вычислительными затратами, что позволяет использовать приложения в режиме реального времени.
Вывод с использованием автономного словаря: YOLO-World представляет стратегию "подсказка - затем обнаружение" с использованием автономного словаря для дальнейшего повышения эффективности. Этот подход позволяет использовать пользовательские подсказки, вычисленные apriori, включая подписи или категории, которые кодируются и сохраняются в виде вкраплений офлайн-словаря, что упрощает процесс обнаружения.
Работает на YOLOv8: Построенный на основе Ultralytics YOLOv8YOLO-World использует последние достижения в области обнаружения объектов в реальном времени, что позволяет обнаруживать открытые словари с непревзойденной точностью и скоростью.
Превосходство в бенчмарках: YOLO-World превосходит существующие детекторы открытого словаря, включая MDETR и серию GLIP, по скорости и эффективности на стандартных эталонах, демонстрируя YOLOv8'превосходные возможности на одном NVIDIA V100 GPU.
Универсальные приложения: YOLO-Инновационный подход компании World открывает новые возможности для решения множества задач технического зрения, обеспечивая повышение скорости на порядки по сравнению с существующими методами.

Доступные модели, поддерживаемые задачи и режимы работы

В этом разделе подробно описаны доступные модели с определенными предварительно обученными весами, задачи, которые они поддерживают, и их совместимость с различными режимами работы, такими как Inference, Validation, Training и Export, обозначенными ✅ для поддерживаемых режимов и ❌ для неподдерживаемых режимов.

Примечание

Все веса YOLOv8-World были напрямую перенесены из официального репозитория YOLO-World, что подчеркивает их превосходный вклад.

Тип модели	Предварительно обученные веса	Поддерживаемые задачи	Заключение	Валидация	Обучение	Экспорт
YOLOv8s-мир	yolov8s-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8s-worldv2	yolov8s-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅
YOLOv8m-мир	yolov8m-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8m-worldv2	yolov8m-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅
YOLOv8l-мир	yolov8l-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8l-worldv2	yolov8l-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅
YOLOv8x-мир	yolov8x-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8x-worldv2	yolov8x-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅

Передача нулевого снимка на наборе данных COCO

Производительность

Обнаружение (COCO)

Тип модели	mAP	mAP50	mAP75
yolov8s-мир	37.4	52.0	40.6
yolov8s-worldv2	37.7	52.2	41.0
yolov8m-мир	42.0	57.0	45.6
yolov8m-worldv2	43.0	58.4	46.8
yolov8l-мир	45.7	61.3	49.8
yolov8l-worldv2	45.8	61.3	49.8
yolov8x-мир	47.0	63.0	51.2
yolov8x-worldv2	47.1	62.8	51.4

Примеры использования

Модели YOLO легко интегрируются в ваши приложения Python . Ultralytics предоставляет удобный Python API и командыCLI для упрощения разработки.

Использование поезда

Наконечник

Мы настоятельно рекомендуем использовать yolov8-worldv2 модель для индивидуального обучения, поскольку она поддерживает детерминированное обучение, а также легко экспортируется в другие форматы, например, onnx/tensorrt.

Обнаружение объектов легко с помощью train метод, как показано ниже:

Пример

PythonCLI

PyTorch предварительно обученный *.pt модели, а также конфигурации *.yaml файлы могут быть переданы в YOLOWorld() класс для создания экземпляра модели в python:

from ultralytics import YOLOWorld

# Load a pretrained YOLOv8s-worldv2 model
model = YOLOWorld("yolov8s-worldv2.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLOv8n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

# Load a pretrained YOLOv8s-worldv2 model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov8s-worldv2.yaml data=coco8.yaml epochs=100 imgsz=640

Прогнозирование использования

Обнаружение объектов легко осуществляется с помощью predict метод, как показано ниже:

Пример

PythonCLI

from ultralytics import YOLOWorld

# Initialize a YOLO-World model
model = YOLOWorld("yolov8s-world.pt")  # or select yolov8m/l-world.pt for different sizes

# Execute inference with the YOLOv8s-world model on the specified image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

# Perform object detection using a YOLO-World model
yolo predict model=yolov8s-world.pt source=path/to/image.jpg imgsz=640

Этот фрагмент демонстрирует простоту загрузки предварительно обученной модели и выполнения предсказания на изображении.

Использование вала

Проверка модели на наборе данных осуществляется следующим образом:

Пример

PythonCLI

from ultralytics import YOLO

# Create a YOLO-World model
model = YOLO("yolov8s-world.pt")  # or select yolov8m/l-world.pt for different sizes

# Conduct model validation on the COCO8 example dataset
metrics = model.val(data="coco8.yaml")

# Validate a YOLO-World model on the COCO8 dataset with a specified image size
yolo val model=yolov8s-world.pt data=coco8.yaml imgsz=640

Использование трека

Отслеживание объектов с помощью модели YOLO на видео/изображениях осуществляется следующим образом:

Пример

PythonCLI

from ultralytics import YOLO

# Create a YOLO-World model
model = YOLO("yolov8s-world.pt")  # or select yolov8m/l-world.pt for different sizes

# Track with a YOLO-World model on a video
results = model.track(source="path/to/video.mp4")

# Track with a YOLO-World model on the video with a specified image size
yolo track model=yolov8s-world.pt imgsz=640 source="path/to/video.mp4"

Примечание

Модели YOLO-World, предоставляемые сайтом Ultralytics , предварительно конфигурируются с категориями набора данных COCO в качестве части их автономного словаря, что повышает эффективность для немедленного применения. Эта интеграция позволяет моделям YOLOv8-World напрямую распознавать и предсказывать 80 стандартных категорий, определенных в наборе данных COCO, не требуя дополнительной настройки или кастомизации.

Установите подсказки

YOLO-Обзор имен классов оперативной связи в мире

Фреймворк YOLO позволяет динамически задавать классы с помощью пользовательских подсказок, что дает пользователям возможность адаптировать модель к своим конкретным потребностям без повторного обучения. Эта функция особенно полезна для адаптации модели к новым областям или специфическим задачам, которые изначально не были частью обучающих данных. Задавая пользовательские подсказки, пользователи могут направлять модель на интересующие их объекты, повышая релевантность и точность результатов обнаружения.

Например, если в вашем приложении требуется обнаружить только объекты 'person' и 'bus', вы можете указать эти классы напрямую:

Пример

Пользовательские задания на умозаключения

from ultralytics import YOLO

# Initialize a YOLO-World model
model = YOLO("yolov8s-world.pt")  # or choose yolov8m/l-world.pt

# Define custom classes
model.set_classes(["person", "bus"])

# Execute prediction for specified categories on an image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Вы также можете сохранить модель после установки пользовательских классов. При этом вы создаете версию модели YOLO-World, специализированную для вашего конкретного случая использования. Этот процесс встраивает определения пользовательских классов непосредственно в файл модели, делая модель готовой к использованию с указанными классами без дополнительных настроек. Выполните следующие шаги, чтобы сохранить и загрузить вашу пользовательскую модель YOLOv8 :

Пример

Сохранение моделей с помощью пользовательской лексики

Сначала загрузите модель YOLO-World, установите для нее пользовательские классы и сохраните ее:

from ultralytics import YOLO

# Initialize a YOLO-World model
model = YOLO("yolov8s-world.pt")  # or select yolov8m/l-world.pt

# Define custom classes
model.set_classes(["person", "bus"])

# Save the model with the defined offline vocabulary
model.save("custom_yolov8s.pt")

После сохранения модель custom_yolov8s.pt ведет себя как любая другая предварительно обученная модель YOLOv8 , но с ключевым отличием: теперь она оптимизирована для обнаружения только тех классов, которые вы определили. Такая настройка может значительно повысить производительность и эффективность обнаружения для ваших конкретных сценариев применения.

from ultralytics import YOLO

# Load your custom model
model = YOLO("custom_yolov8s.pt")

# Run inference to detect your custom classes
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Преимущества экономии с помощью пользовательского словаря

Эффективность: Оптимизирует процесс обнаружения, фокусируясь на значимых объектах, снижая вычислительные затраты и ускоряя вывод.
Гибкость: Позволяет легко адаптировать модель к новым или новым задачам обнаружения без необходимости длительного обучения или сбора данных.
Простота: Упрощает развертывание, избавляя от необходимости многократно указывать пользовательские классы во время выполнения, делая модель непосредственно пригодной для использования с ее встроенным словарем.
Производительность: Повышает точность обнаружения заданных классов, фокусируя внимание и ресурсы модели на распознавании определенных объектов.

Такой подход позволяет адаптировать современные модели обнаружения объектов к конкретным задачам, делая передовой ИИ более доступным и применимым в широком спектре практических приложений.

Воспроизведение официальных результатов с нуля(Экспериментально)

Подготовьте наборы данных

Данные о поезде

Набор данных	Тип	Образцы	Коробки	Файлы аннотаций
Объекты365v1	Обнаружение	609k	9621k	objects365_train.json
GQA	Заземление	621k	3681k	final_mixed_train_no_coco.json
Flickr30k	Заземление	149k	641k	final_flickr_separateGT_train.json

Валовые данные

Набор данных	Тип	Файлы аннотаций
LVIS minival	Обнаружение	minival.txt

Запуск обучения с нуля

Примечание

WorldTrainerFromScratch очень хорошо настроена для обучения yolo-world моделей на наборах данных обнаружения и заземления одновременно. Более подробную информацию можно найти на сайте ultralytics.model.yolo.world.train_world.py.

Пример

Python

from ultralytics import YOLOWorld
from ultralytics.models.yolo.world.train_world import WorldTrainerFromScratch

data = dict(
    train=dict(
        yolo_data=["Objects365.yaml"],
        grounding_data=[
            dict(
                img_path="../datasets/flickr30k/images",
                json_file="../datasets/flickr30k/final_flickr_separateGT_train.json",
            ),
            dict(
                img_path="../datasets/GQA/images",
                json_file="../datasets/GQA/final_mixed_train_no_coco.json",
            ),
        ],
    ),
    val=dict(yolo_data=["lvis.yaml"]),
)
model = YOLOWorld("yolov8s-worldv2.yaml")
model.train(data=data, batch=128, epochs=100, trainer=WorldTrainerFromScratch)

Цитаты и благодарности

Мы выражаем благодарность Центру компьютерного зрения Tencent AILab за их новаторскую работу по обнаружению объектов с открытым словарем в реальном времени с помощью YOLO-World:

BibTeX

@article{cheng2024yolow,
title={YOLO-World: Real-Time Open-Vocabulary Object Detection},
author={Cheng, Tianheng and Song, Lin and Ge, Yixiao and Liu, Wenyu and Wang, Xinggang and Shan, Ying},
journal={arXiv preprint arXiv:2401.17270},
year={2024}
}

Оригинальная статья YOLO-World доступна на arXiv. Исходный код проекта и дополнительные ресурсы доступны в репозитории GitHub. Мы ценим их стремление развивать эту область и делиться своими ценными идеями с сообществом.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое модель YOLO-World и как она работает?

Модель YOLO-World - это усовершенствованный подход к обнаружению объектов в режиме реального времени, основанный на Ultralytics YOLOv8 фреймворка. Она отлично справляется с задачами обнаружения объектов с открытым словарем, идентифицируя объекты на изображении на основе описательных текстов. Используя моделирование языка зрения и предварительное обучение на больших наборах данных, YOLO-World достигает высокой эффективности и производительности при значительно сниженных вычислительных требованиях, что делает ее идеальной для приложений реального времени в различных отраслях.

Как YOLO-World обрабатывает умозаключения с пользовательскими подсказками?

YOLO-World поддерживает стратегию "подскажи - потом обнаружи", которая использует автономный словарь для повышения эффективности. Пользовательские подсказки, такие как подписи или определенные категории объектов, предварительно кодируются и хранятся в виде вкраплений автономного словаря. Такой подход ускоряет процесс обнаружения без необходимости переобучения. Вы можете динамически задавать эти подсказки в модели, чтобы адаптировать ее к конкретным задачам обнаружения, как показано ниже:

from ultralytics import YOLOWorld

# Initialize a YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes
model.set_classes(["person", "bus"])

# Execute prediction on an image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Почему я должен выбрать YOLO-World вместо традиционных моделей обнаружения открытых словарей?

YOLO-World обеспечивает ряд преимуществ по сравнению с традиционными моделями обнаружения открытых словарей:

Производительность в режиме реального времени: Используется скорость вычислений CNN для быстрого и эффективного обнаружения.
Эффективность и низкая потребность в ресурсах: YOLO-World сохраняет высокую производительность при значительном снижении требований к вычислительным и ресурсным ресурсам.
Настраиваемые подсказки: Модель поддерживает динамическую настройку подсказок, что позволяет пользователям задавать пользовательские классы обнаружения без повторного обучения.
Превосходство в бенчмарках: Он превосходит другие детекторы открытых словарей, такие как MDETR и GLIP, как по скорости, так и по эффективности в стандартных бенчмарках.

Как обучить модель YOLO-World на моем наборе данных?

Обучение модели YOLO-World на вашем наборе данных легко выполняется с помощью предоставленного Python API или команд CLI . Вот как начать обучение с помощью Python:

from ultralytics import YOLOWorld

# Load a pretrained YOLOv8s-worldv2 model
model = YOLOWorld("yolov8s-worldv2.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Или использовать CLI:

yolo train model=yolov8s-worldv2.yaml data=coco8.yaml epochs=100 imgsz=640

Каковы доступные предварительно обученные модели YOLO-World и поддерживаемые ими задачи?

Ultralytics предлагает несколько предварительно обученных моделей YOLO-World, поддерживающих различные задачи и режимы работы:

Тип модели	Предварительно обученные веса	Поддерживаемые задачи	Заключение	Валидация	Обучение	Экспорт
YOLOv8s-мир	yolov8s-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8s-worldv2	yolov8s-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅
YOLOv8m-мир	yolov8m-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8m-worldv2	yolov8m-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅
YOLOv8l-мир	yolov8l-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8l-worldv2	yolov8l-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅
YOLOv8x-мир	yolov8x-world.pt	Обнаружение объектов	✅	✅	✅	❌
YOLOv8x-worldv2	yolov8x-worldv2.pt	Обнаружение объектов	✅	✅	✅	✅

Как воспроизвести официальные результаты YOLO-World с нуля?

Чтобы воспроизвести официальные результаты с нуля, необходимо подготовить наборы данных и запустить обучение с помощью предоставленного кода. Процедура обучения включает в себя создание словаря данных и запуск программы train метод с пользовательским тренером:

from ultralytics import YOLOWorld
from ultralytics.models.yolo.world.train_world import WorldTrainerFromScratch

data = {
    "train": {
        "yolo_data": ["Objects365.yaml"],
        "grounding_data": [
            {
                "img_path": "../datasets/flickr30k/images",
                "json_file": "../datasets/flickr30k/final_flickr_separateGT_train.json",
            },
            {
                "img_path": "../datasets/GQA/images",
                "json_file": "../datasets/GQA/final_mixed_train_no_coco.json",
            },
        ],
    },
    "val": {"yolo_data": ["lvis.yaml"]},
}

model = YOLOWorld("yolov8s-worldv2.yaml")
model.train(data=data, batch=128, epochs=100, trainer=WorldTrainerFromScratch)