YOLO11 vs YOLOv10: Всестороннее техническое сравнение детекторов объектов реального времени
Ландшафт компьютерного зрения в реальном времени постоянно развивается, с новыми архитектурами, расширяющими границы возможного как на периферийных устройствах, так и в облачной инфраструктуре. В этом подробном техническом анализе мы исследуем нюансы между двумя ключевыми моделями в этой области: Ultralytics YOLO11 и YOLOv10. Обе представляют собой значительные прорывы в возможностях обнаружения объектов, но при этом используют принципиально разные архитектурные философии для достижения своей производительности.
Разбор архитектуры YOLO11
Детали YOLO11:
- Авторы: Гленн Джочер и Цзин Цю
- Организация: Ultralytics
- Дата: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Документация: https://docs.ultralytics.com/models/yolo11/
Представленный как универсальный мощный инструмент, YOLO11 основывается на многолетних фундаментальных исследованиях в области компьютерного зрения и ИИ. Основная философия дизайна YOLO11 вращается вокруг богатства признаков и исключительной универсальности в различных задачах компьютерного зрения.
Одно из выдающихся улучшений в YOLO11 — это реализация блока C3k2. Этот усовершенствованный модуль-бутылочное горлышко оптимизирует поток градиентов по всей сети, значительно повышая эффективность параметров при сохранении высокой точности. Кроме того, YOLO11 использует улучшенный механизм пространственного внимания, который критически важен для идентификации мелких или частично перекрытых объектов. Это делает его исключительным выбором для сценариев использования аэрофотоснимков и детального анализа медицинских изображений.
YOLO11 использует безанкерную архитектуру, которая минимизирует сложность настройки гиперпараметров, обеспечивая надежную обобщаемость на широком спектре пользовательских наборов данных. Кроме того, требования к памяти во время обучения значительно ниже по сравнению с архитектурами на основе трансформеров, что позволяет исследователям эффективно обучать большие модели на стандартном потребительском оборудовании.
Исследование архитектуры YOLOv10
YOLOv10 Подробности:
- Авторы: Ao Wang, Hui Chen, Lihao Liu и др.
- Организация: Университет Цинхуа
- Дата: 2024-05-23
- arXiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/YOLOv10
- Документация: https://docs.ultralytics.com/models/yolov10/
Разработанный исследователями Университета Цинхуа, YOLOv10 произвел фурор как сквозной пионер в семействе YOLO. Отличительной чертой YOLOv10 является его методология обучения без NMS. Применяя согласованные двойные назначения на этапе обучения, модель естественным образом предсказывает ровно один ограничивающий прямоугольник для каждого объекта. Этот прорыв полностью устраняет необходимость в Non-Maximum Suppression (NMS) во время инференса — шаге постобработки, который исторически приводил к узким местам задержки в конвейерах развертывания.
Архитектура также представляет комплексную стратегию проектирования, ориентированную на эффективность и точность. Она включает пространственно-канальное разделенное понижение дискретизации и блочные конструкции, управляемые рангом, которые выборочно уменьшают избыточность на этапах сети. Это приводит к меньшему количеству FLOPs и снижению вычислительных затрат без значительного ущерба для средней средней точности (mAP). Для приложений реального времени, где важна каждая миллисекунда, удаление NMS обеспечивает детерминированный граф вывода, что очень подходит для периферийных устройств ИИ.
Метрики производительности и тесты
При оценке этих двух моделей мы рассматриваем баланс точности, количества параметров и скорости. В следующей таблице показано, как они сравниваются в различных масштабах на наборе данных COCO.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Как видно из метрик производительности YOLO, YOLO11 обычно достигает несколько более высоких показателей mAP во всех своих вариантах, особенно в более крупных моделях. Без-NMS дизайн YOLOv10 обеспечивает очень стабильное сквозное время инференции, но YOLO11 все же обеспечивает исключительную пропускную способность при оптимизации с помощью TensorRT на оборудовании NVIDIA.
Экспорт для продакшена
При подготовке моделей к развертыванию экспорт в оптимизированные форматы имеет решающее значение. Как YOLO11, так и YOLOv10 могут быть легко экспортированы в форматы, такие как ONNX и TensorRT, с использованием фреймворка Ultralytics. См. наше руководство по вариантам развертывания моделей для пошаговых инструкций.
Преимущество экосистемы Ultralytics
Хотя автономные метрики производительности важны, окружающая среда определяет практический успех проекта машинного обучения. Именно здесь YOLO11, как неотъемлемая часть экосистемы Ultralytics, по-настоящему проявляет себя.
The Платформа Ultralytics предлагает невероятно оптимизированный пользовательский опыт. С помощью простого и унифицированного Python API разработчики могут выполнять задачи, выходящие за рамки базовых ограничивающих рамок. YOLO11 изначально поддерживает сегментацию экземпляров, оценку позы, классификацию изображений и обнаружение ориентированных ограничивающих рамок (OBB). Эта огромная универсальность часто отсутствует в специализированных исследовательских репозиториях.
Кроме того, экосистема поддерживается обширной документацией и активной поддержкой сообщества. Интеграции с такими инструментами, как Weights & Biases для отслеживания экспериментов и OpenVINO для оптимизации оборудования Intel, встроены непосредственно в библиотеку. Обучение модели требует минимального шаблонного кода и выигрывает от высокоэффективных процессов обучения, которые требуют меньше памяти CUDA, чем тяжелые трансформерные модели, такие как RT-DETR.
Практический пример кода
Обучение и выполнение инференса с Ultralytics спроектированы так, чтобы быть максимально интуитивно понятными. Идентичный API легко обрабатывает как YOLO11, так и YOLOv10.
from ultralytics import YOLO
# Initialize the model (YOLO11n or YOLOv10n)
model = YOLO("yolo11n.pt")
# Train the model efficiently on a custom dataset
# Ultralytics automatically handles hyperparameters and memory optimization
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Run inference on an image
inference_results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
inference_results[0].show()
Сценарии использования и рекомендации
Выбор между YOLO11 и YOLOv10 зависит от конкретных требований вашего проекта, ограничений развертывания и предпочтений экосистемы.
Когда следует выбирать YOLO11
YOLO11 — отличный выбор для:
- Промышленное периферийное развертывание: Коммерческие приложения на таких устройствах, как Raspberry Pi или NVIDIA Jetson, где надежность и активное обслуживание имеют первостепенное значение.
- Многозадачные приложения компьютерного зрения: Проекты, требующие detect, сегментации, оценки позы и obb в рамках единой унифицированной среды.
- Быстрое прототипирование и развертывание: Команды, которым необходимо быстро перейти от сбора данных к производству, используя оптимизированный Ultralytics Python API.
Когда выбирать YOLOv10
YOLOv10 рекомендуется для:
- Обнаружение в реальном времени без NMS: Приложения, выигрывающие от сквозного обнаружения без Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированный компромисс между скоростью и точностью: Проекты, требующие оптимального баланса между скоростью инференса и точностью обнаружения для моделей различных масштабов.
- Приложения с предсказуемой задержкой: Сценарии развертывания, где критически важны предсказуемые времена инференса, например, в робототехнике или автономных системах.
Когда выбирать Ultralytics (YOLO26)
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и удобства для разработчиков:
- Развертывание на периферии без NMS: Приложения, требующие стабильного вывода с низкой задержкой без сложности постобработки методом Non-Maximum Suppression.
- Среды только с CPU: Устройства без выделенного ускорения GPU, где до 43% более быстрая инференция YOLO26 на CPU обеспечивает решающее преимущество.
- Обнаружение мелких объектов: Сложные сценарии, такие как аэрофотосъемка с дронов или анализ данных с IoT-датчиков, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Следующее поколение: YOLO26
Хотя YOLOv10 представила революционную парадигму без NMS, а YOLO11 усовершенствовала многозадачную универсальность, область ИИ быстро развивается. Разработчикам, начинающим новые производственные развертывания сегодня, мы настоятельно рекомендуем изучить Ultralytics YOLO26.
Выпущенный в январе 2026 года, YOLO26 объединяет лучшее из двух миров. Он изначально использует сквозной дизайн без NMS, впервые примененный в YOLOv10, что значительно упрощает конвейер развертывания и обеспечивает стабильную задержку. Кроме того, YOLO26 включает специализированные оптимизации для граничных вычислений. Благодаря удалению DFL (удалению Distribution Focal Loss) архитектура гарантирует более простую экспортируемость и достигает ускорения инференса на CPU до 43% по сравнению с устаревшими моделями, что делает ее лучшим выбором для маломощных IoT-устройств и мобильных приложений.
YOLO26 также привносит стабильность обучения больших языковых моделей (LLM) в компьютерное зрение посредством инновационного оптимизатора MuSGD, гибрида, вдохновленного передовыми исследованиями в области ИИ. В сочетании с функциями потерь ProgLoss + STAL, YOLO26 обеспечивает беспрецедентную точность на мелких объектах, что крайне важно для детального обнаружения объектов на видео с дорожным движением и сложной роботизированной автоматизации.
Заключение
Выбор правильной модели компьютерного зрения зависит от ваших конкретных эксплуатационных ограничений. YOLOv10 является важной вехой в академических кругах, доказывая, что NMS может быть эффективно исключен из конвейера обнаружения. Однако для превосходного баланса производительности, всесторонней универсальности задач и бесшовных инструментов развертывания, YOLO11 предлагает надежное, готовое к использованию в корпоративной среде решение.
Для инженеров, стремящихся к абсолютному передовому краю — сочетая сквозную простоту с молниеносной производительностью на периферии — переход на новейший YOLO26 является наилучшей рекомендацией. Используя комплексную платформу Ultralytics, вы гарантируете, что ваши проекты строятся на хорошо поддерживаемой, высокоэффективной и перспективной основе.