Link to this sectionDAMO-YOLO против YOLOv10#
Область компьютерного зрения стала свидетелем стремительной эволюции архитектур детектирования объектов в реальном времени. Сравнивая DAMO-YOLO и YOLOv10, мы наблюдаем две разные философии в проектировании моделей: автоматизированный архитектурный поиск против сквозной оптимизации без NMS. Хотя обе архитектуры раздвигают границы точности и скорости, их базовые структуры и идеальные сценарии использования существенно различаются.
Link to this sectionDAMO-YOLO: нейронный архитектурный поиск в масштабе#
Разработанный Alibaba Group, DAMO-YOLO стал мощным детектором, ориентированным на использование автоматизированного поиска для повышения структурной эффективности.
- Авторы: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang и Xiuyu Sun
- Дата: 23 ноября 2022 г.
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Link to this sectionАрхитектурные особенности#
DAMO-YOLO в значительной степени полагается на Neural Architecture Search (NAS) для баланса между производительностью и задержкой. Его бэкбон, получивший название MAE-NAS, использует многоцелевой эволюционный поиск при строгих вычислительных ограничениях для нахождения оптимальной глубины и ширины слоев.
Для обработки слияния признаков на разных масштабах модель использует эффективную RepGFPN (перепараметризованную обобщенную пирамидальную сеть признаков). Этот дизайн с мощной «шеей» (neck) особенно хорош для извлечения сложных пространственных иерархий, что полезно в таких сценариях, как анализ аэрофотоснимков. Кроме того, DAMO-YOLO представляет ZeroHead — упрощенную голову детекции, которая значительно снижает сложность финальных слоев прогнозирования, опираясь на надежный процесс дистилляции при обучении.
DAMO-YOLO часто использует многоэтапный процесс дистилляции знаний. Он требует обучения более тяжелой модели-«учителя» для руководства меньшей моделью-«учеником», что позволяет получить более высокий mAP (средняя точность), но значительно увеличивает время вычислений на GPU.
Link to this sectionYOLOv10: Пионер в области end-to-end детекции объектов#
Выпущенная полтора года спустя, YOLOv10 представила парадигмальный сдвиг, полностью устранив необходимость в подавлении немаксимумов (NMS) во время инференса.
- Авторы: Ао Ван, Хуэй Чен, Лихао Лю и др.
- Организация: Tsinghua University
- Дата: 23 мая 2024 г.
- Arxiv: 2405.14458
- Документация: Ultralytics YOLOv10
Link to this sectionАрхитектурные особенности#
Отличительной чертой YOLOv10 являются его согласованные двойные назначения для обучения без NMS. Традиционные детекторы предсказывают несколько перекрывающихся ограничивающих рамок (bbox) для одного объекта, требуя NMS для фильтрации дубликатов. Этот этап постобработки создает «бутылочное горлышко», особенно на периферийных устройствах. YOLOv10 решает эту проблему, позволяя модели естественным образом предсказывать одну точную ограничивающую рамку для каждого объекта.
Авторы также сосредоточились на целостном дизайне модели, основанном на эффективности и точности. Тщательно проанализировав вычислительную избыточность в существующих архитектурах, они оптимизировали бэкбон и голову для снижения количества FLOPs и параметров. Этот легковесный дизайн гарантирует, что YOLOv10 обеспечивает исключительную задержку инференса при экспорте в форматы типа TensorRT или OpenVINO.
Link to this sectionПроизводительность и бенчмарки#
В таблице ниже показаны необработанные показатели производительности на датасете COCO. Лучшие общие значения в каждом столбце выделены жирным шрифтом.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Хотя DAMO-YOLO держится достойно с точки зрения точности, YOLOv10 неизменно обеспечивает меньшую задержку и значительно меньший вес модели. Например, YOLOv10s достигает чуть более высокого mAP (46,7%), чем DAMO-YOLOs (46,0%), используя при этом менее половины параметров (7,2 млн против 16,3 млн). Более низкие требования к памяти делают YOLOv10 исключительно универсальным выбором для встраиваемых систем.
Link to this sectionЭффективность обучения и удобство использования#
При переходе от академических исследований к производству простота использования имеет первостепенное значение. Многоэтапный процесс дистилляции и сложные конфигурации NAS в DAMO-YOLO могут создать серьезные трудности при освоении для инженерных команд.
Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()Использование экосистемы Ultralytics позволяет разработчикам перейти от прототипа к полностью экспортированной модели ONNX всего за несколько строк кода, минуя сложные настройки окружения, необходимые для старых фреймворков.
Link to this sectionРеальные сценарии использования#
- Умный ритейл (DAMO-YOLO): Точность DAMO-YOLO хорошо подходит для серверных сред высокой плотности, анализирующих поведение клиентов, где GPU в избытке, а узкие места NMS в реальном времени управляемы.
- Автономные транспортные средства (YOLOv10): Архитектура без NMS гарантирует детерминированную, предсказуемую задержку, что критически важно для систем безопасности в автономном вождении.
- Industrial Automation (YOLOv10): Detecting defects on fast-moving assembly lines requires models that maximize real-time inference speeds without consuming vast VRAM, making YOLOv10 a prime candidate for edge deployment.
Link to this sectionСценарии использования и рекомендации#
Выбор между DAMO-YOLO и YOLOv10 зависит от конкретных требований твоего проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда выбирать DAMO-YOLO#
DAMO-YOLO — сильный выбор для:
- Высокопроизводительной видеоаналитики: обработки видеопотоков с высоким FPS на фиксированной инфраструктуре NVIDIA GPU, где пропускная способность при batch-1 является основной метрикой.
- Промышленных производственных линий: сценариев с жесткими ограничениями по задержке GPU на специализированном оборудовании, таких как проверка качества в реальном времени на сборочных линиях.
- Исследований Neural Architecture Search: изучения влияния автоматизированного поиска архитектуры (MAE-NAS) и эффективных репараметризованных бэкендов на производительность детекции.
Link to this sectionКогда стоит выбрать YOLOv10#
YOLOv10 рекомендуется для:
- Детекции в реальном времени без NMS: Приложения, которым полезна сквозная (end-to-end) детекция без использования Non-Maximum Suppression, что снижает сложность развертывания.
- Сбалансированного соотношения скорости и точности: Проекты, требующие оптимального баланса между скоростью вывода и точностью детекции для различных масштабов моделей.
- Приложений с постоянной задержкой: Сценарии развертывания, где критически важна предсказуемость времени вывода, например, в робототехнике или автономных системах.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionСледующее поколение: знакомься с Ultralytics YOLO26#
Хотя YOLOv10 заложил основу для детектирования без NMS, технология развивалась стремительно. Для современных приложений модель Ultralytics YOLO26 предлагает непревзойденную производительность и удобство использования, беря лучшее от предыдущих поколений и совершенствуя их для промышленного использования.
YOLO26 features a strictly natively end-to-end design, eliminating NMS post-processing for simpler deployment pipelines across edge devices. Furthermore, the removal of Distribution Focal Loss (DFL) has dramatically improved compatibility with low-power edge AI hardware.
Что касается обучения, YOLO26 представляет оптимизатор MuSGD, гибрид, вдохновленный методами обучения больших языковых моделей (LLM). Это обеспечивает более стабильное обучение и быструю сходимость. В сочетании с функциями потерь ProgLoss + STAL, YOLO26 демонстрирует заметные улучшения в распознавании мелких объектов — критически важная функция для охраны дикой природы и операций с дронами.
Что особенно важно, YOLO26 — это не просто детектор объектов. Он предлагает улучшения для конкретных задач по всем направлениям, нативно поддерживая сегментацию экземпляров, оценку поз с использованием Residual Log-Likelihood Estimation (RLE), а также специализированные угловые потери для ориентированных ограничивающих рамок (OBB). С инференсом на CPU до 43% быстрее, чем у предшественников, это окончательный выбор для гибких инженерных команд.
Для централизованного управления, аннотирования и облачного обучения моделей YOLO26 платформа Ultralytics Platform предоставляет интуитивно понятный интерфейс, который оптимизирует весь жизненный цикл компьютерного зрения.
Разработчики, заинтересованные в изучении других недавних достижений, могут также оценить Ultralytics YOLO11 или основанный на трансформерах фреймворк RT-DETR для сценариев, требующих иных архитектурных решений.