Link to this sectionYOLOv9 против YOLOX#
Область компьютерного зрения стала свидетелем стремительной эволюции архитектур для обнаружения объектов в реальном времени. Это руководство содержит всестороннее сравнение YOLOv9 и YOLOX, анализируя их архитектурные инновации, показатели производительности и методологии обучения. Независимо от того, создаешь ли ты интеллектуальные приложения для искусственного интеллекта в производстве или изучаешь прогнозное моделирование, понимание этих моделей поможет тебе принимать взвешенные решения для твоего следующего развертывания.
Link to this sectionАрхитектурные инновации#
Link to this sectionYOLOv9: программируемая градиентная информация#
YOLOv9 совершил сдвиг парадигмы, решив проблему «информационного бутылочного горлышка», присущую глубоким нейронным сетям. Его ключевые инновации включают программируемую градиентную информацию (PGI) и обобщенную эффективную сеть агрегации слоев (GELAN).
- Авторы: Chien-Yao Wang и Hong-Yuan Mark Liao
- Организация: Институт информатики, Academia Sinica, Тайвань
- Дата: 21 февраля 2024 г.
- Arxiv: 2402.13616
- GitHub: WongKinYiu/yolov9
Сохраняя важные данные признаков во время прямого прохода, YOLOv9 гарантирует, что градиенты, используемые для обновления весов при обратном распространении, остаются точными. Эта архитектура отлично справляется с извлечением признаков, что делает её высокоэффективной для обнаружения мелких объектов в сложных условиях, например, при анализе аэрофотоснимков и детализированных медицинских сканов.
Link to this sectionYOLOX: объединяя научные исследования и индустрию#
Выпущенный в середине 2021 года, YOLOX переориентировал серию YOLO на архитектуру без анкоров (anchor-free). Он представил разделенную «голову» (decoupled head), которая отделяет задачи классификации от задач локализации, и использовал стратегию назначения меток SimOTA для улучшения сходимости обучения.
- Авторы: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li и Jian Sun
- Организация: Megvii
- Дата: 18 июля 2021 г.
- Arxiv: 2107.08430
- GitHub: Megvii-BaseDetection/YOLOX
Хотя YOLOX был революционным для своего времени, достигнув отличной средней точности (mAP) и избавившись от необходимости подбора гиперпараметров anchor box, его базовая архитектура с тех пор была превзойдена современными сетями, которые лучше балансируют количество параметров и сохранение признаков.
Как YOLOX, так и новые модели Ultralytics используют архитектуры без анкоров, что снижает сложность подбора гиперпараметров и улучшает обобщающую способность на различных наборах данных.
Link to this sectionАнализ производительности#
При сравнении этих моделей на бенчмарке MS COCO достижения YOLOv9 становятся очевидными. YOLOv9 стабильно обеспечивает лучший баланс между точностью и FLOPs.
| Модель | размер (пиксели) | mAPval 50-95 | Скорость CPU ONNX (мс) | Скорость T4 TensorRT10 (мс) | параметры (М) | FLOPs (Б) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Хотя YOLOX предлагает облегченные варианты, такие как YOLOX-Nano, для экстремальных граничных случаев, варианты YOLOv9 стабильно превосходят YOLOX аналогичного размера по чистой точности. Например, YOLOv9m достигает 51.4% mAP по сравнению с 49.7% у YOLOXl, несмотря на то, что содержит менее половины параметров (20.0M против 54.2M).
Link to this sectionПреимущество Ultralytics#
Выбор модели подразумевает не только теоретические знания об архитектуре; экосистема вокруг неё определяет скорость разработки и успех развертывания. Использование YOLOv9 в рамках экосистемы Ultralytics обеспечивает непревзойденную простоту использования и надежную поддержку сообщества.
В отличие от старых репозиториев с оригинальными исследованиями, фреймворк Ultralytics предоставляет унифицированный Python API, который упрощает сложные конвейеры. Обучение требует значительно меньше памяти GPU, чем многие аналоги, предлагая невероятную эффективность обучения.
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")Благодаря встроенной поддержке множества задач, включая обнаружение объектов, сегментацию экземпляров и оценку позы, ты можешь быстро адаптировать свои решения в области компьютерного зрения, не меняя всю кодовую базу.
Link to this sectionПрименение в реальных условиях#
Конкретные сильные стороны этих моделей адаптируют их для различных реальных задач:
Link to this sectionВысокоскоростная розничная аналитика#
Для современных розничных сред, требующих распознавания товаров в реальном времени, YOLOv9 подходит идеально. Его способность сохранять сложные детали признаков делает его отлично подходящим для развертываний ИИ в ритейле, где необходимо различать визуально похожие товары на заполненной полке.
Link to this sectionРазвертывание на устаревшем оборудовании#
В сценариях, ограниченных строгими аппаратными требованиями или специализированными NPU, которые плохо работают с новыми блоками агрегации, YOLOX-Nano иногда находит свою нишу. Его простые, упрощенные сверточные паттерны иногда предпочтительны для крайне ограниченных по ресурсам микроконтроллеров.
Link to this sectionАвтономная робототехника#
Для робототехники и навигации пропуск мелких объектов может привести к катастрофе. Архитектура GELAN в составе YOLOv9 гарантирует, что признаки мелких, удаленных препятствий не теряются в глубоких слоях сети, превосходя старые модели в критически важных средах безопасности, таких как ИИ в автомобилестроении.
Link to this sectionСценарии использования и рекомендации#
Выбор между YOLOv9 и YOLOX зависит от требований твоего конкретного проекта, ограничений развертывания и предпочтений в экосистеме.
Link to this sectionКогда стоит выбрать YOLOv9#
YOLOv9 — отличный выбор для:
- Исследований информационных узких мест: Академические проекты по изучению архитектур Programmable Gradient Information (PGI) и Generalized Efficient Layer Aggregation Network (GELAN).
- Изучения оптимизации потока градиентов: Исследования, направленные на понимание и смягчение потери информации в глубоких слоях сети во время обучения.
- Бенчмаркинга обнаружения высокой точности: Сценарии, где высокие показатели производительности YOLOv9 в бенчмарке COCO необходимы в качестве точки отсчета для архитектурных сравнений.
Link to this sectionКогда выбирать YOLOX#
YOLOX рекомендуется для:
- Исследований безъякорного обнаружения: академических исследований, использующих чистую безъякорную архитектуру YOLOX как базу для экспериментов с новыми головами детекции или функциями потерь.
- Сверхлегких Edge-устройств: развертывания на микроконтроллерах или устаревшем мобильном оборудовании, где критически важен чрезвычайно малый вес варианта YOLOX-Nano (0.91 млн параметров).
- Изучения назначения меток SimOTA: исследовательских проектов, анализирующих стратегии назначения меток на основе оптимального транспорта и их влияние на сходимость обучения.
Link to this sectionКогда выбирать Ultralytics (YOLO26)#
Для большинства новых проектов Ultralytics YOLO26 предлагает наилучшее сочетание производительности и опыта разработчика:
- Развертывания на периферии без NMS: приложений, требующих стабильного вывода с низкой задержкой без сложности постобработки подавления немаксимумов.
- Среды только с CPU: устройств без выделенного GPU-ускорения, где до 43% более быстрый вывод на CPU у YOLO26 дает решающее преимущество.
- Детектирования мелких объектов: сложных сценариев, таких как аэросъемка с дронов или анализ датчиков IoT, где ProgLoss и STAL значительно повышают точность на крошечных объектах.
Link to this sectionБудущее: YOLO26#
Хотя YOLOv9 представляет собой впечатляющий рубеж, требования производственных сред постоянно расширяют границы. Недавно выпущенный YOLO26 представляет собой окончательный стандарт для современного компьютерного зрения на основе ИИ.
YOLO26 полностью обновляет конвейер развертывания благодаря встроенному дизайну End-to-End NMS-Free. Устраняя необходимость в сложном подавлении немаксимумов (NMS) при постобработке, он обеспечивает значительно меньшую задержку вывода.
Более того, YOLO26 включает революционный оптимизатор MuSGD, гибрид SGD и Muon, который заимствует инновации из обучения LLM для обеспечения невероятно стабильной и быстрой сходимости. Убрав функцию потерь Distribution Focal Loss (DFL), YOLO26 достигает до 43% более быстрого вывода на CPU по сравнению с предшественниками, что делает его абсолютно лучшим выбором для граничных устройств и корпоративных развертываний. Благодаря заметным улучшениям в распознавании мелких объектов с помощью ProgLoss и STAL, YOLO26 эффективно вытесняет как YOLOX, так и YOLOv9.
Для инженеров, изучающих современные архитектуры, мы также рекомендуем обратить внимание на YOLO11 и RT-DETR как мощные альтернативы в составе пакета Ultralytics. Обеспечь будущее своего проекта, используя непревзойденную производительность новейших моделей на платформе Ultralytics.