YOLO . YOLOX:包括的な技術比較
リアルタイムコンピュータビジョンの分野は絶えず進化を続けている。この進化の過程における二つの重要なYOLO がDAMO-YOLOとYOLOXであり、いずれも高速かつ高精度な物体検出という課題に対して独自の革新をもたらした。両モデルともオープンソースコミュニティに大きく貢献しているが、機械学習エンジニアにとって、そのアーキテクチャ上の差異、トレーニング手法、そして最適な導入シナリオを理解することは極めて重要である。
この包括的なガイドでは、両モデルの技術的なニュアンスを探りつつ、Ultralytics のような現代的な代替手段が、今日の生産環境において優れたパフォーマンスと使いやすさを提供する理由を明らかにします。
モデルの概要
YOLO
アリババグループの研究者チームによって開発YOLO 、自動化されたアーキテクチャ発見を活用する高効率な物体検出手法として紹介YOLO
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
組織:Alibaba Group
日付: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:YOLO
ドキュメント:YOLO
YOLOX 詳細
Megviiの研究者によって開発されたYOLOXは、YOLO アンカーフリー設計に転換することで研究と産業界のギャップを埋めることを目指し、アーキテクチャを大幅に簡素化しながら当時の最高性能を達成した。
著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
組織:Megvii
日付: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
ドキュメント:YOLOX Documentation
アーキテクチャ分析
DAMO-YOLOアーキテクチャ
YOLO ニューラルアーキテクチャ検索(NAS)に大きくYOLO 。主要な構成要素は以下の通りである:
- MAE-NASバックボーン:多目的進化探索アルゴリズムを用いて、推論速度と精度の最適なバランスを提供するバックボーンを発見します。
- 効率的なRepGFPN:特徴融合に適応したヘビーネック設計により、モデルが様々な物体スケールで高い精度を維持することを支援する。
- ZeroHead:最終予測層における計算オーバーヘッドを削減する、簡素化された軽量検出ヘッド。
YOLOX アーキテクチャ
YOLOXは異なるアプローチを取り、構造の簡素さとアンカーレス設計に焦点を当てた:
- アンカーフリー機構:事前定義されたアンカーなしで直接バウンディングボックス座標を予測することで、YOLOXは設計パラメータの数とヒューリスティックな調整の必要性を削減する。
- 分離型ヘッド:分類と回帰タスクを異なる特徴量ブランチに分離し、収束速度と全体的な精度を向上させます。
- SimOTAラベル割り当て:陽性サンプルを動的に真値に割り当てる高度なラベル割り当て戦略であり、トレーニング効率を向上させる。
デザイン哲学
YOLO 厳しい制約下で最適なアーキテクチャを見つけるために機械駆動型のNAS探索YOLO 一方、YOLOXはオブジェクト検出パイプラインを効率化するため、人間が設計した洗練された簡略化手法(アンカーフリーヘッドなど)を活用する。
パフォーマンス比較
これらのモデルを評価するには、平均精度(mAP)、推論速度、パラメータ数を検討する必要があります。以下に、両アーキテクチャにおける標準版と軽量版の詳しい比較表を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOXxmAP .mAP 最高の絶対mAP を達成する一方で、DAMO-YOLOlはパラメータ数が半分以下(42.1M対99.1M)mAP 非常に競争力のある50.8mAP を実現し、TensorRT 大幅に高速化している。
学習方法論
YOLOトレーニング
YOLO 学習中に複雑な蒸留強化YOLO 。多くの場合、まず大規模な「教師」モデルを学習させ、その知識を小規模な「生徒」モデルへ蒸留する。また動的ラベル割り当てのためにAlignedOTAを採用する。この多段階学習プロセスは極めて効果的だが、必要なGPU とメモリオーバーヘッドを大幅に増加させる。
トレーニング YOLOX
YOLOXMixUp 強力なデータ拡張戦略に依存している。しかし著者らは、最終15エポックでこれらの強力な拡張を無効化することで、モデルが現実とのギャップを埋めることができ、最終的な精度指標を大幅に高められることを発見した。
理想的なユースケース
- YOLO:サーバーサイドの蒸留パイプラインをサポート可能であり、対象ハードウェア(特定のNVIDIA )がそのボトルネックとなるNASアーキテクチャから直接恩恵を受けられる、ハイリスクな産業用展開に最適です。
- YOLOX: 開発者が純粋なアンカーフリー手法を求める場合に最適です。極めて軽量な
YOLOXnanoレガシーAndroidAndroid での実用性を可能にする エッジコンピューティングパラメータ数が絶対的なボトルネックとなる、非常に制約の多いIoTセンサー。
Ultralyticsの利点: YOLO26の登場
YOLO 優れたマイルストーンではあるものの、今日の開発者はより包括的で汎用性が高く、使いやすいソリューションを求めています。そこで活躍Ultralytics 新たにリリースUltralytics 。
2026年1月にリリースされたYOLO26は、あらゆるコンピュータビジョンタスクにおいて究極の推奨モデルです。従来のアーキテクチャを凌駕する一連の画期的な技術を導入しています:
- エンドツーエンドNMS設計:YOLO26は非最大抑制(NMS)後処理をネイティブに排除します。これにより、従来の検出ヘッドに内在する遅延ボトルネックを回避し、大幅に簡素化・高速化された展開が可能となります。
- 最大43%高速CPU :分布焦点損失(DFL)を戦略的に除去し、レイヤーを最適化することで、YOLO26はCPUおよびエッジハードウェア上で比類のない速度を実現します。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニング手法に着想を得たYOLO26は、MuSGDオプティマイザー(SGD ミューオンのハイブリッド)を導入。これにより、YOLOXの従来設定と比較して、極めて安定したトレーニング実行と大幅に高速な収束を実現しています。
- ProgLoss + STAL:これらの高度な損失関数は、小さな物体の認識において顕著な改善をもたらし、YOLO26をドローン映像やロボティクス分野で圧倒的に優れた性能へと導く。
- 汎用性:物体検出専用YOLO異なり、YOLO26は同一の整備されたエコシステム内で、インスタンスセグメンテーション、姿勢推定、分類、およびオリエンテッドバウンディングボックス(OBB)をシームレスにネイティブ処理します。
Ultralyticsによる使いやすさ
Ultralytics Python 開発者体験を効率化します。最先端のYOLO26モデルのトレーニングには、はるかに少ない定型コードで済み、YOLOの複雑な蒸留パイプラインを回避できます。さらに、Ultralytics 、重いトランスフォーマーベースのモデルと比較して、トレーニングCUDA 要件が極めて低いという特徴があります。
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
クラウドトレーニングとデプロイメント
Ultralytics Platformを使用すれば、モデルの自動アノテーション、トレーニング、エッジデバイスへのデプロイが可能です。データバージョン管理とGPU すべてプラットフォームが代行します。
結論
YOLO 選択は特定の制約条件に依存する:YOLO NASを介した特定GPU上で卓越した速度対精度比YOLO 一方、YOLOXは軽量なエッジシナリオに理想的なクリーンなアンカーフリー設計を実現する。
しかし、活発なコミュニティを備えた現代的で将来性のあるソリューションを求めるチームにとって、Ultralytics キテクチャは決定的な選択肢です。NMS、CPU 、検出・セグメンテーション・姿勢推定タスク向けの統一APIにより、研究段階から堅牢な実運用環境への円滑な移行において比類のない性能を発揮します。
他のモダンなアーキテクチャを探求したい開発者には、以下の調査も推奨します Ultralytics YOLO11 や、トランスフォーマーベースのモデルである RT-DETR などのトランスフォーマーベースのモデルも、包括的なUltralyticsドキュUltralytics で利用可能です。