YOLOX対DAMO-YOLO:物体検出の進化を深く掘り下げる
物体検出の状況は常に進化しており、研究者たちは精度、推論速度、アーキテクチャの効率の限界を押し広げ続けている。この分野への2つの顕著な貢献は、YOLOXと YOLO-YOLOである。YOLOXは、アンカー・フリー・メカニズムを導入することでYOLO ファミリーを活性化し、DAMO-YOLO 、ニューラル・アーキテクチャ・サーチ(NAS)を活用することで、特に産業用途向けに性能を最適化した。
このガイドでは、開発者や研究者が各モデルのニュアンス、理想的なユースケース、そして以下のような最新のソリューションとの比較について理解できるよう、包括的な技術比較を提供しています。 Ultralytics YOLO11.
YOLOX:アンカーフリーのパイオニア
Megviiによって開発されたYOLOXは、2021年にリリースされた時点でYOLO 系譜に大きな変化をもたらした。YOLOv4やYOLOv5ような従来のYOLOの定番であった複雑なアンカーボックスの計算を不要にし、トレーニングプロセスを簡素化した。
技術詳細:
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織メグヴィ
- Date: 2021-07-18
- Arxiv:https://arxiv.org/abs/2107.08430
- GitHub:https://github.com/Megvii-BaseDetection/YOLOX
- ドキュメントhttps://yolox.readthedocs.io/en/latest/
主な建築上の特徴
YOLOXは、その性能を実現するためにいくつかの高度な技術を統合している:
- アンカーを使わないメカニズム:オブジェクトの中心を直接予測することで、YOLOXは、アンカーベースの方法に関連する設計パラメータとヒューリスティックチューニングステップの数を削減します。
- 分離ヘッド:分類と回帰を一緒に処理する結合ヘッドとは異なり、YOLOXはこれらのタスクを分離しています。この分離により、収束速度と全体的な精度が向上します。
- SimOTA:SimplifiedOptimal Transport Assignment(SimOTA)と呼ばれる高度なラベル割り当て戦略により、正サンプルをグランドトゥルースに動的に割り当てることで、静的マッチングよりも学習目的を効果的に最適化する。
なぜアンカーフリーなのか?
アンカー・フリーの検出器は、特定のデータセットに対してアンカー・ボックスのハイパーパラメータ(サイズや縦横比など)を手動で調整する必要性を排除することで、モデル設計を簡素化する。これにより、多くの場合、多様な物体形状に対してより良い汎化が可能となる。
YOLO: 最適化されたニューラル・アーキテクチャ検索
アリババ・グループが2022年後半に発表したDAMO-YOLO 、高性能と低遅延のギャップを埋めることに焦点を当てている。効率的なネットワーク構造を発見するために自動機械学習技術を採用しており、リアルタイム処理を必要とする産業用アプリケーションの強力な候補となる。
技術詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織アリババグループ
- Date: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- ドキュメントhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
主な建築上の特徴
YOLO -YOLOは、YOLO エコシステムにいくつかの「新技術」を導入する:
- MAE-NASバックボーン:このモデルは、平均絶対誤差(MAE)メトリックに基づいてニューラル・アーキテクチャ・サーチ(NAS)を介して生成されたバックボーンを使用する。これにより、特徴抽出器が検出タスクに完璧に適合する。
- RepGFPN:一般化特徴ピラミッドネットワーク(GFPN)に基づくヘビーネック設計で、再パラメータ化を用いて、推論レイテンシを低く保ちながら特徴融合の効率を最大化する。
- ZeroHead:予測の精度を犠牲にすることなく、計算オーバーヘッドを削減する簡素化された検出ヘッド。
- AlignedOTA:分類スコアと回帰精度をよりよく整合させるラベル割り当ての進化で、高品質の予測が優先されることを保証する。
パフォーマンス分析
これら2つのモデルを比較する場合、精度mAP)と推論速度(レイテンシ)のトレードオフを見ることが極めて重要です。以下の表は、YOLOXが依然として競争力を維持している一方で、DAMO-YOLO新しいアーキテクチャが、同程度の精度レベルにおいて、GPU ハードウェア上で一般的に優れた速度を提供していることを強調しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
重要な比較ポイント
- スピード対精度:DAMOYOLOYOLO-Tiny(DAMO-YOLOt)は、YOLOX-Small(40.5)よりも高いmAP (42.0)を達成する一方で、より高速に動作し(2.32ms対2.56ms)、より少ないFLOP数を使用している。これは、NASに最適化されたバックボーンの有効性を示しています。
- パラメータ効率:YOLOX-Nanoは非常に軽量(0.91Mパラメータ)であるため、1バイト単位が重要視される、リソースが極端に制限されたエッジ・デバイスにとって有効な選択肢となる。
- トップエンドのパフォーマンス:YOLOX-Xは精度を51.1mAP押し上げる一方で、膨大なパラメーター数(99.1M)でこれを実現している。DAMO-YOLO-Largeは、半分以下のパラメーター数(42.1M)で同等の50.8mAP 達成し、より現代的で効率的な設計を際立たせている。
ユースケースと応用
YOLOXとDAMO-YOLO どちらを選択するかは、多くの場合、特定の展開環境に依存する。
- YOLOXは、研究環境や、アンカーを使わない簡単な実装を必要とするシナリオに適している。成熟しているため、多くのコミュニティリソースやチュートリアルが利用できる。レガシーとの互換性が必要とされる汎用の物体検出タスクの有力な候補である。
- DAMO-YOLO、GPU ハードウェアの低レイテンシーが重要な産業オートメーションやスマートシティアプリケーションに優れています。その最適化されたアーキテクチャは、製造業における高スループットのビデオ分析とリアルタイムの欠陥検出に理想的です。
Ultralytics YOLO11:優れた代替品
YOLOXとDAMO-YOLO 強力な検出機能を提供しているが、そのタスクはほぼ1つに限定されており、統一された支援エコシステムがない。包括的なソリューションを求める開発者向け Ultralytics YOLO11は、ビジョンAIの最先端を行くものです。
Ultralytics モデルは、単なるアーキテクチャとしてではなく、完全な開発者ツールとして設計されている。
Ultralytics YOLO11を選ぶ理由
- タスクの多様性:YOLOXやYOLO-YOLOは、主にバウンディングボックスの検出に重点を置いていますが、YOLO11 、幅広いコンピュータビジョンタスクをネイティブにサポートしています。これには、インスタンス分割、姿勢推定、指向性オブジェクト検出(OBB)、画像分類などが含まれます。
- 比類のない使いやすさ: Ultralytics Python APIは、わずか数行のコードでモデルのトレーニング、検証、デプロイを可能にします。複雑なリポジトリをクローンしたり、手動で環境パスを設定する必要はありません。
- 整備されたエコシステム: Ultralytics 頻繁にアップデートを行い、PyTorch最新バージョンとの互換性を確保しています、 ONNXおよび TensorRT.活発なコミュニティと豊富なドキュメントにより、サポートがなくても困ることはありません。
- トレーニング効率と記憶力: YOLO11 11は効率性を重視して設計されています。旧来のアーキテクチャや重いトランスフォーマーベースのモデルと比較して、トレーニング中に必要なGPU メモリは通常より少なく、より高速な反復とクラウド計算コストの削減を可能にします。
- パフォーマンスのバランス: YOLO11 、スピードと精度の最適なバランスを実現するために、これまでのYOLO バージョンの遺産を基に構築されており、NVIDIA Jetsonエッジデバイスからエンタープライズグレードのクラウドサーバーまで、あらゆるものへの展開に適しています。
Ultralytics使いやすさ
YOLO11 モデルのトレーニングは、従来のフレームワークと比べて驚くほど簡単だ。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
結論
YOLOXとYOLO -YOLOはともに、コンピュータ・ビジョンの歴史にその名を刻んでいる。YOLOXはアンカーフリーパラダイムの普及に成功し、DAMO-YOLO 産業用検出器の最適化にニューラルアーキテクチャ探索の威力を示した。しかし、柔軟性、長期的なサポート、マルチタスク機能を必要とする現代のアプリケーションには、このような問題がある、 Ultralytics YOLO11は、最高の選択肢として際立っています。堅牢なエコシステムに統合され、最先端のパフォーマンスと最小限のメモリフットプリントと組み合わされることで、開発者はスケーラブルで効率的なAIソリューションを容易に構築することができます。
その他のモデルを見る
これらのモデルが他の最先端のアーキテクチャとどのように比較されるかについては、詳細な比較ページをご覧ください:
- YOLO11 vs. DAMO-YOLO
- YOLOv8 vs. YOLOX
- RT-DETR vs. DAMO-YOLO
- YOLOv10 vs YOLOX
- EfficientDet vs. YOLOX
- PP-YOLOE vs DAMO-YOLO