YOLOX対YOLO11:物体検出の進化を技術的に深く掘り下げる
最適な物体検出アーキテクチャを選択することは、精度、待ち時間、計算効率のバランスを目指す開発者にとって極めて重要である。この包括的な分析では、Megviiの先駆的なアンカーフリーモデルであるYOLOXと、UltralyticsのアンカーフリーモデルであるUltralyticsを比較します。 Ultralytics YOLO11を比較する。YOLOXが2021年に重要なイノベーションを導入したのに対し、YOLO11 2024年のコンピュータビジョンの最先端を表しており、検出からインスタンスのセグメンテーションに至る多様なタスクのための統一されたフレームワークを提供している。
YOLOX:研究と産業の架け橋
2021年に発売されたYOLOXは、アンカー不要のメカニズムを採用し、予測ヘッドを切り離すことで、YOLO ファミリーに大きな変化をもたらした。学術研究と産業応用のギャップを埋めるために設計された。
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織メグヴィ
- Date: 2021-07-18
- ArxivYOLOX:2021年にYOLO シリーズを超える
- GitHubMegvii-BaseDetection/YOLOX
- ドキュメントYOLOXドキュメント
アーキテクチャとイノベーション
YOLOXは、次のような以前のバージョンとは一線を画している。 YOLOv5アンカーボックスを削除することで、設計の複雑さと発見的ハイパーパラメータの数を削減した。YOLOXのアーキテクチャは、分類タスクと回帰タスクを異なるブランチに分離した非結合型ヘッドを特徴としており、これにより収束速度と精度が向上した。さらに、ポジティブサンプルを動的に割り当てる高度なラベル割り当て戦略であるSimOTAを導入し、性能をさらに向上させた。
長所と短所
長所:
- アンカーフリー設計:手動によるアンカーボックスのクラスタリングが不要になり、トレーニングパイプラインが簡素化されます。
- 分離ヘッド:分類と回帰を独立して最適化することで、ローカライズの精度を向上。
- 研究ベースライン: アンカーフリー検出器を研究するための強力な基準点となる。
弱点:
- 限られたタスクサポート:セグメンテーション、ポーズ推定、オリエンテッドバウンディングボックス(OBB)のネイティブサポートがない。
- 断片的なエコシステム:最新のフレームワークと比較して、デプロイメント、トラッキング、MLOpsのための統一された、活発にメンテナンスされたツールセットが欠けている。
- 効率が低い:一般的に、YOLO11ような新しいモデルと同等の精度を達成するためには、より多くのパラメータとFLOPを必要とする。
Ultralytics YOLO11:ビジョンAIの新基準
Ultralytics YOLO11は、効率性、柔軟性、使いやすさに重点を置き、リアルタイム物体検出のレガシーに磨きをかけています。ラピッドプロトタイピングと大規模プロダクションデプロイメントの両方に対応するソリューションとして設計されています。
- 著者: Glenn Jocher、Jing Qiu
- 組織Ultralytics
- 日付: 2024-09-27
- GitHub:Ultralytics リポジトリ
- ドキュメントUltralytics YOLO11 ドキュメント
アーキテクチャとエコシステムの利点
YOLO11 、高度に最適化されたアンカーフリーのアーキテクチャを採用し、計算オーバーヘッドを最小限に抑えながら特徴抽出を強化している。YOLOXとは異なり、YOLO11 11は単なるモデルではなく、包括的なエコシステムの一部です。YOLO11は、分類、セグメンテーション、ポーズ推定、トラッキングなど、幅広いコンピュータビジョンタスクを単一の使いやすいAPIでサポートします。
統合MLOps
YOLO11 、Ultralytics HUBや以下のようなサードパーティツールとシームレスに統合します。 Weights & Biasesおよび Cometなどのサードパーティ製ツールとシームレスに統合されており、実験を視覚化し、データセットを簡単に管理することができます。
YOLO11選ぶ理由
- 汎用性: 物体検出、インスタンス分割、姿勢推定、画像分類のための単一のフレームワーク。
- 使いやすさ:合理化されたPython APIと CLI 、開発者はわずか数行のコードでモデルをトレーニングおよびデプロイできます。
- パフォーマンスバランス:優れたパフォーマンスを実現 mAPを実現し、CPUとGPUの両方において、先行製品や競合製品よりも高速な推論速度を実現。
- メモリ効率:学習および推論時のメモリ要件が低く設計されているため、以下のようなトランスフォーマーベースのモデルよりもアクセスしやすくなっています。 RT-DETR.
- デプロイメント対応:以下のようなフォーマットへのエクスポートをネイティブでサポート ONNX, TensorRTCoreML、TFLite フォーマットへのエクスポートをネイティブにサポートし、NVIDIA Jetsonからモバイルデバイスまで、多様なハードウェアとの互換性を保証します。
パフォーマンス分析
下の表は、YOLOXとYOLO11性能の違いを示しています。YOLO11 一貫して、より少ないパラメータとFLOP数でより高い精度mAP)を示し、推論速度の高速化を実現しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
主なポイント
- 効率の優位性: YOLO11 モデルは、速度と精度のトレードオフを大幅に改善します。例えば、YOLO11mはわずか20.1Mのパラメータで 51.5mAP達成し、大規模なYOLOX-x(51.1mAP、99.1Mパラメータ)を凌駕する一方で、およそ5倍小さい。
- 推論速度:T4GPU TensorRTを使用した場合、YOLO11nのクロックは1.5ミリ秒であり、レイテンシが重要なリアルタイム推論アプリケーションに最適です。
- CPU パフォーマンス: Ultralytics 透過的なCPU ベンチマークを提供し、YOLO11専用アクセラレーターを搭載していないデバイスにも導入可能であることを示します。
- トレーニングの効率化: YOLO11アーキテクチャは、トレーニング中の収束を高速化し、貴重な計算時間とリソースを節約します。
現実世界のアプリケーション
YOLO11 いる点
- スマートシティ高速・高精度のYOLO11 11は、交通管理システムや歩行者の安全監視に最適です。
- 製造: セグメンテーションと OBB検出が可能なため、品質管理や組立ラインでの配向部品の欠陥検出に最適です。
- ヘルスケア高い精度と効率的なリソース使用により、臨床現場におけるエッジデバイスでの医療画像解析が可能になります。
YOLOXの使用場所
- レガシーシステム:2021-2022年頃に設立されたプロジェクトで、まだ新しいアーキテクチャに移行していないもの。
- 学術研究:デカップリングヘッドまたはアンカーなしメカニズムの効果を単独で特に調査する研究。
ユーザー・エクスペリエンスとコードの比較
Ultralytics 、合理化されたユーザー体験を優先します。YOLOXはしばしば複雑な設定ファイルや手動でのセットアップを必要とするが、YOLO11 最小限のコードで採用できる。
Ultralytics YOLO11使用
開発者は数行のPython、事前に訓練されたモデルをロードし、推論を実行し、カスタムデータで訓練することもできる:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
トレーニングのしやすさ
カスタムデータセット上でのYOLO11 モデルのトレーニングも同様に簡単である。ライブラリは、データの増強、ハイパーパラメータのチューニング、ロギングを自動的に処理する。
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
結論
YOLOXはアンカーフリーの物体検出を普及させる上で極めて重要な役割を果たしたが、Ultralytics YOLO11 最新のAI開発において優れた選択肢である。
YOLO11 、精度、スピード、効率においてYOLOXを上回ると同時に、堅牢でメンテナンスの行き届いたエコシステムを提供します。検出、セグメンテーション、ポーズ推定のために異なるライブラリを使いこなす必要性をなくし、複数のビジョンタスクに対応する汎用性により、開発の複雑さを大幅に軽減します。活発なコミュニティ・サポートと包括的なドキュメントに裏打ちされた、将来性のある高性能ソリューションを求める開発者にとって、YOLO11 11はお勧めの製品です。
その他のモデルを見る
YOLO11 他の主要アーキテクチャーとの比較をご覧いただき、お客様の特定のニーズに最適なものを見つけてください: