YOLOv8 YOLO:物体検出モデルの包括的な技術比較
コンピュータビジョンの分野は絶えず進化を続けており、新たなアーキテクチャがエッジデバイスや大規模クラウドクラスターにおける可能性の限界を押し広げている。本技術深掘りでは、二つの主要なリアルタイム物体検出モデルを比較する: YOLOv8 とYOLO比較します。両モデルのアーキテクチャ、性能指標、トレーニング手法を検証することで、機械学習エンジニアはデプロイメントパイプラインに関する適切な判断を下すことが可能となります。
モデルの背景と起源
両モデルはほぼ同時期に導入されましたが、異なる設計哲学と研究目標に由来しています。
YOLOv8の詳細
- 著者:グレン・ジョッカー、アユシュ・チャウラシア、およびチン・チウ
- 組織: Ultralytics
- 日付: 2023年1月10日
- GitHub:Ultralytics リポジトリ
- ドキュメント: YOLOv8 公式ドキュメント
DAMO-YOLOの詳細
- 著者:徐賢哲、江一琪、陳偉華、黄一倫、張元、孫秀宇
- 組織:アリババグループ
- 日付: 2022年11月23日
- Arxiv: DAMO-YOLO Research Paper
- GitHub:YOLO リポジトリ
アーキテクチャの革新
YOLOv8: 多目的アンカーフリー設計
Ultralytics YOLOv8は、前身モデルからの大幅な改善を導入し、非常に信頼性の高い最先端モデルとしての地位を確立しました。アンカーフリーの検出ヘッドを特徴とし、ボックス予測数を削減し、推論を高速化します。このアーキテクチャは、物体性、分類、回帰タスクを分離するデカップルドヘッドを利用しており、より正確なバウンディングボックス予測につながります。
さらに、YOLOv8 CIoU に加え分布焦点損失(DFL) YOLOv8 、特に小型または遮蔽されたターゲットにおいて、物体の境界を正確に特定するモデルの能力を向上させます。その合理化されたバックボーンは、CPU GPU CPU 高度に最適化されています。
DAMO-YOLO: アーキテクチャ探索による推進
DAMO-YOLOは異なるアプローチを採っており、バックボーンを自動的に設計するためにニューラルアーキテクチャ探索(NAS)に大きく依拠しています。Alibabaチームは「MAE-NAS」を導入し、特にTensorRTアクセラレーション下で最適なレイテンシと精度のトレードオフを提供する構造を見つけました。
本モデルは、効率的な特徴融合のためのRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)と、検出ヘッドの計算負荷を最小化する「ZeroHead」設計を組み込んでいる。学習時には、ラベル割り当てにAlignedOTAを活用し、複雑な知識蒸留プロセスに大きく依存するため、対象となる生徒モデルを監督する大規模な教師モデルが必要となる。
学習の複雑さ
YOLO NASとディスティレーションにより優れたレイテンシー指標YOLO 、これは高度に最適化されたYOLOv8単一段階トレーニングパイプラインと比較して、トレーニング中に大幅にCUDA 計算時間を必要とする。
パフォーマンスとメトリクス
コンピュータービジョンモデルを本番環境にデプロイする際、精度(mAP)と推論速度のバランスが極めて重要である。下表は、両モデルの各種サイズにおける性能を示している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv8 卓越した性能バランスYOLOv8 。 YOLOv8n (nano) モデルは、DAMO-YOLOtの850万パラメータと比較してわずか320万パラメータしか必要とせず、モバイルデバイスや厳格なメモリ要件を持つ環境にとって大幅に優れています。さらに、YOLOv8はより幅広いサイズを提供し、非常に高精度なまでスケールアップします。 YOLOv8x クラウドベースのワークロード向け。
開発者エクスペリエンスとエコシステム
使いやすさとトレーニング効率
最大の差別化要因の一つはユーザー体験です。Ultralytics 開発者の作業効率を重視して設計されています。YOLOv8 トレーニングには非常に少ないメモリ使用量で済み、統一Python またはコマンドラインインターフェース経由で実行可能です。
対照的に、DAMO-YOLOの蒸留強化トレーニングを再現するには、多くの場合、複雑な設定ファイルを操作し、多段階の教師-生徒実験追跡を処理する必要があります。
Python YOLOv8 トレーニング、検証、エクスポートする手順がどれほど簡単かを示す例です:
from ultralytics import YOLO
# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")
# Export the trained model to ONNX format
path = model.export(format="onnx")
多様な視覚タスクへの適応性
DAMO-YOLOは厳密にバウンディングボックスobject detectionのために構築されています。対照的に、YOLOv8アーキテクチャは複数のタスクをネイティブにサポートしています。モデルの重みを交換するだけで、開発者は基盤となるデプロイメントコードベースを変更することなく、Instance Segmentation、Image Classification、およびPose Estimationを実行できます。この汎用性により、Ultralyticsモデルは複雑なアプリケーションにとってより実用的になります。
実際のユースケース
YOLOv8を使用するタイミング
YOLOv8速度、精度、導入の容易さを兼ね備えた特性は、以下の用途に最適です:
- スマートリテール分析: オブジェクトtrackを実行して、顧客行動を監視したり、在庫確認を自動化したりします。
- 農業ロボティクス: さまざまなハードウェアでの強力なパフォーマンスを活用し、作物や害虫をリアルタイムで識別します。
- ヘルスケア診断: インスタンスsegmentationを使用して、医用画像内の異常を迅速かつ正確にマッピングします。
- エッジデプロイメント: OpenVINOやCoreMLなどのエクスポート形式とのシームレスな統合により、YOLOv8は制約のあるデバイスで優れた性能を発揮します。
YOLOの使用タイミング
DAMO-YOLOは、特にニッチなシナリオで役立つ可能性があります。
- Academic NAS Research: 再パラメータ化または自動化されたアーキテクチャ設計手法を研究するチーム向け。
- 厳密なGPUバウンドパイプライン: NAS構造がTensorRT実行制限向けに高度に最適化された、特定のNVIDIAハードウェアでのみ実行されるアプリケーション。
ユースケースと推奨事項
YOLOv8とDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。
YOLOv8を選択すべき時
YOLOv8 以下に最適な選択肢YOLOv8 :
- 多様なマルチタスク展開: Ultralyticsエコシステム内で、detect、セグメンテーション、分類、姿勢推定の実績あるモデルを必要とするプロジェクト向け。
- 確立された本番システム: 安定した十分にテストされたデプロイメントパイプラインを備え、YOLOv8アーキテクチャ上に既に構築されている既存の本番環境。
- 広範なコミュニティとエコシステムサポート: YOLOv8の豊富なチュートリアル、サードパーティ統合、および活発なコミュニティリソースから恩恵を受けるアプリケーション。
DAMO-YOLOを選択するタイミング
DAMO-YOLOは以下のような用途に推奨されます。
- 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
- ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
今後の展望:Ultralytics
YOLOv8 として非常に信頼性の高い主力YOLOv8 、コンピュータビジョン分野は急速に進化しています。ユーザーは新世代モデルも検討すべきです:
YOLO26:最新世代のUltralytics YOLO26は、パラダイムシフトを象徴しています。ネイティブなEnd-to-End NMS-Free Designを導入し、Non-Maximum Suppressionのポストプロセッシングに関連するレイテンシのボトルネックを完全に排除します。新しいMuSGD Optimizer(SGDとMuonのハイブリッド)と特殊なProgLoss + STAL損失関数により、YOLO26は非常に安定したトレーニングと大幅に改善された小オブジェクト認識を実現します。DFL Removal(エクスポートの簡素化とエッジ/低電力デバイス互換性の向上のためDistribution Focal Lossを削除)により、アーキテクチャの調整は、以前の世代と比較して最大43%高速なCPU推論を提供し、現代のエッジコンピューティングにとって決定的な選択肢となります。
YOLO11:もう一つの優れた選択肢であるUltralytics YOLO11は、YOLOv8に対する段階的なアーキテクチャの改良を提供し、コミュニティで堅牢かつ広く採用されているモデルであり続けています。
ワークフローを効率化する
モデルをプロトタイプから本番環境へ移行する準備はできていますか?Ultralytics を活用して、データセットの自動アノテーション、track 、そしてクラウドやエッジデバイスへのシームレスなモデル展開を実現しましょう。
結論として、YOLO アーキテクチャ探索に関する興味深い学術的知見YOLO 一方で、Ultralytics より成熟し、汎用性が高く、開発者にとって使いやすいエコシステムを提供します。実績ある安定性をYOLOv8 を使い続けるYOLOv8 NMS超高速アーキテクチャであるYOLO26にアップグレードYOLOv8 、Ultralytics リアルタイムビジョンAIにおける最良の選択肢であり続けます。