YOLOv8 vs. RTDETRv2: 詳細な技術比較
コンピュータビジョンの領域は絶えず進化しており、新しいアーキテクチャがリアルタイム物体検出の限界を押し広げています。大きな注目を集めている2つの主要なモデルが、UltralyticsのYOLOv8とBaiduのRTDETRv2です。本ガイドでは、これら2つの強力なモデルについて、アーキテクチャ、性能指標、理想的な展開シナリオを探りながら、包括的な技術比較を提供します。
YOLOv8の概要
UltralyticsのYOLOv8は、YOLO (You Only Look Once) モデルファミリーにおける重要なマイルストーンです。長年の基礎研究に基づき、非常に幅広いタスクにおいて、卓越した速度、精度、使いやすさを実現しています。
主な特徴:
- 著者:Glenn Jocher、Ayush Chaurasia、Jing Qiu
- 組織: Ultralytics
- 日付: 2023年1月10日
- GitHub: Ultralytics リポジトリ
- ドキュメント: YOLOv8 ドキュメント
アーキテクチャと強み
YOLOv8は、特徴抽出とBBox回帰の両方を最適化した合理化されたアーキテクチャを採用しています。これはアンカーフリーの検出器であり、予測ヘッドを簡素化し、トレーニング中に必要なハイパーパラメータ調整の数を削減します。このアーキテクチャにより、推論速度とmAP(平均適合率)の間の優れた性能バランスが確保され、エッジデバイスとクラウドサーバーの両方での実運用に非常に適しています。
さらに、YOLOv8は、Transformerベースのアーキテクチャと比較して、トレーニング中のメモリ要件が大幅に低くなっています。これにより、開発者はメモリ不足エラーに悩まされることなく、標準的なコンシューマー向けGPUでモデルをトレーニングできます。
汎用性
YOLOv8の決定的な強みの1つは、そのネイティブな汎用性にあります。多くのモデルがBBoxのみに焦点を当てている一方で、YOLOv8は物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、および指向性BBox (OBB)検出をすぐに利用できる状態でサポートしています。
RTDETRv2の概要
RTDETRv2 (Real-Time Detection Transformer version 2) は、元のRT-DETRをベースにしており、Vision Transformerの強力なアテンションメカニズムをリアルタイム物体検出アプリケーションにもたらすことを目指しています。
主な特徴:
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR リポジトリ
- ドキュメント: RTDETRv2 README
アーキテクチャと強み
RTDETRv2は、畳み込みニューラルネットワーク (CNN) のバックボーンとTransformerのエンコーダ・デコーダ構造を組み合わせたハイブリッドアーキテクチャを活用しています。これにより、モデルは自己注意メカニズムを通じて、複雑な空間関係とグローバルなコンテキストを捉えることができます。「bag-of-freebies」トレーニング戦略を利用することで、RTDETRv2はCOCOデータセットのような標準的なベンチマークデータセットで競争力のあるmAPスコアを達成しています。
弱点
高い精度にもかかわらず、RTDETRv2のTransformerベースの性質により、純粋なCNNアーキテクチャと比較してメモリ消費量が多く、トレーニング時間が長くなります。Transformerは本質的に多くのVRAMを必要とするため、リソースが制限されたハードウェアでのトレーニングは困難です。さらに、RTDETRv2は検出には優れていますが、Ultralyticsエコシステムに不可欠なマルチタスクの汎用性(姿勢推定やセグメンテーションなど)が欠けています。
パフォーマンスの比較
本番環境向けにモデルを評価する際、モデルサイズ、推論速度、精度のトレードオフは最優先事項です。以下の表は、YOLOv8とRTDETRv2のバリエーションの直接比較を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
速度はAmazon EC2 P4dインスタンスを使用して測定されました。CPU推論はONNXを活用し、GPU速度はTensorRTでテストされました。
ユースケースと推奨事項
YOLOv8とRT-DETRの選択は、特定のプロジェクト要件、展開の制約、およびエコシステムの優先順位によって決まります。
YOLOv8を選択すべき場合
YOLOv8が適しているケース:
- 汎用的なマルチタスクデプロイメント: Ultralyticsエコシステム内で、検出、セグメンテーション、分類、姿勢推定 用の実証済みのモデルを必要とするプロジェクト。
- 確立されたプロダクションシステム: すでにYOLOv8アーキテクチャに基づいて構築されており、安定した十分にテストされたデプロイメントパイプラインを持つ既存のプロダクション環境。
- 広範なコミュニティおよびエコシステムのサポート: YOLOv8の豊富なチュートリアル、サードパーティ統合、活発なコミュニティリソースを活用できるアプリケーション。
RT-DETRを選ぶべき場面
RT-DETRは次の場合に推奨されます:
- Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
- レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
Ultralyticsの利点
モデルの選択は単なる指標を超えたものであり、周辺のソフトウェアエコシステムが開発者の生産性にとって不可欠です。Ultralytics エコシステムは、その使いやすさで知られており、機械学習のライフサイクル全体を簡素化する統合されたPython APIを提供しています。
データセットの管理から分散トレーニングまで、Ultralyticsは複雑なボイラープレートコードを抽象化します。開発者は、すぐに利用可能な事前学習済みウェイトや、Hugging Faceのようなプラットフォームや監視ツールとのシームレスな統合の恩恵を受けます。この十分に整備されたエコシステムは、活発な開発、頻繁なアップデート、堅牢なコミュニティサポートを保証します。
さらに、トレーニングの効率性はUltralytics YOLOモデルの特徴です。これらは、トレーニングプロセス中の高速な収束と低メモリフットプリントのために高度に最適化されており、RTDETRv2のようなTransformerベースの検出器と比較して、実験サイクルを大幅に加速します。
今後の展望:YOLO26の力
YOLOv8は依然として強力ですが、最先端技術を求める開発者は、2026年1月にリリースされた待望のYOLO26へのアップグレードを検討すべきです。YOLO26は、いくつかの画期的なイノベーションで最先端を再定義しています。
- エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS) の後処理を排除し、より高速で決定論的な展開ワークフローを実現します。
- DFLの削除: Distribution Focal Lossを削除することで、エッジおよび低電力デバイスとの互換性を高めるためにモデルを合理化しました。
- MuSGDオプティマイザ: LLMトレーニングのイノベーションを統合したMuSGDオプティマイザは、より安定したトレーニングと高速な収束を保証します。
- 最大43%高速なCPU推論: 専用GPUがない環境向けに大幅に最適化されています。
- ProgLoss + STAL: これらの高度な損失関数により、航空画像やロボット工学において不可欠な、小さな物体の認識において顕著な改善が得られます。
Ultralyticsスイート内で検討する価値のあるその他の最新の代替手段としてYOLO11があり、これはレガシープロジェクトに対して堅牢な性能を提供しますが、すべての新規導入にはYOLO26が推奨されます。
コード例:学習と推論
Ultralytics APIはシンプルであるため、わずか数行のPythonコードでモデルの読み込み、トレーニング、デプロイが可能です。以下の例を実行する前に、PyTorchがインストールされていることを確認してください。
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")Ultralyticsは、ONNX、TensorRT、CoreMLなど、多数の形式へのワンクリックエクスポートをサポートしており、多様なハードウェアアーキテクチャ全体でのモデルデプロイオプションを簡素化します。
結論
YOLOv8とRTDETRv2はどちらも、リアルタイム物体検出において魅力的な機能を提供します。RTDETRv2は、グローバルなコンテキストを捉える上でのTransformerの力を示しており、推論速度やメモリのオーバーヘッドが主な制約ではない、複雑な空間推論タスクに適しています。
しかし、速度、精度、リソース効率の優れたバランスを優先する開発者にとって、Ultralytics YOLOモデルは依然として優れた選択肢です。YOLOv8の軽量な性質は、その比類のない使いやすさ、複数のビジョンスキルにわたる汎用性、そして繁栄するオープンソースエコシステムと相まって、スケーラブルな本番環境向けの頼りになるソリューションとなっています。エッジパフォーマンスの極致を求める方には、新しくリリースされたYOLO26が、業界をリードし続ける比類のないNMSフリーの効率性を提供します。