YOLOv8 RTDETRv2:詳細な技術比較
コンピュータビジョンの分野は絶えず進化を続けており、新たなアーキテクチャがリアルタイム物体検出の可能性の限界を押し広げている。特に注目を集めている2つの有力モデルが、Ultralytics YOLOv8 である。本ガイドでは、これら2つの強力なモデルを包括的に技術的に比較し、そのアーキテクチャ、性能指標、および最適な導入シナリオを探る。
YOLOv8
Ultralytics YOLOv8 YOLO You Only Look Once)モデル群における重要なYOLOv8 。長年にわたる基礎研究を基盤とし、多様なタスクにおいて卓越した速度、精度、そして使いやすさを実現しています。
主な特徴:
- 著者:グレン・ジョッカー、アユシュ・チャウラシア、およびチン・チウ
- 組織: Ultralytics
- 日付: 2023年1月10日
- GitHub:Ultralytics
- ドキュメント: YOLOv8 ドキュメント
アーキテクチャと強み
YOLOv8 、特徴抽出と境界ボックス回帰の両方を最適化する合理化されたアーキテクチャYOLOv8 。これはアンカーフリー検出器であり、予測ヘッドを簡素化し、トレーニング中に必要なハイパーパラメータの調整数を削減します。このアーキテクチャは、推論速度と平均平均精度(mAP)の間の優れた性能バランスを保証し、エッジデバイスとクラウドサーバーの両方における実世界での展開に非常に適しています。
さらに、YOLOv8 トランスフォーマーベースのアーキテクチャと比較して、トレーニング中のメモリ要件が大幅にYOLOv8 。これにより、開発者はメモリ不足エラーに遭遇することなく、標準的なコンシューマー向けGPU上でモデルをトレーニングできます。
汎用性
YOLOv8 決定的な強みのひとつは、その生来の汎用性YOLOv8 。多くのモデルがバウンディングボックスのみに焦点を当てる中、YOLOv8 はオブジェクト検出、インスタンスセグメンテーション、画像分類、姿勢推定、およびオリエンテッドバウンディングボックス(OBB)検出に対して、すぐに使える状態でのサポートYOLOv8 。
RTDETRv2 概要
RTDETRv2(リアルタイム検出トランスフォーマーバージョン2)は、RT-DETRを基盤とし、ビジョントランスフォーマーの強力な注意機構をリアルタイム物体検出アプリケーションに適用することを目的としています。
主な特徴:
- 著者:Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv: 2407.17140
- GitHub:RT-DETR
- ドキュメント: RTDETRv2 README
アーキテクチャと強み
RTDETRv2は、畳み込みニューラルネットワーク(CNN)バックボーンとトランスフォーマーのエンコーダ-デコーダ構造を組み合わせたハイブリッドアーキテクチャを採用しています。これにより、自己注意機構を通じて複雑な空間的関係性とグローバルな文脈をモデルが捕捉することが可能となります。「bag-of-freebies」トレーニング戦略のセットを活用することで、RTDETRv2はCOCO などの標準的なベンチマークデータセットにおいて競争力のあるmAP を達成しています。
弱点
RTDETRv2のTransformerベースの性質は、その高い精度にもかかわらず、純粋なCNNアーキテクチャと比較して、より高いメモリ消費と遅いトレーニング時間をもたらします。Transformerは本質的に多くのVRAMを必要とするため、リソースが限られたハードウェアでのトレーニングは困難です。さらに、RTDETRv2は検出に優れていますが、Ultralyticsエコシステムに固有のマルチタスクの汎用性(姿勢推定やセグメンテーションなど)に欠けています。
パフォーマンス比較
モデルを本番環境で評価する際には、モデルサイズ、推論速度、精度のトレードオフが極めて重要である。YOLOv8 バリエーションを直接比較したものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ハードウェアとメトリクス
速度はAmazon EC2 P4dインスタンスを使用して測定されました。CPU にはONNXが活用されました。 ONNXを利用し、GPU TensorRTを使用してテストしました。
ユースケースと推奨事項
YOLOv8とRT-DETRのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。
YOLOv8を選択すべき時
YOLOv8 以下に最適な選択肢YOLOv8 :
- 多様なマルチタスク展開: Ultralyticsエコシステム内で、detect、セグメンテーション、分類、姿勢推定の実績あるモデルを必要とするプロジェクト向け。
- 確立された本番システム: 安定した十分にテストされたデプロイメントパイプラインを備え、YOLOv8アーキテクチャ上に既に構築されている既存の本番環境。
- 広範なコミュニティとエコシステムサポート: YOLOv8の豊富なチュートリアル、サードパーティ統合、および活発なコミュニティリソースから恩恵を受けるアプリケーション。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
- 柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
- 大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
Ultralyticsの利点
モデルの選択は、単なる生のメトリクスを超えたものです。周囲のソフトウェアエコシステムは、開発者の生産性にとって極めて重要です。Ultralyticsエコシステムは、その使いやすさで知られており、機械学習ライフサイクル全体を簡素化する統一されたPython APIを提供します。
データセット管理から分散トレーニングまで、Ultralytics 複雑な定型コードをUltralytics 。開発者は、すぐに利用可能な事前学習済み重みと、Hugging Faceなどのプラットフォームとのシームレスな統合の恩恵を受けられます。 Hugging Face や監視ツールなどとのシームレスな連携を活用できます。このよく整備されたエコシステムは、活発な開発、頻繁な更新、そして堅牢なコミュニティサポートを保証します。
さらに、トレーニング効率はUltralytics YOLO 特徴である。トレーニングプロセスにおいて高速収束と低メモリ消費を実現するよう高度に最適化されており、RTDETRv2などのトランスフォーマーベース検出器と比較して実験サイクルを大幅に加速する。
今後の展望: YOLO26の力
YOLOv8 強力な選択肢ですが、開発者が最先端を求めるなら、2026年1月にリリース予定の待望のYOLO26へのアップグレードを検討すべきです。YOLO26は数々の画期的な革新により、最先端技術を再定義します:
- エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS)後処理を排除し、より高速で決定論的なデプロイメントワークフローを実現します。
- DFLの削除: Distribution Focal Lossの削除によりモデルが合理化され、エッジデバイスおよび低消費電力デバイスとの互換性が向上します。
- MuSGDオプティマイザ: LLMトレーニングの革新を統合したMuSGDオプティマイザは、より安定したトレーニング実行とより速い収束を保証します。
- CPU推論が最大43%高速化: 専用GPUを持たない環境向けに大幅に最適化されています。
- ProgLoss + STAL: これらの高度な損失関数は、航空画像やロボティクスにとって不可欠な小物体認識において、顕著な改善をもたらします。
Ultralytics 内で検討する価値のあるその他の現代的な代替手段には以下が含まれます YOLO11はレガシープロジェクト向けに堅牢なパフォーマンスを提供しますが、新規デプロイメントにはYOLO26の使用が推奨されます。
コード例: トレーニングと推論
Ultralytics シンプルさにより、わずか数行のPythonコードでモデルの読み込み、トレーニング、デプロイが可能です。 Python コードでモデルを読み込み、トレーニングし、デプロイできます。 PyTorch がインストールされていることを確認してください。
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
デプロイメント準備完了
Ultralytics 、ONNX、TensorRT、CoreMLを含む多数のフォーマットへのワンクリックエクスポートUltralytics 、様々なハードウェアアーキテクチャにおけるモデルデプロイメントの選択肢を簡素化します。
結論
YOLOv8とRTDETRv2は両方ともリアルタイム物体検出のための魅力的な機能を提供します。RTDETRv2は、グローバルコンテキストを捉えるトランスフォーマーの力を示しており、これにより、推論速度とメモリオーバーヘッドが主要な制約ではない複雑な空間推論タスクに適しています。
ただし、速度、精度、リソース効率の卓越したバランスを最優先する開発者にとって、Ultralytics YOLO 依然として優れた選択肢です。YOLOv8、比類のない使いやすさ、多様なビジョンタスクへの汎用性、そして活発なオープンソースエコシステムが相まって、スケーラブルな実稼働環境における定番ソリューションとなっています。エッジ性能の絶対的な頂点を求める方々には、新たにリリースされたYOLO26が業界をリードし続ける、NMS効率性を提供します。