YOLOv8 RTDETRv2:詳細な技術比較
コンピュータビジョンの分野は絶えず進化を続けており、新たなアーキテクチャがリアルタイム物体検出の可能性の限界を押し広げている。特に注目を集めている2つの有力モデルが、Ultralytics YOLOv8 である。本ガイドでは、これら2つの強力なモデルを包括的に技術的に比較し、そのアーキテクチャ、性能指標、および最適な導入シナリオを探る。
YOLOv8
Ultralytics YOLOv8 YOLO You Only Look Once)モデル群における重要なYOLOv8 。長年にわたる基礎研究を基盤とし、多様なタスクにおいて卓越した速度、精度、そして使いやすさを実現しています。
主な特徴:
- 著者:グレン・ジョッカー、アユシュ・チャウラシア、およびチン・チウ
- 組織: Ultralytics
- 日付:2023年1月10日
- GitHub:Ultralytics
- ドキュメント:YOLOv8
アーキテクチャと強み
YOLOv8 、特徴抽出と境界ボックス回帰の両方を最適化する合理化されたアーキテクチャYOLOv8 。これはアンカーフリー検出器であり、予測ヘッドを簡素化し、トレーニング中に必要なハイパーパラメータの調整数を削減します。このアーキテクチャは、推論速度と平均平均精度(mAP)の間の優れた性能バランスを保証し、エッジデバイスとクラウドサーバーの両方における実世界での展開に非常に適しています。
さらに、YOLOv8 トランスフォーマーベースのアーキテクチャと比較して、トレーニング中のメモリ要件が大幅にYOLOv8 。これにより、開発者はメモリ不足エラーに遭遇することなく、標準的なコンシューマー向けGPU上でモデルをトレーニングできます。
汎用性
YOLOv8 決定的な強みのひとつは、その生来の汎用性YOLOv8 。多くのモデルがバウンディングボックスのみに焦点を当てる中、YOLOv8 はオブジェクト検出、インスタンスセグメンテーション、画像分類、姿勢推定、およびオリエンテッドバウンディングボックス(OBB)検出に対して、すぐに使える状態でのサポートYOLOv8 。
RTDETRv2 概要
RTDETRv2(リアルタイム検出トランスフォーマーバージョン2)は、RT-DETRを基盤とし、ビジョントランスフォーマーの強力な注意機構をリアルタイム物体検出アプリケーションに適用することを目的としています。
主な特徴:
- 著者:呂文宇、趙一安、常琴耀、黄奎、王冠中、劉毅
- 組織:Baidu
- 日付: 2024年7月24日
- Arxiv:2407.17140
- GitHub:RT-DETR
- ドキュメント:RTDETRv2 README
アーキテクチャと強み
RTDETRv2は、畳み込みニューラルネットワーク(CNN)バックボーンとトランスフォーマーのエンコーダ-デコーダ構造を組み合わせたハイブリッドアーキテクチャを採用しています。これにより、自己注意機構を通じて複雑な空間的関係性とグローバルな文脈をモデルが捕捉することが可能となります。「bag-of-freebies」トレーニング戦略のセットを活用することで、RTDETRv2はCOCO などの標準的なベンチマークデータセットにおいて競争力のあるmAP を達成しています。
弱点
RTDETRv2は高い精度を誇るものの、トランスフォーマーベースの性質上、純粋なCNNアーキテクチャと比較してメモリ消費量が多く、学習時間が長くなる。トランスフォーマーは本質的により多くのVRAMを必要とするため、リソース制約のあるハードウェアでの学習が困難である。さらに、RTDETRv2は検出能力に優れる一方、Ultralytics に内在するマルチタスク汎用性(姿勢推定やセグメンテーションなど)を欠いている。
パフォーマンス比較
モデルを本番環境で評価する際には、モデルサイズ、推論速度、精度のトレードオフが極めて重要である。YOLOv8 バリエーションを直接比較したものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ハードウェアとメトリクス
速度はAmazon EC2 P4dインスタンスを使用して測定されました。CPU にはONNXが活用されました。 ONNXを利用し、GPU TensorRTを使用してテストしました。
ユースケースと推奨事項
RT-DETR YOLOv8 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの好みにRT-DETR 。
YOLOv8を選択すべき時
YOLOv8 以下に最適な選択肢YOLOv8 :
- 多目的マルチタスク展開: Ultralytics 内で、検出、セグメンテーション、分類、姿勢推定のための実績あるモデルを必要とするプロジェクト。
- 確立された生産システム: YOLOv8 構築済みの既存生産環境で、安定し十分にテスト済みのデプロイメントパイプラインを備える。
- 広範なコミュニティとエコシステムによるサポート: YOLOv8豊富なチュートリアル、サードパーティ統合、活発なコミュニティリソースを活用するアプリケーション。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralyticsの利点
モデルの選択は単純な指標を超えた判断が必要です。開発者の生産性には、周辺ソフトウェアのエコシステムが極めて重要です。Ultralytics 使いやすさで定評があり、Python 機械学習ライフサイクル全体を簡素化します。
データセット管理から分散トレーニングまで、Ultralytics 複雑な定型コードをUltralytics 。開発者は、すぐに利用可能な事前学習済み重みと、Hugging Faceなどのプラットフォームとのシームレスな統合の恩恵を受けられます。 Hugging Face や監視ツールなどとのシームレスな連携を活用できます。このよく整備されたエコシステムは、活発な開発、頻繁な更新、そして堅牢なコミュニティサポートを保証します。
さらに、トレーニング効率はUltralytics YOLO 特徴である。トレーニングプロセスにおいて高速収束と低メモリ消費を実現するよう高度に最適化されており、RTDETRv2などのトランスフォーマーベース検出器と比較して実験サイクルを大幅に加速する。
今後の展望: YOLO26の力
YOLOv8 強力な選択肢ですが、開発者が最先端を求めるなら、2026年1月にリリース予定の待望のYOLO26へのアップグレードを検討すべきです。YOLO26は数々の画期的な革新により、最先端技術を再定義します:
- エンドツーエンドNMS設計:YOLO26は非最大抑制(NMS)後処理を排除し、より高速で決定論的なデプロイワークフローを実現します。
- DFL除去:ディストリビューション・フォーカル・ロス(DFL)を除去することで、エッジデバイスおよび低消費電力デバイスとの互換性を高めるため、モデルを合理化します。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニング革新を統合し、より安定したトレーニング実行と高速な収束を保証します。
- 最大43%高速CPU :専用GPUがない環境向けに大幅に最適化されています。
- ProgLoss + STAL:これらの高度な損失関数は、航空画像やロボティクスにおいて極めて重要な小規模物体認識において顕著な改善をもたらす。
Ultralytics 内で検討する価値のあるその他の現代的な代替手段には以下が含まれます YOLO11はレガシープロジェクト向けに堅牢なパフォーマンスを提供しますが、新規デプロイメントにはYOLO26の使用が推奨されます。
コード例: トレーニングと推論
Ultralytics シンプルさにより、わずか数行のPythonコードでモデルの読み込み、トレーニング、デプロイが可能です。 Python コードでモデルを読み込み、トレーニングし、デプロイできます。 PyTorch がインストールされていることを確認してください。
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
デプロイ準備完了
Ultralytics 、ONNX、TensorRT、CoreMLを含む多数のフォーマットへのワンクリックエクスポートUltralytics 、様々なハードウェアアーキテクチャにおけるモデルデプロイメントの選択肢を簡素化します。
結論
YOLOv8 リアルタイム物体検出において優れた能力を発揮する。RTDETRv2はトランスフォーマーがグローバルコンテキストを捕捉する能力の高さを示しており、推論速度やメモリオーバーヘッドが主要な制約条件とならない複雑な空間推論タスクに適している。
ただし、速度、精度、リソース効率の卓越したバランスを最優先する開発者にとって、Ultralytics YOLO 依然として優れた選択肢です。YOLOv8、比類のない使いやすさ、多様なビジョンタスクへの汎用性、そして活発なオープンソースエコシステムが相まって、スケーラブルな実稼働環境における定番ソリューションとなっています。エッジ性能の絶対的な頂点を求める方々には、新たにリリースされたYOLO26が業界をリードし続ける、NMS効率性を提供します。