YOLOv10 対 RTDETRv2: リアルタイム・エンドツーエンド物体検出器の評価
コンピュータビジョンの領域は非常に速いペースで進化しており、新しいアーキテクチャが常にリアルタイム物体検出の最先端を更新しています。この進化における2つの重要なマイルストーンが YOLOv10 と RTDETRv2 です。両モデルとも、非最大値抑制(NMS)の後処理を不要にすることで、従来の検出パイプラインにおける根本的なボトルネックの解決を目指していますが、その課題へのアプローチは全く異なるアーキテクチャのパラダイムに基づいています。
この技術比較では、開発者や研究者が次回の ビジョンAI プロジェクトに最適なツールを選択できるよう、両モデルのアーキテクチャ、学習手法、理想的なデプロイメントシナリオについて深く分析します。
YOLOv10: NMSフリーの先駆者
清華大学の研究者によって開発された YOLOv10 は、アーキテクチャの効率性と後処理のボトルネック排除に重点を置いています。NMSフリーの学習に向けて一貫したデュアルアサインメントを導入することで、推論レイテンシを大幅に低減しつつ、競合他社に負けないパフォーマンスを実現しています。
技術仕様
- 著者: Ao Wang, Hui Chen, Lihao Liu, 他
- 組織: 清華大学
- 日付: 2024-05-23
- ArXiv: YOLOv10 論文
- GitHub: THU-MIG/yolov10
- Docs: YOLOv10 ドキュメント
アーキテクチャと手法
YOLOv10 の最大の画期的な点は、効率性と精度の両立を目指した全体的なモデル設計にあります。両方の観点から様々なコンポーネントを最適化し、計算オーバーヘッドを大幅に削減しました。一貫したデュアルアサインメント戦略により、モデルは NMS に依存せずに学習できるため、合理化されたエンドツーエンドのデプロイメントパイプラインを実現します。これは、ONNX や TensorRT などのエッジフォーマットにモデルをエクスポートする際、後処理操作によって予期せぬレイテンシが発生するのを防ぐ上で特に有効です。
長所と短所
このモデルは、特に小型のバリエーション(NおよびS)において、優れた速度と精度のトレードオフを誇ります。その最小限のレイテンシは、高速なエッジ環境に最適です。しかし、YOLOv10 は物体検出の生の速度において秀でているものの、検出専用のモデルにとどまっています。インスタンスセグメンテーションや姿勢推定を必要とするチームは、より汎用性の高いフレームワークを検討する必要があります。
RTDETRv2: 検出Transformerの洗練
オリジナルのリアルタイム検出Transformerをベースにした RTDETRv2 は、「bag of freebies」を取り入れてベースラインを改善し、Transformerがリアルタイムシナリオにおいて CNN と競合できることを実証しています。
技術仕様
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- ArXiv: RTDETRv2 論文
- GitHub: lyuwenyu/RT-DETR
- Docs: RTDETRv2 ドキュメント
アーキテクチャと手法
RTDETRv2 はハイブリッドアーキテクチャを採用しており、視覚的特徴抽出のための Convolutional Neural Network (CNN) バックボーンと、包括的なシーン理解のための Transformer エンコーダ・デコーダを組み合わせています。Transformer のセルフアテンションメカニズムにより、モデルは画像をグローバルに把握することができ、複雑なシーン、重なり合う物体、密集した群衆の処理において非常に効果的です。
長所と短所
Transformer アーキテクチャは、特にパラメータ規模が大きい場合に優れた精度を提供し、NMS を介さずに最終的な検出結果をネイティブに出力します。ただし、これにはコストが伴います。Transformer モデルは従来、学習中に大幅に多くの CUDA メモリを必要とし、純粋な CNN アーキテクチャと比較して収束が遅くなる可能性があります。RTDETRv2 は推論速度が向上しましたが、一般的には軽量な YOLO バリエーションよりもメモリ消費量が多くなります。
パフォーマンスの比較
パフォーマンス指標を評価することで、各モデルがどこに優れているかが明確になります。次の表は、COCOデータセットにおけるそれらの能力を強調しています:
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
データを分析すると、YOLOv10 は比較可能なサイズにおいて、パラメータ効率と TensorRT 推論速度で厳格な優位性を維持しています。RTDETRv2-x は精度において大規模な YOLOv10x と同等ですが、約2000万個多いパラメータと大幅に高い FLOPs を必要とします。
ユースケースと推奨事項
YOLOv10 と RT-DETR のどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、エコシステムの好みによって決まります。
YOLOv10を選ぶべき場合
YOLOv10は以下の用途に強力な選択肢です:
- NMSフリーのリアルタイム検出: Non-Maximum Suppressionなしでエンドツーエンドの検出を行い、デプロイの複雑さを軽減できるアプリケーション。
- バランスの取れた速度と精度のトレードオフ: さまざまなモデルスケール全体で、推論速度と検出精度の強力なバランスが求められるプロジェクト。
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
RT-DETRを選ぶべき場面
RT-DETRは次の場合に推奨されます:
- Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
- レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
Ultralytics の利点: エコシステムとイノベーション
YOLOv10 と RTDETRv2 は堅牢な検出機能を提供しますが、モデルの選択は多くの場合、周辺のソフトウェアエコシステムに関わります。Ultralytics Platform は、ディープラーニングの複雑さを抽象化するシームレスで統一されたインターフェースを提供します。
新しい基準: Ultralytics YOLO26
究極のパフォーマンスを追求する開発者にとって、Ultralytics YOLO26 は最近のアーキテクチャの進歩の集大成です。2026年初頭にリリースされた YOLO26 は、YOLOv10 が先駆けた End-to-End NMS-Free Design を継承しており、NMS 後処理を完全に排除して、より高速でシンプルなデプロイメントを実現しています。
YOLO26 は、MuSGD Optimizer(SGD と Muon のハイブリッド)を介して LLM 学習のイノベーションをコンピュータビジョンにもたらし、より安定した学習と高速な収束を実現しました。また、最大 43% 高速な CPU 推論を誇り、エッジコンピューティングにおいて最優先の選択肢となります。
さらに、YOLO26 は ProgLoss + STAL を導入して小物体認識における顕著な改善を実現しました。また、特化型の YOLOv10 とは異なり、非常に優れた汎用性を提供します。これは、物体検出、セグメンテーション、姿勢推定、指向性バウンディングボックス (OBB) をネイティブでサポートしており、セマンティックセグメンテーション損失や姿勢推定のための Residual Log-Likelihood Estimation (RLE) といったタスク固有の改善も含まれています。さらに、Distribution Focal Loss (DFL) を削除したことで、エクスポートが簡素化され、低電力デバイスとの互換性が向上しました。
使いやすさとトレーニング効率
Ultralytics YOLO11 のような旧世代のモデルを実験している場合でも、最先端の YOLO26 を使用している場合でも、合理化された Python API によって、学習中のメモリ使用量を抑え、非常に高速なワークフローを保証します。
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")十分に整備されたエコシステムは、簡単な ハイパーパラメータチューニング のためのツールを提供し、広範なトラッキングソリューションやモデルデプロイメントオプションと完璧に統合します。
結論
YOLOv10 と RTDETRv2 はどちらも、NMSフリーの物体検出の探求における強力なマイルストーンです。RTDETRv2 は、メモリ要件は高いものの、Transformer が優れたグローバルコンテキスト理解を持ちながらリアルタイムのレイテンシを達成できることを証明しています。YOLOv10 は、リソースに制約のある検出タスク向けに調整された、非常に効率的で高速な CNN の代替案を提供します。
しかし、パフォーマンスのバランス、マルチタスクの汎用性、そして最も成熟したエコシステムを求める場合、開発者には Ultralytics YOLO26 の活用を強く推奨します。これは、先行モデルのアーキテクチャ上の革新と、ビジョンAIのデプロイをシームレスな現実に変える堅牢でユーザーフレンドリーなツールを美しく融合させています。