YOLOv10 RTDETRv2: リアルタイムエンドツーエンド物体検出器の評価
コンピュータビジョンの分野は驚異的なスピードで進化しており、新たなアーキテクチャがリアルタイム物体検出の先端技術を絶えず再定義している。 この進化における二つの重要なマイルYOLOv10 。両モデルとも、従来の検出パイプラインにおける根本的なボトルネックである非最大抑制(NMS)後処理の必要性を排除することを目指しているが、この課題へのアプローチは全く異なるアーキテクチャパラダイムに基づいている。
この技術比較では、各ツールのアーキテクチャ、トレーニング手法、および最適な導入シナリオについて詳細な分析を行い、開発者や研究者が次なるビジョンAIプロジェクトに最適なツールを選択する手助けをします。
YOLOv10:NMS先駆者
清華大学の研究者によって開発されたYOLOv10は、アーキテクチャの効率性と後処理のボトルネックの解消に重点を置いています。NMSフリーのトレーニング向けに一貫したデュアルアサインメントを導入することで、推論レイテンシを大幅に低減しながら、競争力のあるパフォーマンスを達成しています。
技術仕様
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- ArXiv: YOLOv10 論文
- GitHub:THU-MIG/yolov10
- ドキュメント: YOLOv10 ドキュメント
アーキテクチャと手法
YOLOv10主な革新点は、効率性と精度を両立させる包括的なモデル設計にある。両方の観点から様々な構成要素を最適化し、計算オーバーヘッドを大幅に削減している。一貫した二重アサインメント戦略により、モデルはNMS依存せずに学習でき、これにより合理化されたエンドツーエンドのデプロイメントパイプラインが実現される。これは特に、モデルをONNXやPython形式などのエッジフォーマットにエクスポートする際に有益である。 ONNX や TensorRTなどのエッジフォーマットにモデルをエクスポートする場合に特に有益です。後処理操作が予期せぬ遅延を引き起こす可能性があるためです。
長所と短所
このモデルは特に小型バリエーション(NおよびS)において、速度と精度のトレードオフが極めて優れている。最小限のレイテンシにより、高速エッジ環境での使用に最適である。ただし、YOLOv10 検出速度そのものにおいてはYOLOv10 ものの、依然として検出専用の特化モデルである。インスタンスセグメンテーションや姿勢推定を必要とするチームは、より汎用性の高いフレームワークを検討する必要がある。
RTDETRv2: 検出トランスフォーマーの改良
オリジナルのReal-Time Detection Transformerを基盤とし、RTDETRv2は、そのベースラインを改善するために「bag of freebies」を組み込んでおり、トランスフォーマーがリアルタイムシナリオでCNNと競合できることを示しています。
技術仕様
- 著者:Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- ArXiv: RTDETRv2 論文
- GitHub:RT-DETR
- ドキュメント: RTDETRv2 ドキュメント
アーキテクチャと手法
RTDETRv2はハイブリッドアーキテクチャを採用し、視覚特徴抽出用の畳み込みニューラルネットワーク(CNN)バックボーンと、包括的なシーン理解のためのトランスフォーマーエンコーダ-デコーダを組み合わせています。トランスフォーマーの自己注意機構により、モデルは画像をグローバルに捉えることが可能となり、複雑なシーン、重なり合う物体、密集した群衆の処理に極めて効果的です。
長所と短所
トランスフォーマーアーキテクチャは、特に大きなパラメータスケールにおいて優れた精度を提供し、NMS最終的な検出結果をネイティブに出力します。しかし、これには代償が伴います。トランスフォーマーモデルは従来、トレーニング中に大幅にCUDA 必要とし、純粋なCNNアーキテクチャと比較して収束が遅くなる可能性があります。RTDETRv2は推論速度を改善していますが、一般的にYOLO 多くのメモリを消費します。
パフォーマンス比較
パフォーマンスメトリクスを評価することで、各モデルがどの点で優れているかについてより明確な全体像が得られます。以下の表は、COCOデータセットにおけるそれらの能力を強調しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
データ分析において、YOLOv10 同等のサイズ範囲でパラメータ効率とTensorRT において明確な優位性をYOLOv10 。RTDETRv2-xは精度において大規模なYOLOv10xに匹敵するが、約2000万個多いパラメータと著しく高いFLOPsを必要とする。
ユースケースと推奨事項
YOLOv10とRT-DETRのどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。
YOLOv10を選択すべき時
YOLOv10 以下に最適YOLOv10 :
- NMSフリーのリアルタイムdetect: Non-Maximum Suppressionなしのエンドツーエンドのdetectから恩恵を受け、デプロイの複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ: さまざまなモデルスケールにおいて、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシが求められるアプリケーション: ロボット工学や自律システムなど、予測可能な推論時間が重要となるデプロイメントシナリオ。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
- 柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
- 大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
Ultralytics :エコシステムとイノベーション
YOLOv10 堅牢な検出能力を提供しますが、モデル選択は往々にして周辺ソフトウェアエコシステムが鍵となります。Ultralytics 、深層学習の複雑さを抽象化したシームレスで統一されたインターフェースを提供します。
新たな基準:Ultralytics
最高のパフォーマンスを求める開発者にとって、Ultralytics YOLO26は、最近のアーキテクチャの進歩の集大成です。2026年初頭にリリースされたYOLO26は、YOLOv10によって開拓されたEnd-to-End NMS-Free Designを継承し、NMSの後処理を完全に排除することで、より高速でシンプルなデプロイメントを実現します。
YOLO26を選ぶ理由
YOLO26はMuSGDオプティマイザー(SGD ハイブリッド)により、大規模言語モデル(LLM)のトレーニング技術をコンピュータビジョン分野に革新をもたらし、より安定したトレーニングと高速な収束を実現します。さらに最大43%CPU 誇り、エッジコンピューティングにおける最良の選択肢となっています。
さらに、YOLO26はProgLoss + STALを導入し、小規模物体認識において顕著な改善を実現。YOLOv10、極めて高い汎用性を提供する。物体検出、セグメンテーション、姿勢推定、方向付きバウンディングボックス(OBB)をネイティブにサポートし、セマンティックセグメンテーション損失や姿勢推定のための残差対数尤度推定(RLE)といったタスク特化型の改善を施している。 さらに、分布焦点損失(DFL)の削除により、エクスポートの簡素化と低電力デバイスとの互換性向上が図られています。
使いやすさとトレーニング効率
古い世代のモデル(例: Ultralytics YOLO11 といった旧世代モデルから最先端のYOLO26まで、合理化されたPython トレーニング時のメモリ使用量が低減され、極めて高速なワークフローが実現します。
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
整備されたエコシステムは、ハイパーパラメータ調整を容易にするツールを提供し、広範な追跡ソリューションやモデルデプロイメントオプションとシームレスに統合されます。
結論
YOLOv10とRTDETRv2は両方ともNMSフリー物体検出の探求において手ごわいマイルストーンとなります。RTDETRv2は、トランスフォーマーがより高いメモリ要件を伴うものの、優れたグローバルコンテキスト理解力でリアルタイムのレイテンシを達成できることを証明しています。YOLOv10は、リソース制約のある検出タスク向けに調整された、非常に効率的で高速なCNN代替手段を提供します。
ただし、バランスの取れた性能、マルチタスク対応の汎用性、そして最も成熟したエコシステムを求める開発者には、Ultralytics 活用を強く推奨します。これは、先行モデルのアーキテクチャ革新と、ビジョンAIのデプロイをシームレスな現実とする堅牢でユーザーフレンドリーなツール群が見事に融合したソリューションです。