Link to this sectionYOLOv10とRTDETRv2:リアルタイムエンドツーエンド物体検出器の評価#
コンピュータビジョンの分野は非常に急速に進歩しており、新しいアーキテクチャがリアルタイム物体検出の最先端を常に塗り替えています。この進化における2つの重要なマイルストーンがYOLOv10とRTDETRv2です。両モデルとも、従来の検出パイプラインにおける基本的なボトルネックであるNon-Maximum Suppression (NMS)の後処理を不要にすることで解決を目指していますが、そのアプローチは全く異なるアーキテクチャのパラダイムに基づいています。
この技術比較では、開発者や研究者が次回のビジョンAIプロジェクトに向けて適切なツールを選択できるよう、各モデルのアーキテクチャ、学習手法、最適な導入シナリオについて詳細に分析します。
Link to this sectionYOLOv10:NMSフリーの先駆者#
清華大学の研究者によって開発されたYOLOv10は、アーキテクチャの効率性と後処理のボトルネック解消に重点を置いています。NMSフリーの学習に向けた一貫した二重割り当て(consistent dual assignments)を導入することで、推論レイテンシを大幅に低減しながら、競争力のあるパフォーマンスを実現しています。
Link to this section技術仕様#
- 著者:Ao Wang, Hui Chen, Lihao Liu 他
- 組織:清華大学
- 日付:2024-05-23
- ArXiv:YOLOv10 論文
- GitHub:THU-MIG/yolov10
- ドキュメント:YOLOv10 ドキュメント
Link to this sectionアーキテクチャと手法#
YOLOv10の主なブレークスルーは、効率性と精度の両立を重視した全体的なモデル設計にあります。両方の観点からさまざまなコンポーネントを最適化することで、計算オーバーヘッドを大幅に削減しています。一貫した二重割り当て戦略により、NMSに頼らずに学習できるため、エンドツーエンドの合理化された導入パイプラインが実現します。これは、後処理操作が予期せぬレイテンシを引き起こす可能性があるONNXやTensorRTなどのエッジフォーマットにモデルをエクスポートする際に特に有益です。
Link to this section強みと弱み#
このモデルは優れた速度と精度のトレードオフを誇り、特に小規模なバリアント(NおよびS)で顕著です。最小限のレイテンシは高速なエッジ環境に最適です。ただし、YOLOv10は生の検出速度に優れていますが、検出専用のモデルにとどまっています。インスタンスセグメンテーションや姿勢推定を必要とするチームは、より汎用性の高いフレームワークを検討する必要があります。
Link to this sectionRTDETRv2:Detection Transformerの洗練#
オリジナルのReal-Time Detection TransformerをベースにしたRTDETRv2は、「bag of freebies」を取り入れてベースラインを改善し、リアルタイムシナリオにおいてTransformerがCNNと競合できることを証明しています。
Link to this section技術仕様#
- 著者:Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
- 組織:Baidu
- 日付:2024-07-24
- ArXiv:RTDETRv2 論文
- GitHub:lyuwenyu/RT-DETR
- ドキュメント:RTDETRv2 ドキュメント
Link to this sectionアーキテクチャと手法#
RTDETRv2は、視覚的特徴抽出のためのCNNバックボーンと、包括的なシーン理解のためのTransformerエンコーダー・デコーダーを組み合わせたハイブリッドアーキテクチャを採用しています。Transformerのセルフアテンション機構により、モデルは画像をグローバルに認識できるため、複雑なシーン、重なり合う物体、密集した群衆の処理に非常に効果的です。
Link to this section強みと弱み#
Transformerアーキテクチャは、特に大規模なパラメータスケールにおいて優れた精度を提供し、NMSなしで最終的な検出結果をネイティブに出力します。しかし、これにはコストが伴います。Transformerモデルは、学習中にCNNよりも大幅に多くのCUDAメモリを必要とする傾向があり、純粋なCNNアーキテクチャと比較して収束が遅くなる可能性があります。RTDETRv2は推論速度が改善されていますが、一般的に軽量なYOLOバリアントよりも多くのメモリを消費します。
Link to this sectionパフォーマンスの比較#
パフォーマンス指標を評価することで、各モデルがどこに優れているかをより明確に把握できます。次の表は、COCOデータセットでの能力を強調しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
データを分析すると、YOLOv10はパラメータ効率とTensorRTの推論速度において、同等のサイズ間で厳格な優位性を維持しています。RTDETRv2-xは精度において大規模なYOLOv10xに匹敵しますが、約2000万個多いパラメータと大幅に高いFLOPsを必要とします。
Link to this sectionユースケースと推奨事項#
YOLOv10とRT-DETRの選択は、特定のプロジェクト要件、導入制約、およびエコシステムの優先順位に依存します。
Link to this sectionYOLOv10を選択すべき場合#
YOLOv10は以下の用途に最適です。
- NMSフリーのリアルタイム検出: Non-Maximum Suppression(NMS)を使用しないエンドツーエンド検出のメリットを享受し、デプロイの複雑さを軽減できるアプリケーション。
- バランスの取れた速度と精度のトレードオフ: さまざまなモデルスケール全体で、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシが求められるアプリケーション: roboticsや自律システムなど、予測可能な推論時間が不可欠なデプロイ環境。
Link to this sectionRT-DETRを選択すべき時#
RT-DETRが推奨される場合:
- Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
- 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
- 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this sectionUltralyticsの利点:エコシステムとイノベーション#
YOLOv10とRTDETRv2は強力な検出機能を提供しますが、モデルの選択はしばしば周囲のソフトウェアエコシステムに関係します。Ultralytics Platformは、ディープラーニングの複雑さを抽象化する、シームレスで統合されたインターフェースを提供します。
Link to this section新しいスタンダード:Ultralytics YOLO26#
最高のパフォーマンスを求める開発者にとって、Ultralytics YOLO26は最近のアーキテクチャの進歩の集大成です。2026年初頭にリリースされたYOLO26は、YOLOv10が先駆けたエンドツーエンドNMSフリー設計を継承しており、NMS後処理を完全に取り除くことで、より高速でシンプルな導入を実現しています。
YOLO26は、MuSGDオプティマイザ(SGDとMuonのハイブリッド)を通じてLLM学習のイノベーションをコンピュータビジョンにもたらし、より安定した学習と高速な収束を実現しました。また、最大43%のCPU推論高速化を誇り、エッジコンピューティングにおける主要な選択肢となっています。
さらに、YOLO26は小さな物体の認識において顕著な改善をもたらすProgLoss + STALを導入しており、特殊なYOLOv10とは異なり、極めて高い汎用性を提供します。セマンティックセグメンテーションロスや姿勢推定のための残留対数尤度推定(RLE)といったタスク固有の改善を伴い、物体検出、セグメンテーション、姿勢、指向性バウンディングボックス(OBB)をネイティブにサポートしています。さらに、Distribution Focal Loss (DFL) の削除により、エクスポートの簡素化と低電力デバイスとの互換性が向上しています。
Link to this section使いやすさと学習の効率性#
Ultralytics YOLO11のような旧世代モデルで実験している場合でも、最先端のYOLO26を使用する場合でも、最適化されたPython APIにより、学習中のメモリ使用量を削減し、非常に高速なワークフローを確保できます。
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")十分に整備されたエコシステムは、簡単なハイパーパラメータチューニングのためのツールを提供し、広範な追跡ソリューションやモデル導入オプションと完璧に統合されます。
Link to this section結論#
YOLOv10とRTDETRv2はどちらも、NMSフリーの物体検出を探求する上での強力なマイルストーンです。RTDETRv2は、メモリ要件は高くなるものの、Transformerが優れたグローバルな文脈理解を伴うリアルタイムのレイテンシを実現できることを証明しています。YOLOv10は、リソースが制限された検出タスク向けに調整された、非常に効率的で高速なCNNの代替手段を提供します。
しかし、バランスの取れたパフォーマンス、マルチタスクの汎用性、そして最も成熟したエコシステムを求める場合、開発者にはUltralytics YOLO26の活用を強く推奨します。これは、先行モデルのアーキテクチャの革新と、ビジョンAIの導入をシームレスな現実に変える堅牢で使いやすいツールが見事に融合しています。