技術対決:リアルタイム物体検出におけるYOLO RTDETRv2
コンピュータビジョンの急速な進化に伴い、速度・精度・計算効率のバランスを追求した多様なアーキテクチャが開発されている。こうした課題解決に独自のアプローチをもたらした代表的なモデルYOLO 。両モデルともリアルタイム推論の最先端ソリューションを提供することを目指しているが、そのアーキテクチャ設計思想は根本的に異なる。
この包括的なガイドでは、両モデルの技術仕様、アーキテクチャの革新、実用的なユースケースを深く掘り下げると同時に、Ultralytics 最先端のYOLO26といった現代的なソリューションが、導入と使いやすさにおける業界標準をどのように再定義したかを探ります。
モデルの概要
YOLOの理解
アリババグループの研究者によって開発YOLO 、ニューラルアーキテクチャ検索(NAS)を多用した高速かつ高精度な物体検出手法YOLO 。従来のハンドクラフトされたバックボーンを、低遅延向けに設計されたNAS生成構造に置き換える。さらに、効率的なRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)とZeroHead設計を組み込み、特徴量集約と境界ボックス予測を効率化する。
主要モデルの詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
- ドキュメント:YOLO
RTDETRv2の理解
百度のRTDETRv2は、リアルタイム検出トランスフォーマーにとって大きな飛躍を意味する。 従来の畳み込みニューラルネットワーク(CNN)がアンカーボックスと非最大抑制(NMS)に依存するのとは異なり、RTDETRv2は自己注意機構を活用して画像全体を文脈的に把握する。これによりバウンディングボックスを直接出力し、NMS ステップを完全に省略する。本モデルは「フリービーの袋」というトレーニング戦略を導入し、推論遅延を増大させることなくベースライン精度を向上させる。
主要モデルの詳細:
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
- ドキュメント:RTDETRv2 ドキュメント
ビジョンAIにおけるトランスフォーマーの活用
トランスフォーマーはより高い計算リソースを必要とする一方、グローバルコンテキストを処理する能力により複雑なシーン理解において非常に効果的であり、これがRTDETRv2の主要な強みである。
パフォーマンス比較
これらのモデルを実運用向けに評価する際には、平均精度(mAP)、推論速度、メモリ使用量といったパラメータが極めて重要である。RTDETRv2のようなトランスフォーマーベースのモデルは、YOLOのような軽量CNNと比較して、学習時および推論時において一般的によりCUDA 必要とする。
以下に、それらのパフォーマンス指標の詳細な比較を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
理想的なユースケース
YOLO : NAS最適化バックボーンと、DAMO-YOLOtなどの小型バリエーションにおける極めて低いパラメータ数を特徴とするため、制約の厳しいハードウェア上での展開に非常に適しています。 ONNX や専用 TensorRT などのランタイムやエッジコンピューティング向け専用エンジンを使用する場合、YOLO は非常に応答性の高いフレームワークYOLO 。
RTDETRv2が優れている点: RTDETRv2は、サーバーグレードのGPUが利用可能で、グローバルな画像コンテキストが最優先されるシナリオで真価を発揮します。そのトランスフォーマーアーキテクチャにより、NMS(非空間的マージング)なしでも自然に重複するバウンディングボックスを解決できるため、密集した群衆管理や、遠方の物体間の空間的関係が重要な複雑な物体追跡において、堅牢な選択肢となります。
Ultralytics :YOLO26のご紹介
YOLO 重要な学術的成果である一方、これらのモデルをスケーラブルで実運用可能なアプリケーションへ移行させることは困難を伴う。開発者はしばしば、断片化されたコードベース、マルチタスク学習のサポート不足、複雑なデプロイメントパイプラインといった課題に直面する。
Ultralytics 真に差別化されるのはここです。使いやすさ、整備Python 、比類のない汎用性を優先することで、Ultralytics 開発者がデバッグに費やす時間を減らし、構築に費やす時間を増やすことをUltralytics 。
最近Ultralytics モデルは、これらの利点をさらに高次元へと引き上げ、YOLO 凌駕する画期的な進歩を実現しています:
- エンドツーエンドのNMS:YOLOv10で初めて導入されたYOLO26は、ネイティブにエンドツーエンドです。NMS 完全に不要となり、従来のCNNよりもデプロイが高速かつ大幅に簡素化されると同時に、RTDETRv2の直接出力の利点と同等の性能を実現します。
- 最大43%高速CPU :独立GPUを持たないエッジAIデバイス向けに大幅に最適化されており、メモリ負荷の高いトランスフォーマーと比較してIoTアプリケーションに圧倒的に優れた選択肢となります。
- MuSGDオプティマイザー:Moonshot AIのKimi K2に着想を得た、SGD ミューオンのハイブリッド手法。大規模言語モデル(LLM)のトレーニング技術革新をコンピュータビジョン分野に導入し、驚くほど安定したトレーニングと高速な収束を実現する。
- ProgLoss + STAL:これらの先進的な損失関数は、従来モデルが苦戦してきた領域である小規模物体認識において顕著な改善をもたらします。これは航空写真やドローン応用において極めて重要です。
- DFLの削除:低電力エッジデバイスとの互換性向上とエクスポート形式の簡素化を図るため、ディストリビューションフォーカルロス(DFL)を削除しました。
- 比類なき汎用性:検出機能のみに限定された競合モデルとは異なり、YOLO26は全領域にわたるタスク特化型改良を実装。方向付き境界ボックス(OBB)向けの専用角度損失、ピクセル単位の精度を実現するセマンティックセグメンテーション損失、姿勢推定のための残差対数尤度推定(RLE)などを含む。
メモリ効率が重要である
RTDETRv2のようなトランスフォーマーベースモデルのトレーニングにはCUDA 割り当てが必要であり、高コストなGPU 求められることが多い。Ultralytics YOLO 、トレーニング時と推論時双方において著しく低いメモリ要件を維持し、研究者から愛好家までAI開発の民主化を実現している。
コード例: 統合Ultralytics
Ultralytics 最大の利点の一つは、統一されたAPIです。PyTorch のRTDETRや最先端YOLO を含む様々なモデルを、ワークフローを変更することなくシームレスに読み込み、トレーニングし、検証できます。
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()
この簡潔さはカスタムデータセットのトレーニングとエクスポートにも及びます。Python を利用することで、開発者はトレーニング済み重みを CoreML や OpenVINO などのデプロイプラットフォームへ、単一のコマンドで簡単にプッシュできます。
結論と今後の検討
YOLO リアルタイム物体検出の可能性の限界を確実に押し広げた。YOLO 生効率のために高度に最適化された自動探索ネットワーク構造YOLO 一方、RTDETRv2はNMSといった従来のボトルネックを排除することで、トランスフォーマーがリアルタイム領域で競争可能であることを実証している。
しかし、パフォーマンス、包括的なドキュメント、本番環境対応の究極のバランスを求める開発者にとって、Ultralytics YOLO 依然として最高水準の選択肢です。YOLO26の導入により、ユーザーはトランスフォーマー型エンドツーエンド検出、LLMに着想を得たトレーニング効率、比類のないCPU 、直感的で堅牢なエコシステム内に統合して利用できるようになります。
次のプロジェクトでモデルを評価している場合、EfficientDetとRTDETRの比較や、前世代の YOLO11の検証、あるいはYOLOXなどの学術ベースラインのレビューも参考になるでしょう。Ultralytics ガイドで今すぐ構築を始めましょう。