コンテンツにスキップ

YOLO11 RTDETRv2:アーキテクチャ、性能、および応用

コンピュータビジョンの急速に進化する環境において、適切な物体検出モデルを選択することはプロジェクトの成功に極めて重要です。本比較では YOLO11 (Ultralytics)とRTDETRv2(Baidu社)という、異なるパラダイムからリアルタイム検出にアプローチする2つの最先端アーキテクチャを比較検討します。YOLO11 CNNベースの効率性と使いやすさの頂YOLO11 一方、RTDETRv2はトランスフォーマーベース検出の限界を押し広げています。

概要

YOLO11 YOLO11は、You Only Look Once(YOLO)ファミリーの遺産を基盤とし、最大のスループットと最小限のリソース消費を実現するためにアーキテクチャを洗練させました。検出、セグメンテーション、姿勢推定を含む多様なビジョンタスクに対応する汎用ソリューションとして設計されています。その強みはバランスにあり、リソース制約のあるエッジデバイス上でも、卓越した速度で高い精度を実現します。

RTDETRv2(リアルタイム検出トランスフォーマー第2版)は、RT-DETRモデルであり、トランスフォーマーベースのモデルに典型的に伴う遅延問題を解決することを目的としています。トレーニングの安定性と性能を向上させるため、「bag-of-freebies」を導入しています。 高い精度を達成する一方で、一般的により多くの計算リソース(特にGPU )を必要とするため、エッジコンピューティングよりもハイエンドハードウェアでの展開に適している。

最新のイノベーション: YOLO26

2026年の最先端技術を求める開発者向けに、Ultralytics YOLO26を Ultralytics 。ネイティブのエンドツーNMS設計、革新的なMuSGDオプティマイザ、最大43%高速化CPU 速度を特徴とし、現代のAIアプリケーションにおける最良の選択肢となっています。

技術仕様と性能

以下の表は、COCO 両モデルの性能指標を比較したものです。YOLO11は特に推論速度とパラメータ数において優れた効率性をYOLO11 、実世界の生産環境への適応性に優れています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

アーキテクチャの違い

YOLO11 高度に最適化されたCNNベースのバックボーンとネックを採用し、少ないパラメータで複雑な詳細を捉えるための特徴抽出を洗練させている。そのアーキテクチャは明示的に高速化を目的に設計されており、効率的な層集約を活用してレイテンシを最小限に抑える。YOLO11 、高性能なクラウドGPUからラズベリーパイデバイスに至るまで、あらゆる環境で効果的にYOLO11

RTDETRv2は逆に、ハイブリッドなエンコーダ-デコーダ型トランスフォーマーアーキテクチャを採用している。注意機構を用いてグローバルな文脈を捕捉するため、複雑で雑然としたシーンにおける物体検出に有効である。ただし、この利点には学習時および推論時のメモリ消費量増加という代償が伴う。 注意機構は本質的に入力サイズに対して2乗の計算複雑度を必要とするため、リアルタイム処理を実現するにはNVIDIA やA100のような高性能GPUがしばしば必須となる。

エコシステムと使いやすさ

モデルのアーキテクチャは物語の半分に過ぎない。それを取り巻く開発者体験こそが、プロトタイプから本番環境への移行速度を決定づける。

Ultralytics : Ultralytics 深くYOLO11 、その「ただ機能する」という理念で知られています。

  • シンプルなPython :わずか3行のコードで、トレーニング、検証、予測を実行できます。
  • Ultralytics :ユーザーUltralytics を活用し、クラウド上でデータセットの管理、アノテーションの自動化、トレーニング実行の監視を行うことができます。
  • 広範なタスク対応:単一のフレームワークで物体検出インスタンスセグメンテーション姿勢推定OBB分類をサポートします。
  • 柔軟なデプロイメント:組み込みのエクスポートモード ONNXOpenVINOCoreML、およびTFLite 、モバイルおよびエッジターゲットへのデプロイをTFLite 。

RTDETRv2 エコシステム: RTDETRv2 は主に研究目的のリポジトリです。強力な機能を提供しますが、Ultralytics 包括的なツール群は備えていません。ユーザーはデータ前処理やデプロイのためにカスタムスクリプトを記述する必要が生じることが多いです。さらに、トランスフォーマーベースのモデルであるため、アテンション層の複雑な処理が関わることで、TFLite などの形式へのエクスポートが著しく困難になる場合があります。

YOLO11の詳細について。

トレーニングとデータ効率

YOLO11 トレーニング効率に優れています。そのCNNアーキテクチャは収束が速く、トランスフォーマー系手法と比べて必要なエポック数が少なく、GPU 大幅に削減されます。これにより、開発者はコンシューマー向けハードウェアでより大きなバッチサイズでのトレーニングが可能になります。また、このフレームワークには堅牢なハイパーパラメータ調整と データ拡張戦略が標準で組み込まれています。

RTDETRv2は通常、トランスフォーマーの注意重みを安定させるためにより長いトレーニングスケジュールを必要とします。メモリ使用量は大幅に増加し、RTDETRv2-Lモデルのトレーニングには大容量VRAMを備えたエンタープライズグレードのGPUが求められることが多く、クラウドコンピューティングコストの増加要因となり得ます。

コード例: YOLO11のトレーニング

YOLO11 トレーニングYOLO11 。以下のコードスニペットは、事前学習済みモデルの読み込みとカスタムデータセットでの微調整を示しています:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset (e.g., COCO8)
# Ideally, data is configured in a simple YAML file
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
for result in results:
    result.show()

現実世界のアプリケーション

YOLO11 が優れている点

軽量性と汎用性により、YOLO11 以下の用途に最適な選択肢YOLO11 :

  • エッジAIとIoT:限られた演算能力を持つデバイスでのスマートシティ監視に最適。
  • リアルタイムスポーツ分析:低遅延が絶対条件となる高フレームレート動画ストリームにおける選手とボールの追跡。
  • 製造:組立ラインにおける高速欠陥検出
  • モバイルアプリ: CoreML TFLiteを介してiOS Android 上で直接実行。

RTDETRv2の立ち位置

RTDETRv2は、以下のシナリオに最適です:

  • ハードウェアに制約なし:推論用に高性能なサーバーグレードGPUが利用可能です。
  • グローバルコンテキストが重要である:遠方の物体間の関係が検出を定義する複雑なシーン(ただしYOLO11広い受容野はこれに匹敵することが多い)。
  • 研究:トランスフォーマーの注意機構の実験的検討

結論

YOLO11 コンピュータビジョン分野に大きく貢献している。RTDETRv2は検出タスクにおけるトランスフォーマーの可能性を示した。しかし、大多数の開発者や商用アプリケーションにとって、 YOLO11 は速度、精度、使いやすさの比類なきバランスにより、依然として優れた選択肢です。低いメモリ要件、豊富なエクスポートオプション、Ultralytics 支援により、開発からデプロイまでの円滑な道筋が保証されています。

さらなる性能向上を目指す方には、YOLO26へのアップグレードをご検討ください。エンドツーエンドのNMS設計とエッジデバイス向け最適化により、次世代のビジョンAIを実現します。

YOLO26についてさらに詳しく

モデルの詳細と参照情報

YOLO11

RTDETRv2


コメント