Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11対RTDETRv2#

コンピュータビジョンの領域は急速に拡大しており、堅牢なビジョンベースのアプリケーションを構築するための無数の選択肢を開発者に提供しています。リアルタイム物体検出の分野では、畳み込みニューラルネットワーク(CNN)とVision Transformer(ViT)の議論がかつてないほど活発になっています。この技術比較では、高度に最適化されたCNNフレームワークの頂点であるYOLO11と、Detection Transformerファミリーの強力なイテレーションであるRTDETRv2という、2つの主要なアーキテクチャについて深く掘り下げます。

本ガイドでは、それらのアーキテクチャ、パフォーマンス指標、および理想的なデプロイメントシナリオを分析することで、機械学習エンジニアが十分な情報に基づいて意思決定を行えるよう支援します。両モデルとも精度の限界を押し広げていますが、Ultralytics YOLOモデルは通常、実世界のプロダクション環境において、速度、エコシステムサポート、使いやすさの面で優れたバランスを提供します。

Link to this sectionYOLO11:実世界の汎用性のベンチマーク#

Ultralyticsによって導入されたYOLO11は、長年の基礎研究の上に構築されており、高速で正確、かつ信じられないほど汎用性の高いモデルを実現しています。物体検出インスタンスセグメンテーション画像分類姿勢推定、および指向性バウンディングボックス(OBB)抽出をネイティブに処理できるように設計されています。

YOLO11の詳細はこちら

Link to this sectionアーキテクチャと強み#

YOLO11は、洗練されたCNNバックボーンと高度な空間特徴ピラミッドを備えており、非常にリソース効率に優れています。厳しいハードウェア制約がある環境でも優れた性能を発揮し、学習時および推論時のメモリ消費量を最小限に抑えます。Ultralytics PlatformはYOLO11をネイティブサポートしており、バラバラなMLOpsツールを組み合わせることなく、モデルの監視、データアノテーション、クラウド学習を効率化できます。

エッジコンピューティングをターゲットとする開発者にとって、YOLO11は極めて低いレイテンシを誇ります。その軽量性により、Raspberry Piから一般的なモバイル端末まで効率的に動作するため、スマートリテール、製造品質管理、自動交通管理の標準となっています。

Link to this sectionRTDETRv2:BaiduによるリアルタイムTransformer#

RTDETRv2(Real-Time Detection Transformer version 2)は、Transformerベースのアーキテクチャをリアルタイムタスクで実行可能にするためのBaiduの取り組みを象徴するものです。これは、オリジナルのRT-DETRに基づき、推論レイテンシを増大させることなくベースライン精度を向上させる「bag-of-freebies」アプローチを取り入れています。

RTDETRの詳細はこちら

Link to this sectionアーキテクチャと強み#

従来のCNNとは異なり、RTDETRv2は自己注意メカニズムを備えたエンコーダー・デコーダーアーキテクチャを採用しており、画像全体のグローバルなコンテキストを捉えることが可能です。これは、遮蔽(オクルージョン)が頻発する混雑したシーンで特に有利です。RTDETRv2は、後処理における非最大値抑制(NMS)を必要とせず、代わりに学習中のハンガリアンマッチングによる1対1の二部マッチングに依存しています。

しかし、TransformerモデルはVRAMおよびCUDAメモリを大量に消費することで知られています。RTDETRv2を一から学習したり、カスタムデータセットでファインチューニングしたりするには、多くの場合、ハイエンドのGPUクラスターが必要となります。これは、Ultralyticsモデルの軽量な学習フットプリントと比較して、小規模なアジャイルチームにとっては障壁となる可能性があります。

Link to this section性能と指標の分析#

標準的なCOCOデータセットでこれらのモデルを評価する場合、パラメータ数、FLOPs、および純粋な精度の間に明確なトレードオフがあることが確認できます。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this section結果の分析#

表からもわかるように、YOLO11は驚異的なパフォーマンス対サイズ比を提供します。YOLO11xは、RTDETRv2-x(54.3)と比較してより高いmAPval(54.7)を達成しつつ、パラメータ数は大幅に少なく(56.9M対76M)、計算FLOPsも大幅に少なくなっています(194.9B対259B)。

さらに、T4 TensorRTにおけるYOLO11の推論速度は非常に高速です。YOLO11sはわずか2.5msで推論を完了しますが、最小のRTDETRv2-sは5.03msを要します。このため、フレーム処理時間が主要なボトルネックとなる高速なリアルタイム映像解析ストリームにおいて、YOLO11は決定的な選択肢となります。

Transformerのコスト

RTDETRv2はその注意レイヤーを通じて優れた精度を達成しますが、これらのメカニズムは画像解像度に応じて二乗的にスケーリングするため、学習時と推論時の両方でより高いVRAM消費を引き起こします。YOLO11は、その超効率的な畳み込みブロックによってこれを回避しています。

Link to this section学習エコシステムとユーザビリティ#

Ultralyticsモデルを採用する核心的な利点は、その周辺のエコシステムにあります。RTDETRv2の学習には、多くの場合、複雑な研究グレードのリポジトリをナビゲートし、複雑な二部マッチングの損失重みを調整し、大幅なメモリオーバーヘッドを管理する必要があります。

対照的に、Ultralyticsは開発者体験を非常に重視しています。統一されたPython APIは定型コードを抽象化し、Weights & Biasesのようなツールとシームレスに統合して実験の追跡を行い、データ拡張を自動的に処理します。

ultralyticsパッケージを使用してモデルを学習およびエクスポートする手順は以下の通りです。

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

学習後、YOLO11モデルをONNXOpenVINO、またはCoreMLなどのフォーマットにエクスポートするにはコマンドが1つ必要であるだけで、多様なハードウェアバックエンド全体でビジョンパイプラインを簡単にスケールさせることができます。

マルチタスク機能

RTDETRv2はバウンディングボックス検出のみに焦点を当てていますが、YOLO11アーキテクチャは姿勢推定およびインスタンスセグメンテーションをネイティブにサポートしており、複数のビジョンタスクを単一のモデルファミリーに集約できる点に留意してください。

Link to this sectionユースケースと推奨事項#

YOLO11とRT-DETRの選択は、プロジェクトの特定の要件、デプロイメントの制約、およびエコシステムの優先順位によって異なります。

Link to this sectionYOLO11を選択すべき時#

YOLO11は以下のような場合に適しています:

  • 本番環境へのエッジ展開: Raspberry PiNVIDIA Jetsonなどのデバイス上で動作する商業アプリケーションで、信頼性と継続的なメンテナンスが最優先される場合。
  • マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内でdetectionsegmentationpose estimationOBBが必要なプロジェクト。
  • 迅速なプロトタイピングと展開: 効率化されたUltralytics Python APIを使用して、データ収集から本番運用まで素早く移行する必要があるチーム。

Link to this sectionRT-DETRを選択すべき時#

RT-DETRが推奨される場合:

  • Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
  • 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
  • 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section今後の展望:YOLO26の力#

YOLO11は優れたプロダクション向けの選択肢ですが、最先端を追求するチームはYOLO26を強く検討すべきです。2026年1月にリリースされたYOLO26は、End-to-End NMS-Free Design(YOLOv10で初めて導入)を直接コアに取り入れることでアーキテクチャ上のギャップを埋め、後処理のレイテンシとデプロイメントロジックの複雑さを完全に排除しました。

YOLO26には、いくつかの革新的な機能も導入されています。

  • MuSGD Optimizer: Moonshot AIのKimi K2のLLM学習技術から着想を得た、SGDとMuonのこのハイブリッドは、非常に安定した学習と劇的な収束の高速化を保証します。
  • DFL Removal: よりクリーンで簡素化されたエクスポートプロセスのためにDistribution Focal Lossが削除され、低電力エッジデバイスとの互換性が大幅に向上しました。
  • ProgLoss + STAL: これらの高度な損失関数は、ドローン監視、農業監視、およびIoTエッジセンサーにとって不可欠な要件である小物体認識において、顕著な改善をもたらします。
  • 最大43%高速なCPU推論: 専用GPUを持たないデプロイメント向けに、YOLO26はCPU実行用に特別に最適化されており、前世代を大きく凌駕します。

YOLO26の詳細はこちら

より広範なアーキテクチャの探索に興味がある方のために、Ultralyticsのドキュメントでは、広く採用されているYOLOv8YOLOv5、オープンボキャブラリー検出アプリケーション向けのYOLO-Worldのような特殊なモデルについても解説しています。最終的に、YOLO11の証明された安定性を優先する場合でも、YOLO26の画期的なイノベーションを選択する場合でも、Ultralyticsのエコシステムはコンピュータビジョンソリューションを実現するための比類のないツールを提供します。

コントリビューター

コメント