Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 vs RTDETRv2#

コンピュータビジョンアプリケーションに最適なアーキテクチャを選択するには、速度、精度、展開の制約のバランスを考慮する必要があります。この包括的な技術的分析では、高スループットなGPU環境向けに設計された産業グレードの畳み込みニューラルネットワーク(CNN)であるYOLOv6-3.0と、リアルタイム物体検出にアテンションメカニズムをもたらす最先端のTransformerベースモデルであるRTDETRv2を比較します。

両モデルとも人工知能研究において重要なマイルストーンを示していますが、最も多用途で効率的なパイプラインを求める開発者は、多くの場合、堅牢なUltralytics Platformを活用しています。


Link to this sectionYOLOv6-3.0: 産業用スループット#

美団(Meituan)のVision AI部門によって開発されたYOLOv6-3.0は、NVIDIA GPUのようなハードウェアアクセラレータ上での生の処理速度を最大化することに重点を置いており、レガシーな産業用途において確固たる地位を築いています。

Link to this sectionアーキテクチャのハイライト#

YOLOv6-3.0は、高速なGPU推論に特化したハードウェアフレンドリーなEfficientRepバックボーンを採用しています。このアーキテクチャは、ネック部分に双方向連結(BiC)モジュールを統合し、異なる空間解像度にわたる特徴融合を強化しています。トレーニング時には、アンカーベースのトレーニングの利点を活用しつつ、アンカーフリーの推論パイプラインを維持するアンカー支援トレーニング(AAT)戦略を採用しています。

Link to this section強みと弱み#

強み:

  • T4やA100 GPUなどのサーバーグレードのハードウェアで、卓越したスループットを提供します。
  • RepOptを使用したINT8展開のための専門的な量子化チュートリアルを提供しています。
  • 大規模なビデオ解析において、パラメータと速度の比率が良好です。

弱み:

  • 主にバウンディングボックス検出器であり、Ultralytics YOLO11のようなモデルに見られるような、箱から出してすぐに使えるマルチタスクの汎用性(例:ポーズ推定、OBBなど)には欠けています。
  • 後処理における複雑な非最大値抑制(NMS)への依存度が高く、レイテンシの変動が増大します。
  • 主流のフレームワークと比較してエコシステムの活動が少なく、アップデートやコミュニティサポートの予測可能性が低くなります。

YOLOv6の詳細はこちら


Link to this sectionRTDETRv2: リアルタイムTransformer#

Baiduの研究者によって先導されたRTDETRv2は、元のRT-DETRをベースにしており、検出Transformerフレームワークを「bag-of-freebies」アプローチで洗練させ、リアルタイム性を犠牲にすることなく最先端の精度を達成しています。

  • 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
  • 組織: Baidu
  • 日付: 2024年7月24日
  • ArXiv: 2407.17140
  • GitHub: lyuwenyu/RT-DETR

Link to this sectionアーキテクチャのハイライト#

従来のCNNとは異なり、RTDETRv2はネイティブなエンドツーエンドモデルです。Transformerのアテンションレイヤーを活用することで、NMS後処理の必要性を完全になくしました。これにより、効率的な推論パイプラインが可能になります。RTDETRv2は、高度に最適化されたクロススケール特徴融合と効率的なハイブリッドエンコーダーを導入しており、標準的なCOCOデータセットを驚異的な精度で処理できます。

Link to this section強みと弱み#

強み:

  • Transformerベースのアテンションメカニズムにより、複雑なシーンや高密度なシーンにおいて、特に優れた平均適合率(mAP)を実現します。
  • NMSフリーの設計により、推論レイテンシが標準化され、本番環境への統合が簡素化されます。
  • ハードウェアの制約が最小限で、絶対的な最高精度が求められるシナリオに最適です。

弱み:

  • Transformerレイヤーはトレーニング中に大量のCUDAメモリを消費するため、高性能GPUにアクセスできない研究者にはハードルとなります。
  • CPU推論速度は特殊なエッジ用CNNよりも大幅に遅く、モバイル機器やIoTデバイスでの使用が制限されます。
  • 従来の機械学習運用(MLOps)に慣れたチームにとって、セットアップとチューニングは複雑になる可能性があります。

RTDETRの詳細はこちら


Link to this section詳細なパフォーマンス比較#

以下の表は、主要なパフォーマンス指標においてYOLOv6-3.0とRTDETRv2をベンチマークしたものです。YOLOv6のパラメータ効率とRTDETRv2の生の精度の対比に注目してください。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
デプロイメントのヒント

Raspberry Piのような純粋なCPUハードウェアで展開する場合、CNNベースのモデルは一般的に秒間フレーム数(FPS)においてTransformerアーキテクチャをはるかに上回ります。エッジでの最適なパフォーマンスを得るには、OpenVINOを使用して推論を加速することを検討してください。


Link to this sectionユースケースと推奨事項#

YOLOv6とRT-DETRのどちらを選択するかは、特定のプロジェクト要件、展開の制約、およびエコシステムの好みによって異なります。

Link to this sectionYOLOv6を選択すべき時#

YOLOv6は以下の場合に強力な選択肢となります:

  • 産業用ハードウェア対応の展開: モデルのハードウェア認識設計と効率的な再パラメータ化が、特定のターゲットハードウェア上で最適化されたパフォーマンスを提供するシナリオ。
  • 高速なシングルステージ検出: 管理された環境でのリアルタイムビデオ処理において、GPU上の生の推論速度を優先するアプリケーション。
  • Meituanエコシステムの統合: すでにMeituanの技術スタックと展開インフラ内で作業しているチーム。

Link to this sectionRT-DETRを選択すべき時#

RT-DETRが推奨される場合:

  • Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
  • 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
  • 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this sectionUltralyticsの利点: YOLO26の登場#

YOLOv6-3.0とRTDETRv2はそれぞれの分野で優れていますが、現代の機械学習環境では、速度、精度、開発者体験を融合させたモデルが求められています。Ultralyticsエコシステムは、特にYOLO26のリリースにより、これらのニーズに完璧に応えています。

2026年1月にリリースされたUltralytics YOLO26は、コンピュータビジョンの決定的な標準であり、YOLOv8のような古いモデルやYOLO12のようなコミュニティフォークを劇的に凌駕しています。

Link to this sectionなぜYOLO26が競合を凌駕するのか#

  1. エンドツーエンドのNMSフリー設計: YOLOv10で最初に開拓されたYOLO26は、ネイティブにNMS後処理を排除しています。これにより、高度に最適化されたCNNの超高速な速度を維持しながら、RTDETRv2の展開の簡素化を実現します。
  2. MuSGDオプティマイザ: 大規模言語モデルの革新(Moonshot AIのKimi K2など)に触発されたYOLO26は、SGDとMuonのハイブリッドを利用しています。これにより、非常に安定したトレーニングダイナミクスと迅速な収束が保証され、カスタムデータセットに必要な時間と計算リソースを削減します。
  3. 比類のないエッジパフォーマンス: DFL除去(Distribution Focal Loss)を実行することで、YOLO26はエクスポートアーキテクチャを簡素化します。この最適化により、レガシーモデルと比較して最大43%高速なCPU推論を実現し、エッジAIやIoTデバイスにおいて議論の余地のないチャンピオンとなっています。
  4. 小物体検出の強化: ProgLossおよびSTAL損失関数の導入により、YOLOv6が歴史的に苦戦していたドローン解析や航空画像に不可欠な、小物体検出において大幅な飛躍を実現しました。
  5. タスクの汎用性: 検出のみに焦点を当てたYOLOv6とは異なり、YOLO26はインスタンスセグメンテーションポーズ推定画像分類、および指向性バウンディングボックス(OBB)を含むマルチモーダルワークフローをすべて単一の統合APIからサポートしています。

YOLO26の詳細はこちら

Link to this sectionトレーニング効率と使いやすさ#

Ultralytics Python APIは、開発者の生産性を最大化するように設計されています。数行のコードでトレーニングから展開へ移行でき、スタンドアロンの研究リポジトリで必要となる複雑な環境セットアップを完全に回避できます。

以下は、Ultralyticsパッケージを使用して最先端のYOLO26モデルをトレーニングおよび検証する方法を示す、完全に実行可能な例です。

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")

# Export the trained model to ONNX for production deployment
model.export(format="onnx")

Link to this section結論#

YOLOv6-3.0とRTDETRv2はどちらもAIコミュニティに対する素晴らしい貢献です。YOLOv6-3.0は生のGPU産業オートメーションのための強力なツールであり続けており、RTDETRv2はTransformerアーキテクチャが精度を最大化しながらリアルタイムのレイテンシを達成できることを証明しています。

しかし、活発なコミュニティサポートを備えた信頼性の高い本番環境対応フレームワークを必要とするチームにとっては、Ultralytics YOLOモデルが一貫して優れた選択肢です。Hugging FaceTensorRTなどのプラットフォームとのシームレスな統合は、トレーニング中の非常に低いメモリオーバーヘッドと相まって、ハイエンドAIへのアクセスを民主化します。YOLO26にアップグレードすることで、開発者は画期的なMuSGDオプティマイザとNMSフリーアーキテクチャを活用し、より高速でスマート、かつスケーラブルなコンピュータビジョンパイプラインを構築できます。

コントリビューター

コメント