Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv8 と RTDETRv2 の比較#

コンピュータビジョンの分野は絶えず進化しており、新しいアーキテクチャがリアルタイム物体検出の可能性の限界を押し広げています。大きな注目を集めている2つの主要なモデルが、Ultralytics YOLOv8 と Baidu の RTDETRv2 です。本ガイドでは、これら2つの強力なモデルの包括的な技術比較を行い、アーキテクチャ、パフォーマンス指標、および理想的なデプロイシナリオについて解説します。

Link to this sectionYOLOv8 の概要#

Ultralytics YOLOv8 は、YOLO (You Only Look Once) モデルファミリーにおける重要なマイルストーンです。長年の基礎研究に基づき、幅広いタスクに対して優れた速度、精度、そして使いやすさを実現しています。

主な特徴:

Link to this sectionアーキテクチャと強み#

YOLOv8 は、特徴抽出とバウンディングボックス回帰の両方を最適化する効率的なアーキテクチャを導入しています。アンカーフリーな検出器であり、予測ヘッドが簡素化されるため、トレーニング中に必要なハイパーパラメータの調整が少なくなります。このアーキテクチャにより、推論速度と平均適合率 (mAP) の間で素晴らしいパフォーマンスバランスが確保されており、エッジデバイスとクラウドサーバーの両方での実運用に非常に適しています。

さらに、YOLOv8 は Transformer ベースのアーキテクチャと比較して、トレーニング中のメモリ要件が大幅に低くなっています。これにより、開発者はメモリ不足エラーに悩まされることなく、一般的なコンシューマー向け GPU でモデルをトレーニングできます。

Link to this section汎用性#

YOLOv8 の決定的な強みの1つは、そのネイティブな汎用性です。多くのモデルがバウンディングボックスのみに焦点を当てる一方、YOLOv8 は物体検出インスタンスセグメンテーション画像分類姿勢推定、および指向性バウンディングボックス (OBB) 検出を標準でサポートしています。

YOLOv8の詳細はこちら

Link to this sectionRTDETRv2 の概要#

RTDETRv2 (Real-Time Detection Transformer version 2) は、オリジナルの RT-DETR をベースにしており、Vision Transformer の強力なアテンションメカニズムをリアルタイム物体検出アプリケーションにもたらすことを目的としています。

主な特徴:

Link to this sectionアーキテクチャと強み#

RTDETRv2 は、畳み込みニューラルネットワーク (CNN) バックボーンと Transformer のエンコーダ・デコーダ構造を組み合わせたハイブリッドアーキテクチャを活用しています。これにより、自己アテンションメカニズムを通じて複雑な空間関係とグローバルなコンテキストを捉えることが可能です。「バグ・オブ・フリービー(bag-of-freebies)」トレーニング戦略を用いることで、RTDETRv2 はCOCO データセットのような標準的なベンチマークデータセットで競争力のある mAP スコアを達成しています。

Link to this section弱点#

高い精度の一方で、Transformer ベースである RTDETRv2 は、純粋な CNN アーキテクチャと比較してメモリ消費量が多く、トレーニング時間が長くなります。Transformer は本質的に多くの VRAM を必要とするため、リソースが制限されたハードウェアでのトレーニングは困難です。さらに、RTDETRv2 は検出には優れていますが、Ultralytics エコシステムに固有のマルチタスク汎用性(姿勢推定やセグメンテーションなど)が不足しています。

RTDETRv2についてさらに詳しく学ぶ

Link to this sectionパフォーマンスの比較#

本番環境でモデルを評価する際、モデルサイズ、推論速度、精度のトレードオフが極めて重要です。以下の表は、YOLOv8 と RTDETRv2 の各バリアントを直接比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
ハードウェアと指標

速度は Amazon EC2 P4d インスタンスを使用して測定されました。CPU 推論には ONNX を使用し、GPU 速度は TensorRT でテストされました。

Link to this sectionユースケースと推奨事項#

YOLOv8 と RT-DETR のどちらを選択するかは、プロジェクトの特定の要件、デプロイの制約、およびエコシステムの好みによって決まります。

Link to this sectionYOLOv8を選択すべき場合#

YOLOv8は、以下のようなケースに適した強力な選択肢です。

  • 汎用的なマルチタスクデプロイメント: Ultralytics エコシステム内で 検出セグメンテーション分類姿勢推定 のために実績のあるモデルを必要とするプロジェクト。
  • 確立された運用システム: 既にYOLOv8アーキテクチャ上で構築され、安定してテストされたデプロイメントパイプラインを持つ既存の運用環境。
  • 広範なコミュニティとエコシステムのサポート: YOLOv8の広範なチュートリアル、サードパーティ統合、アクティブなコミュニティリソースを活用できるアプリケーション。

Link to this sectionRT-DETRを選択すべき時#

RT-DETRが推奨される場合:

  • Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
  • 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
  • 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this sectionUltralyticsの利点#

モデルの選択は単なる数値指標以上の意味を持ちます。開発者の生産性には、周囲のソフトウェアエコシステムが不可欠です。Ultralytics エコシステムは、使いやすさで知られており、機械学習のライフサイクル全体を簡素化する統合された Python API を提供しています。

データセット管理から分散トレーニングまで、Ultralytics は複雑なボイラープレートコードを抽象化します。開発者は、すぐに利用可能な事前学習済みウェイトや、Hugging Face などのプラットフォームや監視ツールとのシームレスな統合の恩恵を受けることができます。この十分にメンテナンスされたエコシステムは、活発な開発、頻繁なアップデート、そして強力なコミュニティサポートを保証します。

さらに、トレーニング効率は Ultralytics YOLO モデルの特徴です。これらは高速な収束と、トレーニングプロセス中のメモリフットプリント削減のために高度に最適化されており、RTDETRv2 のような Transformer ベースの検出器と比較して実験サイクルを大幅に加速させます。

Link to this section今後の展望:YOLO26の力#

YOLOv8 は依然として強力ですが、最先端の技術を求める開発者は、2026年1月にリリースされた待望の YOLO26 へのアップグレードを検討すべきです。YOLO26 は、いくつかの画期的なイノベーションによって最先端を再定義します。

  • エンドツーエンドの NMS フリー設計: YOLO26 は非最大値抑制 (NMS) の後処理を排除し、より高速で決定論的なデプロイワークフローを実現します。
  • DFL の削除: Distribution Focal Loss を削除することで、エッジおよび低電力デバイスとの互換性を高めるためにモデルを効率化しました。
  • MuSGD オプティマイザ: LLM トレーニングのイノベーションを取り入れた MuSGD オプティマイザにより、トレーニングの安定性と収束の高速化を確実にします。
  • CPU 推論が最大 43% 高速化: 専用 GPU を持たない環境向けに大幅に最適化されています。
  • ProgLoss + STAL: これらの高度な損失関数は、航空画像やロボット工学で重要な小さな物体の認識において顕著な改善をもたらします。

Ultralytics スイート内で探求する価値のあるその他のモダンな代替案として YOLO11 があります。これはレガシープロジェクトに対して堅牢なパフォーマンスを提供しますが、すべての新規デプロイメントには YOLO26 が推奨されます。

Link to this sectionコード例: 学習と推論#

Ultralytics API のシンプルさにより、わずか数行の Python コードでモデルの読み込み、トレーニング、デプロイが可能です。以下の例を実行する前に、PyTorch がインストールされていることを確認してください。

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
デプロイ準備完了

Ultralytics は ONNX、TensorRT、CoreML を含む多数のフォーマットへのワンクリックエクスポートをサポートしており、さまざまなハードウェアアーキテクチャ間でのモデルデプロイオプションを簡素化します。

Link to this section結論#

YOLOv8 と RTDETRv2 はどちらも、リアルタイム物体検出において魅力的な機能を提供します。RTDETRv2 は、グローバルなコンテキストを捉える Transformer の力を実証しており、推論速度とメモリオーバーヘッドが主な制約とならない複雑な空間推論タスクに適しています。

しかし、速度、精度、リソース効率の優れたバランスを優先する開発者にとって、Ultralytics YOLO モデルは依然として優れた選択肢です。YOLOv8 の軽量性、比類のない使いやすさ、複数のビジョンタスクにわたる汎用性、そして成長を続けるオープンソースエコシステムは、スケーラブルな本番環境にとっての最適なソリューションとなります。エッジパフォーマンスの頂点を求める方には、新たにリリースされた YOLO26 が、業界をリードし続ける比類のない NMS フリーの効率性を提供します。

コメント