コンテンツにスキップ

YOLO11 . YOLO26:リアルタイム物体検出の進化

コンピュータビジョンの世界は絶えず変化しており、新たなモデルが発表されるたびに速度、精度、使いやすさの限界が押し広げられています。この進化の過程における二つの重要なマイルストーンは YOLO11 と画期的なYOLO26である。YOLO11 2024年末に企業導入の堅牢な基準をYOLO11 一方で、YOLO26はネイティブなエンドツーエンドアーキテクチャとCPU設計によりパラダイムシフトをもたらした。

このガイドは、開発者、研究者、エンジニアが特定のコンピュータビジョンアプリケーションに適したツールを選択できるよう、包括的な技術比較を提供します。

エグゼクティブサマリー:主な相違点

両モデルともYOLOYOLO You Only Look Once)ファミリーの基礎原理に基づいて構築されているが、そのアーキテクチャの哲学においては大きく異なる。

  • YOLO11:多用途性とエコシステム統合のために設計されています。非最大抑制(NMS)などの従来の後処理手法に依存していますが、多様なタスクに対して非常に安定し、十分にサポートされたフレームワークを提供します。
  • YOLO26:エッジ処理向けに設計され、将来を見据えた仕様です。ネイティブNMS設計を採用し、複雑な後処理ステップを排除します。革新的なMuSGD最適化アルゴリズムを搭載し、CPU に特化して設計されているため、Raspberry Piなどのデバイス上で最大43%高速化を実現します。

詳細なパフォーマンス分析

世代間の性能差は、ミリ秒単位および平均精度(mAP)のパーセンテージポイントで測定されることが多い。下表は速度と精度の向上を強調している。エッジAI展開における重要な指標であるYOLO26CPU 大幅に短縮されている点に注目されたい。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

YOLO11:多用途スタンダード

YOLO11
著者: Glenn Jocher と Jing Qiu
組織: Ultralytics
日付: 2024-09-27
GitHub:Ultralytics

YOLO11 YOLO における主要な改良点YOLO11 、特徴抽出効率に焦点を当てた。これは YOLOv8 を最適化し、SPPFの強化を導入することで改善した。

長所:

  • 実証済みの堅牢性:業界で広く採用され、豊富なコミュニティプラグインとサポートが提供されています。
  • GPU : NVIDIA (T4、A100)上でTensorRTを使用して高効率を実現 TensorRTによりNVIDIA GPU(T4、A100)上で高い効率を発揮し、クラウドベースの推論に最適です。
  • タスク汎用性:検出、セグメンテーション、姿勢推定において高い性能を発揮する。

弱点:

  • NMS :非最大抑制(NMS )後処理を必要とし、これによりレイテンシ変動が生じ、デプロイメントパイプラインが複雑化する可能性があります。
  • より高いFLOPS:最新のアーキテクチャよりもわずかに計算コストが高い。

YOLO11の詳細について。

YOLO26:エッジファーストの革新者

YOLO26
著者: Glenn Jocher と Jing Qiu
組織: Ultralytics
日付: 2026-01-14
GitHub:Ultralytics

YOLO26は、汎用ハードウェアでの効率性を優先する先進的なアーキテクチャです。NMS の必要性を排除しNMS CPU 向けに最適化NMS 従来のAI処理には遅すぎると考えられていたデバイス上でリアルタイム性能を実現します。

主な革新点:

  • エンドツーエンドNMS:YOLO26は1対1のマッチングを直接予測することで、NMS を解消します。 ONNX CoreML へのエクスポートが CoreML 簡素化されます。
  • DFL除去:ディストリビューション・フォーカル・ロス(DFL)を除去することで出力ヘッドを合理化し、低電力エッジデバイスとの互換性を向上させます。
  • MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニング技術(特にMoonshot AIのKimi K2)に着想を得たこのハイブリッドオプティマイザーは、 SGD とミューオンを組み合わせ、収束速度と安定性を向上させています。
  • ProgLoss + STAL:新規損失関数が小規模物体検出を改善。これは航空画像とロボティクスにおける重要な要件である。

YOLO26についてさらに詳しく

アーキテクチャの詳細

YOLO11 移行は、単なるパラメータ数の増加ではなく、モデルの学習と予測方法における根本的な変化である。

トレーニング方法論と効率性

Ultralytics 特筆すべき特徴の一つは、トレーニング効率の高さです。両モデルとも統合されたUltralytics 恩恵を受けており、シームレスなデータセット管理とクラウド上でのトレーニングを可能にします。

しかし、YOLO26ではMuSGDオプティマイザを導入した。これはモーメンタム更新を適応させ、AdamW SGD AdamW 視覚モデルの複雑な損失ランドスケープを効果的に処理する。これによりモデルの収束が早まり、貴重なGPU 節約し、トレーニングのカーボンフットプリントを削減できる。

さらに、YOLO26は改良されたタスク特化損失関数を利用している:

  • セグメンテーション:強化されたセマンティックセグメンテーション損失とマルチスケールプロトモジュール。
  • ポーズ:より正確なキーポイント位置特定のための残差対数尤度推定(RLE)
  • OBB: 方向付き境界ボックス課題における境界不連続性を解決するための特殊角度損失

メモリ要件

Ultralytics YOLO 、Transformerベースのアーキテクチャと比較してメモリ使用量が少ないことで知られています。 RT-DETRSAM 2などのトランスフォーマーベースのアーキテクチャと比較して、メモリ使用量が少ないことで知られています。

メモリ最適化

YOLO11 コンシューマー向けGPU(例:NVIDIA 3060や4070)でのトレーニングを想定して設計されています。24GB以上のVRAMを必要とする大規模なトランスフォーマーモデルとは異なり、効率的なYOLO 、適切なバッチサイズを用いることで、わずか8GBのVRAMを搭載したデバイス上でもファインチューニングが可能であることがよくあります。

実際のユースケース

YOLO11 YOLO26YOLO11 選択は、多くの場合、デプロイメント環境のハードウェアと具体的なアプリケーションの要件によって決まります。

YOLO11の理想的なシナリオ

  • クラウドAPIサービス:高性能GPUが利用可能で、単一画像のレイテンシよりも高スループット(バッチ処理)が重視される場面。
  • レガシー統合: NMSパイプラインを中心に構築済みのシステムで、後処理ロジックの変更が不可能なもの。
  • 汎用分析:小売業向けヒートマップ分析や顧客数計測において、標準的なGPU 活用される。

YOLO26の理想的なシナリオ

  • IoTとエッジデバイス: ラズベリーパイ、NVIDIA Nano、またはスマートフォンでの物体検出の実行。43%CPU は、ここでのゲームチェンジャーです。
  • ロボティクス:遅延変動は制御ループにとって致命的である。NMS設計は自律航行に不可欠な決定論的推論時間を保証する。
  • 航空測量: ProgLoss関数は小型物体認識を大幅に強化し、YOLO26をドローン映像解析において優れた手法とする。
  • 組込みシステム:計算能力が限られており、NMS中に数千の候補ボックスをソートするオーバーヘッドを許容できないデバイス。

コード実装

両モデルとも、Ultralytics を特徴づける同じ使いやすさを共有しています。YOLO11 からYOLO11 切り替えには、モデル文字列の変更のみが必要です。

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, CPU optimized)
model = YOLO("yolo26n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Process results
for result in results:
    result.show()  # Display to screen
    result.save(filename="result.jpg")  # Save to disk

この統一APIにより、開発者はコードベース全体を書き直すことなく、異なるアーキテクチャを実験できます。

結論

両アーキテクチャは、Ultralytics オープンソースのコンピュータビジョン分野でリーダーUltralytics 理由を示しています。 YOLO11 は、成熟した汎用性GPUソリューションを提供し、企業データセンターに最適です。一方、YOLO26はエッジAIの未来を体現し、驚異的なCPU と従来のボトルネックを解消した簡素化されたエンドツーエンドパイプラインを実現します。

ほとんどの新規プロジェクト——特にエッジデプロイメント、モバイルアプリ、ロボティクスに関わるもの——においては、YOLO26がその優れた速度と精度のバランスと現代的なアーキテクチャ設計により推奨される選択肢です。

その他の検討すべきモデル

  • YOLOv10:YOLO におけるNMSアプローチの先駆者。
  • RT-DETR: 速度が二次的なシナリオにおいて高精度を提供するトランスフォーマーベースの検出器。
  • YOLOv8: 非常に信頼性の高い古典的な手法であり、その膨大なリソースライブラリにより、現在も広く使用されている。

コメント