YOLO .YOLOv9: リアルタイム物体検出の進歩
物体検出の分野は絶えず進化を続けており、研究者たちは精度、レイテンシ、効率性の限界を常に押し広げている。コンピュータビジョンコミュニティに大きな波紋を広げた注目すべき2つのアーキテクチャは、アリババグループがYOLOYOLOv9が挙げられる。
両モデルともリアルタイム検出の課題解決を目指す一方で、異なるアーキテクチャ哲学で問題に取り組んでいる。YOLO ニューラルアーキテクチャ探索(NAS)と大規模な再パラメータ化YOLO 低遅延を最適化する一方、YOLOv9 プログラマブル勾配情報(PGI)などの概念YOLOv9 、深層学習プロセスにおける情報保持を最大化している。
YOLO: 神経アーキテクチャ探索による効率化
YOLO(Distillation-Enhanced Neural Architecture Search for You Only Look Once)は2022年末に導入され、産業用途向けに性能と速度の厳密なバランスに焦点を当てている。
- 著者:許賢哲, 江一琪, 陳偉華, 黄一倫, 張元, 孫秀宇
組織:Alibaba Group
日付:2022-11-23
Arxiv:YOLO: リアルタイム物体検出設計に関する報告
GitHub:YOLO
主要なアーキテクチャ機能
YOLO 、限られたハードウェアリソースから最大限の性能を引き出すために設計された3つのコア技術に基づいてYOLO :
- MAE-NASバックボーン:手動設計のバックボーンとは異なり、YOLO マスク付き自己符号化器(MAE)に基づくニューラルアーキテクチャ検索YOLO 最適なネットワーク構造を発見YOLO 。これにより、特定の計算制約に数学的に最適化された構造が得られる。
- 効率的なRepGFPN:再パラメータ化機構で強化された一般化特徴ピラミッドネットワーク(GFPN)を採用している。これにより、学習時には複雑なマルチスケール特徴融合の利点を享受しつつ、推論時にはより単純で高速な構造に収縮することが可能となる。
- ZeroHead & AlignedOTA:「ZeroHead」と名付けられた検出ヘッドは、最終出力層の計算負荷を軽減するため極限まで軽量化されている。さらに、ラベル割り当て戦略であるAlignedOTAは、学習中の分類タスクと回帰タスク間の不整合問題を解決する。
長所と短所
YOLO 主な強みはYOLO レイテンシーと精度のバランスにある。特定の産業用ハードウェアでは、NAS(Neural Adversarial Self-Organizing Learning)由来のバックボーンが優れたスループットを提供する。しかし、このモデルは複雑な蒸留トレーニングパイプラインに依存している。つまり、より大きな「教師」モデルを最初に訓練し、それを基に小さなモデルを導く必要があるため、迅速な反復が必要な開発者にとってトレーニングプロセスが煩雑になり得る。 さらに、YOLO を取り巻くエコシステムは、より広範なYOLO と比較して活発さにYOLO 、新しいデプロイメント対象へのサポートが制限される可能性があります。
YOLOv9: プログラム可能な勾配を用いた学習
YOLOv9は、2024年初頭にリリースされ、深層ネットワークにおける情報損失の問題に取り組んでいます。畳み込みニューラルネットワークが深くなるにつれ、入力から出力へのマッピングに必要な重要なデータが失われることが多く、これは「情報ボトルネック」として知られる現象です。
- 著者:王建耀、廖宏源
所属機関:中央研究院 情報科学研究所
日付:2024年2月21日
Arxiv:YOLOv9: 学習可能な勾配情報を用いた目的指向学習
GitHub:WongKinYiu/yolov9
主要なアーキテクチャ機能
YOLOv9 情報損失を軽減するための2つの画期的な概念YOLOv9 :
- プログラマブル勾配情報(PGI):PGIは、ネットワーク重みの更新に信頼性の高い勾配を生成する補助的監視フレームワークであり、深層が重要な意味情報を保持することを保証する。訓練時のみ使用され推論時には除去される可逆的な補助分岐を含み、デプロイ時に余分なコストを発生させない。
- GELAN(汎用効率的層集約ネットワーク):このアーキテクチャはCSPNetとELANの優れた特徴を組み合わせたものである。GELANは軽量かつ高速であるように設計され、多様な計算ブロックをサポートしつつ、受容野を犠牲にすることなく厳密に制御されたパラメータ数を可能にする。
長所と短所
YOLOv9 精度にYOLOv9 、COCO 新たなベンチマークを樹立しました。情報を保持する能力により、他のモデルが見逃す可能性のある困難な物体の検出に特に優れています。 ただし、補助ブランチによるアーキテクチャの複雑化は、シンプルなモジュール設計と比較して、カスタムタスク向けのコードベース変更を困難にする可能性がある。GPU上では非常に効果的だが、特定の層集約処理は、エッジデバイス向けに特化したモデルと比較すると、CPUデバイス全てに対して完全には最適化されていない可能性がある。
パフォーマンス比較
以下の表は、YOLO YOLOv9YOLO 性能指標を比較したものです。パラメータ数、計算負荷(FLOPs)、精度(mAP)の間のトレードオフに注意してください。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
一方 YOLOv9 一般的に高いピーク精度(最大55.6%mAP)を達成する一方、YOLO小型モデル領域で競争力のある性能を提供します。ただし「tiny」バリアントではパラメータ数が多くなります。YOLOv9tはFLOPs面で大幅に軽量(7.7G対18.1G)であり、mAP低いものの、極端なリソース制約デバイス向けには潜在的に優れています。
Ultralyticsの利点: YOLO26の登場
YOLOv9 学術的に重要なYOLOv9 一方、実世界の生産環境に焦点を当てる開発者には、最先端の性能、使いやすさ、導入の柔軟性を兼ね備えたソリューションが求められます。現代のAIアプリケーションにおいて、Ultralytics 優れた選択肢として際立つのは、まさにこの点にあります。
なぜYOLO26なのか?
2026年1月にリリースされたYOLO26は、前世代の遺産を基盤としつつ、アーキテクチャとトレーニングの安定性において根本的な変革をもたらす。
- エンドツーエンドNMS設計:重複するバウンディングボックスをフィルタリングするために通常ノンマキシマム抑制(NMS)を必要とするYOLOv9 YOLO異なり、YOLO26はネイティブにエンドツーエンドです。NMS ステップが完全に不要となり、推論の遅延とばらつきが低減され、デプロイメントパイプラインが大幅に簡素化されます。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングにおける革新に着想を得たYOLO26は、MuSGDオプティマイザーを採用しています。SGD (Moonshot AIのKimi K2由来)を融合させたこの手法は、トレーニングに前例のない安定性をもたらし、収束速度の向上と広範なハイパーパラメータ調整の必要性削減を実現します。
- エッジファースト効率性:分布焦点損失(DFL)を排除し、CPU 向けにアーキテクチャを最適化したことで、YOLO26は最大43%CPU 速度を実現。これにより、GPUを搭載しないラズベリーパイやスマートフォンなどのデバイスにおけるエッジコンピューティングに最適な選択肢となる。
- 小型物体検出の強化: ProgLoss + STAL(自己学習アンカー学習)の導入により、YOLO26は小型物体の認識において顕著な改善を実現。これはドローン画像やIoTセンサーにとって重要な要件である。
Ultralytics による効率化されたワークフロー
複雑な蒸留パイプラインや手動での環境設定は忘れてください。 Ultralytics なら、データセットの管理、クラウド上でのYOLO26モデルのトレーニング、そしてワンクリックであらゆる形式(ONNX、TensorRT、CoreML)へのデプロイが可能です。
比類なき汎用性
YOLO 主に検出YOLO 、Ultralytics YOLO26は最初からあらゆるタスクに対応します。インスタンスセグメンテーション、残差対数尤度推定(RLE)を用いた姿勢推定、航空測量向けのオリエンテッドバウンディングボックス(OBB)検出など、必要なタスクが何であれ、APIは一貫してシンプルです。
コード例:Ultralyticsを使用したトレーニング
Ultralytics Python 、高度なモデルのトレーニングの複雑さを抽象化します。YOLOv9 シームレスに切り替えることができます。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Use GPU 0
)
# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")
結論
適切なモデルの選択は、特定の制約条件によって異なります。NASアーキテクチャの研究を行っている場合や、そのRepGFPN構造によって特に恩恵を受けるハードウェアをお持ちの場合、YOLO有力な選択肢となります。 YOLOv9 は、COCOのような学術ベンチマークで可能な限り最高の精度が求められるシナリオにおいて優れた選択肢です。 COCOなどの学術ベンチマークで最高精度を要求されるシナリオにおいて、最適な選択肢です。
しかし、本番環境対応ソリューションを求める開発者や企業にとって、Ultralytics 最も魅力的なパッケージを提供します。そのNMS設計、CPU 、および Ultralytics 統合により との統合により、市場投入までの時間を大幅に短縮します。従来のモデルの理論的強みに、MuSGDオプティマイザーのような実用的な革新技術を組み合わせることで、YOLO26は単なるモデルではなく、将来を見据えた完全なビジョンソリューションを提供します。