YOLO YOLOv7: リアルタイム物体検出器の評価
コンピュータビジョンの急速な進化により、精度と計算コストのバランスを追求した高効率な物体検出モデルが生み出されている。2022年に登場した注目すべきモデルとして、YOLOYOLOv7である。両モデルともリアルタイム視覚処理の限界を押し広げることを目指しているが、その成果は全く異なるアーキテクチャのパラダイムと学習手法によって達成されている。
この包括的な技術比較では、両モデルの異なるアプローチを検証し、アーキテクチャ、導入可能性、および性能指標を分析することで、機械学習エンジニアが特定のコンピュータビジョンアプリケーションに適したツールを選択する手助けをします。
モデルの起源とメタデータ
深い技術分析に入る前に、これら二つのコンピュータビジョンモデルの起源を文脈化することが不可欠である。
DAMO-YOLO
アリババグループの研究者によって開発されたYOLO 、自動化されたアーキテクチャ探索とディスティレーションを通じて速度と精度の両方を最適化するために導入YOLO 。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022年11月23日
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
YOLOv7
2022年半ばに最先端技術としてリリースされたYOLOv7 、デプロイコストを増加させることなく、学習可能な「bag-of-freebies」を導入することで、リアルタイム推論をさらにYOLOv7 。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付:2022年7月6日
- Arxiv:2207.02696
- ドキュメント:YOLOv7 ドキュメント
サポート対象のエコシステム
Ultralytics 正式にYOLOv7 、統一されたAPIによるシームレスなトレーニング、検証、エクスポートが可能です。
アーキテクチャの革新
YOLO: NASとディスティレーション
YOLO 、最大限の効率化を目的とした複数の最先端技術をYOLO :
- NASバックボーン:ニューラルアーキテクチャ検索(NAS)を活用し、レイテンシが重要な環境向けに最適化されたバックボーン(MAE-NAS)を自動設計します。
- 効率的なRepGFPN:複数のスケールにわたる特徴融合効率を大幅に高める改良型汎用特徴ピラミッドネットワーク。
- ZeroHead & AlignedOTA:軽量な検出ヘッドと最適化されたラベル割り当て戦略(AlignedOTA)を組み込み、計算オーバーヘッドを削減します。
- 蒸留強化:トレーニング中に知識蒸留を多用し、パラメータ数を膨らませることなく小型モデルバリアントの性能を向上させる。
YOLOv7: E-ELANとBag-of-Freebies
YOLOv7 より構造工学的なアプローチYOLOv7 、勾配経路の最適化と頑健な学習戦略に焦点を当てた。
- E-ELANアーキテクチャ:拡張効率的層集合ネットワークは、最短および最長の勾配経路を制御することでモデルがより多様な特徴を学習できるようにし、効果的な学習収束を保証する。
- モデルスケーリング:連結ベースのモデル向けに設計された複合スケーリング手法を導入し、構造的整合のために深さと幅を同時にスケーリングする。
- 学習可能なフリービーの袋:同一接続なしの再パラメータ化畳み込み(RepConv)や動的ラベル割り当て戦略といった手法を採用し、推論速度に影響を与えずに学習中の精度を向上させる。
パフォーマンス分析
平均精度(mAP)、速度、効率を評価すると、両モデルとも優れた指標を示しているが、対象とする領域が若干異なる。YOLOv7 高精度GPU にYOLOv7 一方、YOLO構造YOLO低遅延CPU エッジ展開を積極的に目指している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
メトリクスが示す通り、YOLO 極めて軽量なバリエーション(パラメータ数わずか850万の小型モデルなど)YOLO 一方、YOLOv7 より高い総合精度ピークYOLOv7 、YOLOv7xはCOCO 53.1mAP 驚異的な数値を記録している。
Ultralyticsエコシステムの利点
理論的なアーキテクチャは重要ですが、モデルの実用性はエコシステムによって決まります。UltralyticsサポートYOLOv7モデルは、よく整備されたエコシステムと比類のない使いやすさの恩恵を受けています。
- パフォーマンスバランス: Ultralytics 、推論速度と検出精度の間で常に最適なトレードオフを実現し、エッジデバイスとクラウドベースのモデル展開の両方に理想的です。
- メモリ要件:より重いTransformerベースのモデルとは異なり、Ultralytics YOLO 低メモリを維持します CUDA メモリ要件を維持します。これにより、より大きなバッチサイズが可能となり、コンシューマー向けハードウェア上でもトレーニングプロセスを効率化します。
- 汎用性: Ultralytics は物体検出を超えて、インスタンスセグメンテーションや姿勢推定といったタスクにも対応し、開発者に完全なコンピュータビジョンツールキットを提供します。
トレーニング効率
Ultralytics 、高度に最適化されたデータローダーと事前学習済み重みを活用することで、データセットから完全に学習済みのモデルへわずか数分でシームレスに移行することを可能にします。
コード例:Ultralytics YOLOv7 のトレーニング
Ultralytics Python を使用すれば、YOLOv7 コンピュータビジョンパイプラインYOLOv7 統合するのは驚くほど簡単です。
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
新たな基準:YOLO26のご紹介
YOLO YOLOv7 画期的なYOLO 一方で、視覚AI分野は急速に進化を続けています。新規プロジェクトを開始するチームには、2026年1月にリリースされた最先端モデル「Ultralytics 」が推奨されます。
YOLO26は、最先端の革新技術を取り入れ、性能と使いやすさにおいて世代を超えた飛躍をもたらします:
- エンドツーエンドNMS設計:YOLO26はネイティブにエンドツーエンドです。ノンマキシマムサプレッション(NMS)後処理を排除することで、より高速でシンプルなデプロイメントロジックを実現します。これは当初 YOLOv10によって最初に開拓されたパラダイムシフトです。
- MuSGDオプティマイザー:Moonshot AIのKimi K2のような大規模言語モデルの革新に着想を得たYOLO26は、SGD ミューオンのハイブリッドを採用しています。このオプティマイザーは極めて安定した学習ダイナミクスと劇的に高速な収束速度を保証します。
- 最大43%CPU :分布焦点損失(DFL)の選択的除去と構造的強化により、YOLO26は低消費電力エッジコンピューティング向けに大幅に最適化され、GPU において従来世代を上回る性能を発揮します。
- ProgLoss + STAL:航空画像、ロボティクス、セキュリティ監視などの応用において不可欠な能力である、小規模物体認識を明示的に対象とし改善する先進的な新たな損失関数を組み込んでいます。
- タスク特化型改善:標準的な検出機能に加え、YOLO26は多様なタスク向けに特化した強化機能を備えています。これにはセグメンテーションのためのマルチスケールプロトタイピング、姿勢推定のためのRLE(ランダム位置推定)、および方向付きバウンディングボックス(OBB)のための特定角度損失が含まれます。
理想的なユースケース
適切なアーキテクチャの選択は、完全にターゲットとなるデプロイ環境とプロジェクトの制約条件に依存します。
YOLOを選択すべきタイミング:
- あなたは、生パラメータ数を極めて低く抑えなければならない(例:マイクロコントローラ)、制約が厳しくリソースが限られたエッジ環境で作業しています。
- あなたは、アリババの独自クラウドサービスと特に統合された自動化された機械学習パイプラインを利用しています。
YOLOv7を選択すべき場合:
YOLO26を選択すべき場合(推奨):
- あなたは一から新しいコンピュータビジョンアプリケーションを構築しており、精度とCPU推論速度の両方において、絶対的な最先端技術が必要としています。
- 迅速かつシームレスなデプロイメント(例:CoreMLへのエクスポートなど)が必要です。 CoreML や TensorRT)を、NMS 制約に煩わされることなく実現する必要があります。
- クラウドトレーニング、データセット管理、自動デプロイメントにおいて、Ultralytics の全機能を活用したいと考えています。
Ultralytics 堅牢なエコシステムを活用することで、開発者はエンジニアリング時間を大幅に削減しつつ、実世界のアプリケーションにおいて最高水準の予測性能を確保できます。