DAMO-YOLO 対 YOLOv7: リアルタイム物体検出器の評価
コンピュータビジョンの急速な進化により、精度と計算コストのバランスを追求した高効率な物体検出モデルが生み出されている。2022年に登場した注目すべきモデルとして、YOLOYOLOv7である。両モデルともリアルタイム視覚処理の限界を押し広げることを目指しているが、その成果は全く異なるアーキテクチャのパラダイムと学習手法によって達成されている。
この包括的な技術比較では、両モデルの異なるアプローチを検証し、アーキテクチャ、導入可能性、および性能指標を分析することで、機械学習エンジニアが特定のコンピュータビジョンアプリケーションに適したツールを選択する手助けをします。
モデルの起源とメタデータ
詳細な技術分析に深く踏み込む前に、これら2つのコンピュータビジョンモデルの起源を文脈化することが不可欠です。
DAMO-YOLO
Alibaba Groupの研究者によって開発されたDAMO-YOLOは、自動アーキテクチャ探索と蒸留を通じて、速度と精度の両方を最適化するために導入されました。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022年11月23日
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
YOLOv7
2022年半ばに最先端技術としてリリースされたYOLOv7 、デプロイコストを増加させることなく、学習可能な「bag-of-freebies」を導入することで、リアルタイム推論をさらにYOLOv7 。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付:2022年7月6日
- Arxiv:2207.02696
- ドキュメント:YOLOv7 ドキュメント
サポート対象のエコシステム
Ultralytics 正式にYOLOv7 、統一されたAPIによるシームレスなトレーニング、検証、エクスポートが可能です。
アーキテクチャの革新
YOLO: NASとディスティレーション
DAMO-YOLOは、最大限の効率を追求したいくつかの最先端技術を組み込んでいます。
- NASバックボーン: ニューラルアーキテクチャ探索(NAS)を利用して、レイテンシが重要な環境向けに調整された最適なバックボーン(MAE-NAS)を自動的に設計します。
- 効率的なRepGFPN: 複数のスケールにわたる特徴融合効率を大幅に向上させる、修正された汎用特徴ピラミッドネットワークです。
- ZeroHead & AlignedOTA: 軽量な検出ヘッドと最適化されたラベル割り当て戦略(AlignedOTA)を組み込み、計算オーバーヘッドを削減します。
- 蒸留による性能向上: トレーニング中に知識蒸留を大いに活用し、パラメータ数を増やすことなく、より小さなモデルバリアントの性能を向上させます。
YOLOv7: E-ELANとBag-of-Freebies
YOLOv7 より構造工学的なアプローチYOLOv7 、勾配経路の最適化と頑健な学習戦略に焦点を当てた。
- E-ELANアーキテクチャ: Extended Efficient Layer Aggregation Networkは、最短および最長の勾配パスを制御することで、モデルがより多様な特徴を学習することを可能にし、効果的な学習収束を保証します。
- モデルスケーリング: 連結ベースのモデルに特化した複合スケーリング手法を導入し、構造的な整合性のために深さと幅を同時にスケーリングします。
- 学習可能なBag-of-Freebies: 恒等接続のない再パラメータ化された畳み込み(RepConv)などの技術や動的なラベル割り当て戦略を採用し、これらは推論速度に影響を与えることなく、学習中の精度を向上させます。
パフォーマンス分析
平均精度(mAP)、速度、効率を評価すると、両モデルとも優れた指標を示しているが、対象とする領域が若干異なる。YOLOv7 高精度GPU にYOLOv7 一方、YOLO構造YOLO低遅延CPU エッジ展開を積極的に目指している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
メトリクスが示すように、DAMO-YOLOは非常に軽量なバリアント(8.5Mパラメータのタイニーモデルなど)を提供していますが、YOLOv7はより高い全体的な精度ピークを達成しており、YOLOv7xはCOCOデータセットで53.1 mAPという印象的な数値を記録しています。
Ultralyticsエコシステムの利点
理論的なアーキテクチャは重要ですが、モデルの実用性はエコシステムによって決まります。UltralyticsサポートYOLOv7モデルは、よく整備されたエコシステムと比類のない使いやすさの恩恵を受けています。
- パフォーマンスバランス: Ultralyticsモデルは、推論速度とdetect精度との間で常に最適なトレードオフを実現しており、エッジデバイスとクラウドベースのモデルデプロイメントの両方に理想的です。
- メモリ要件: 重いTransformerベースのモデルとは異なり、Ultralytics YOLOモデルはトレーニング中に低いCUDAメモリ要件を維持します。これにより、より大きなバッチサイズが可能になり、コンシューマーグレードのハードウェアでもトレーニングプロセスが合理化されます。
- 多様性: Ultralyticsフレームワークは、物体detectを超えてInstance SegmentationやPose Estimationのようなタスクに拡張され、開発者に完全なコンピュータビジョンツールキットを提供します。
トレーニング効率
Ultralytics 、高度に最適化されたデータローダーと事前学習済み重みを活用することで、データセットから完全に学習済みのモデルへわずか数分でシームレスに移行することを可能にします。
コード例:UltralyticsによるYOLOv7のトレーニング
Ultralytics Python を使用すれば、YOLOv7 コンピュータビジョンパイプラインYOLOv7 統合するのは驚くほど簡単です。
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
新たな基準:YOLO26のご紹介
YOLO YOLOv7 画期的なYOLO 一方で、視覚AI分野は急速に進化を続けています。新規プロジェクトを開始するチームには、2026年1月にリリースされた最先端モデル「Ultralytics 」が推奨されます。
YOLO26は、最先端の革新技術を取り入れ、性能と使いやすさにおいて世代を超えた飛躍をもたらします:
- エンドツーエンドのNMSフリー設計: YOLO26はネイティブにエンドツーエンドです。Non-Maximum Suppression (NMS)後処理を排除することで、より高速でシンプルなデプロイメントロジックを実現します。これはYOLOv10によって最初に開拓されたパラダイムシフトです。
- MuSGDオプティマイザ: Moonshot AIのKimi K2のような大規模言語モデルの革新に触発され、YOLO26はSGDとMuonのハイブリッドを利用しています。このオプティマイザは、非常に安定した学習ダイナミクスと劇的に速い収束率を保証します。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL) の的を絞った除去と抜本的な構造強化により、YOLO26は低電力エッジコンピューティング向けに高度に最適化されており、非GPUハードウェアにおいて前世代を凌駕します。
- ProgLoss + STAL: 高度な新しい損失関数を組み込んでおり、小オブジェクト認識を明示的にターゲットとし、改善します。これは航空画像、ロボット工学、およびセキュリティ監視のアプリケーションにとって不可欠な機能です。
- タスク固有の改善: 標準的なdetectionに加え、YOLO26は、segmentationのためのマルチスケールプロトタイピング、ポーズ推定のためのRLE、およびOriented Bounding Boxes (OBB)のための特定の角度損失を含む、多様なタスク向けに調整された強化を特徴とします。
理想的なユースケース
適切なアーキテクチャの選択は、ターゲットとなるデプロイメント環境とプロジェクトの制約に完全に依存します。
YOLOを選択すべきタイミング:
- あなたは、生パラメータ数を極めて低く抑えなければならない(例:マイクロコントローラ)、制約が厳しくリソースが限られたエッジ環境で作業しています。
- あなたは、アリババの独自クラウドサービスと特に統合された自動化された機械学習パイプラインを利用しています。
YOLOv7を選択すべき場合:
YOLO26を選択すべき場合(推奨):
- あなたは一から新しいコンピュータビジョンアプリケーションを構築しており、精度とCPU推論速度の両方において、絶対的な最先端技術が必要としています。
- 迅速かつシームレスなデプロイメント(例:CoreMLへのエクスポートなど)が必要です。 CoreML や TensorRT)を、NMS 制約に煩わされることなく実現する必要があります。
- クラウドトレーニング、データセット管理、自動デプロイメントにおいて、Ultralytics の全機能を活用したいと考えています。
Ultralyticsモデルの堅牢なエコシステムを活用することで、開発者はエンジニアリング時間を大幅に削減し、実世界アプリケーション向けに最高レベルの予測性能を確保できます。