YOLOv7 YOLO: 包括的な技術比較
リアルタイム物体検出の技術は絶えず進化を続けており、研究者やエンジニアは速度と精度の最適なバランスを模索している。本技術比較では、2022年に登場した2つの注目すべきアーキテクチャを深く掘り下げる: YOLOv7 とYOLO。両モデルはコンピュータビジョンコミュニティに新たな概念を導入し、モデルトレーニング、アーキテクチャ設計、デプロイメントにおける異なる課題に取り組んでいます。
モデルの背景と技術的詳細
それらのアーキテクチャを深く掘り下げる前に、これら2つのモデルの起源を理解することが不可欠です。両者とも主要な研究グループによって開発され、リアルタイム物体検出の限界を押し広げるための高度な手法を導入しました。
YOLOv7
YOLOファミリーの継続として開発されたYOLOv7は、学習可能な「bag-of-freebies」の概念を導入し、推論コストを増加させることなく精度を大幅に向上させました。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- ドキュメント:https://docs.ultralytics.com/models/yolov7/
DAMO-YOLOの詳細
Alibaba Groupの研究者によって作成されたDAMO-YOLOは、ニューラルアーキテクチャ探索(NAS)と高度な知識蒸留に重点を置き、さまざまなハードウェア向けに高効率なモデルを構築しました。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
アーキテクチャの革新
YOLOv7: 勾配経路解析と再パラメータ化
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)に重点YOLOv7 。著者らはネットワークの勾配経路を分析し、元の勾配経路を損なうことなくネットワークが継続的に学習できるように設計した。 さらに、YOLOv7 推論時にモデルの再パラメータ化をYOLOv7 活用し、層をシームレスに融合させることでFLOPsを削減し実行時間を加速します。これにより、現代のGPU上でのリアルタイム推論に極めて高い能力を発揮します。
DAMO-YOLO: ニューラルアーキテクチャ探索とRepGFPN
DAMO-YOLOは、レイテンシー制約下でニューラルアーキテクチャ探索 (NAS)を多用することで、他のモデルとは一線を画しています。モバイルデバイスや特定のNPUといった専用ハードウェアに最適化されたバックボーンを探索するために、MAE-NASと呼ばれるフレームワークを活用しています。ネック部分には効率的なRepGFPN (Rep-parameterized Generalized Feature Pyramid Network) を導入し、予測ヘッドの計算負荷を最小限に抑えるためにZeroHead設計を採用しています。
蒸留の違い
YOLOv7 強力な固有のアーキテクチャ最適化にYOLOv7 に対し、YOLO 複雑な多段階知識蒸留プロセスに大きくYOLO 。大規模な教師モデルを訓練して知識を小規模な生徒モデルに蒸留する必要があり、訓練フェーズにおいて計算コストが高くなる可能性がある。
パフォーマンスとメトリクスの比較
これらのモデルを比較する際には、mAP 平均精度)、推論速度、およびモデルの複雑さを検討することが極めて重要です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
上記の表は、YOLOv7 精度領域(YOLOv7x)へ良好にYOLOv7 一方、YOLO 制約環境向けに高度に最適化された小型モデルYOLO 示している。
トレーニング効率とメモリ要件
両アーキテクチャの主な違いは、そのトレーニング手法にあります。DAMO-YOLOが蒸留に依存しているということは、新しいモデルをゼロからトレーニングしたり、カスタムコンピュータービジョンデータセットでファインチューニングしたりする場合に、より多くのVRAMとGPU計算時間を必要とすることが多いことを意味します。
一方、Ultralytics に統合YOLOv7 モデルは、メモリ要件に対して大幅に最適化されている。これにより開発者は、メモリ不足エラーに遭遇することなく、コンシューマー向けハードウェア上でより大きなバッチサイズを利用可能となり、実験の追跡と反復プロセスが簡素化される。
Ultralyticsの利点
YOLOv7 YOLO はいずれも優れた機能YOLO 、Ultralytics 内でモデルを展開することで、比類のない開発者体験が実現します。
- 使いやすさ: Ultralytics Pythonパッケージは、統一されたシンプルなAPIを提供します。わずか数行のコードで、モデルアーキテクチャ間を素早く切り替えたり、トレーニングループを開始したり、推論を実行したりできます。
- よく整備されたエコシステム: Ultralyticsは頻繁な更新を提供し、最新のPyTorchリリースおよびCUDAドライバーとのネイティブな互換性を保証します。また、モデルをONNX、TensorRT、OpenVINOなどの形式にエクスポートするプロセスも簡素化します。
- 多様性: 厳密な物体detectであるDAMO-YOLOとは異なり、Ultralyticsエコシステムは多様なタスクをネイティブにサポートします。Ultralyticsファミリーのモデルは、標準的なバウンディングボックスdetect、姿勢推定、インスタンスセグメンテーション、そしてOriented Bounding Boxes (obb)を実行できます。
コード例: クイックスタート
Ultralytics を使用したモデルの読み込み、トレーニング、推論の実行が、いかに簡単かをご紹介します:
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
モデルのエクスポート
Ultralytics、学習済み重みをTensorRT CoreML TensorRT 各種ハードウェアアクセラレーション形式へエクスポートする処理が、エクスポートコマンドの単一引数で処理されるため、複雑なスクリプト設定に要する時間を大幅に削減できます。
次世代:YOLO26
YOLOv7 強力なレガシーアーキテクチャですが、この分野は急速に進歩しています。新規導入においては、Ultralytics (2026年1月リリース)が推奨される標準であり、ほぼ全ての指標において前世代を上回る性能を発揮します。
- エンドツーエンドのNMSフリー設計: YOLOv10で初めて開拓されたYOLO26は、非最大抑制(NMS)後処理をネイティブに排除します。これにより、ロボティクスや自動運転技術にとって不可欠な、決定論的で超低レイテンシの推論が保証されます。
- MuSGDオプティマイザ: 高度なLLMトレーニング技術(Moonshot AIのKimi K2など)に触発されたこのハイブリッドオプティマイザは、SGDとMuonをブレンドし、データセット全体で非常に安定したトレーニングと高速な収束を実現します。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26 はエッジコンピューティングプラットフォームおよび CPU で性能を大幅に向上させます。
- ProgLoss + STAL: これらの高度な損失関数は、小さなオブジェクトをdetectする上で大幅な改善をもたらし、YOLO26を航空画像や詳細な監視に非常に適したものにします。
理想的なユースケース
DAMO-YOLOを選択するタイミング
- NASにおける学術研究: 貴社がニューラルアーキテクチャ探索手法の研究に多大な投資を行っている場合。
- 特定ハードウェアにおける超制約型レイテンシ: カスタムAIアクセラレータチップに合わせたバックボーンを見つけるために、網羅的なNAS検索を実行するリソースがある場合。
YOLOv7を選択すべき時
- 既存のGPUパイプライン: ハイエンドのNVIDIAハードウェア上で、YOLOv7の特定のE-ELANアーキテクチャを中心に深く最適化されたレガシーな本番パイプラインを維持しているチーム向け。
なぜUltralytics (YOLO11 YOLO26)に移行するのか
エンタープライズアプリケーションの大多数において、小売分析やスマート製造からヘルスケアまで、現代のUltralyticsモデルは比類ないものです。Ultralytics Platformとの統合により、使いやすさ、優れたドキュメント、堅牢なコミュニティサポート、そしてマルチタスクの汎用性を提供する完全なMLパイプラインが提供されます。Raspberry Piで在庫を追跡する場合でも、クラウドで大規模な分析を実行する場合でも、YOLO26のようなモデルは、コンピュータビジョンの未来にとって理想的なパフォーマンスバランスを提供します。