YOLO .YOLOv5: アーキテクチャと性能の技術的比較
コンピュータビジョンの急速に進化する環境において、適切な物体検出アーキテクチャを選択することは、精度、速度、リソース効率のバランスを取る上で極めて重要です。本ガイドでは、アリババグループのニューラルアーキテクチャ検索(NAS)YOLOYOLOv5の包括的な技術比較を提供Ultralytics。
概要
COCO 高い精度を引き出すため、ニューラルアーキテクチャ探索(NAS)や重度な再パラメータ化といった革新的な概念を導入している一方、 YOLOv5 は、使いやすさ、導入準備の整い、エコシステムサポートにおいて業界標準であり続けています。
2026年に究極の最先端を求める開発者へ、 YOLO26 が推奨されるアップグレードパスです。YOLOv5 の使いYOLOv5 エンドツーエンドのNMS設計やMuSGDオプティマイザーといったアーキテクチャ上のYOLOv5 融合し、効率性と速度の両面で従来モデルを凌駕しています。
YOLO:アーキテクチャとイノベーション
アリババグループの研究者によって開発されたYOLO 、自動化されたアーキテクチャ設計を通じて速度と精度の限界を押し広げることにYOLO 。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022年11月23日
- リンク:Arxiv,GitHub
主要なアーキテクチャ機能
- ニューラルアーキテクチャ検索(NAS):手作業で設計されたバックボーンとは異なり、YOLO MAE-NAS(補助的早期停止法)YOLO 、異なる遅延制約に最適化された効率的なバックボーンを自動的に発見する。
- RepGFPN(効率的なRepパラメータ化汎用FPN):異なるスケール間での情報の流れの経路を最適化する新たな特徴融合ネックを採用し、再パラメータ化を活用することで推論速度を維持しつつ特徴の豊かさを最大化する。
- ZeroHead:従来の分離型ヘッドと比較して計算負荷を大幅に軽減する軽量検出ヘッド。
- AlignedOTA:トレーニング中の分類タスクと回帰タスク間の不整合問題を解決する動的ラベル割り当て戦略。
長所と短所
YOLO 学術的なベンチマークにおいてYOLO 、特定のパラメータ数においてYOLO と比較してmAP を示すことが多い。しかし、複雑なNAS構造への依存度が高いため、カスタムハードウェア向けに修正や微調整を行うのが困難になり得る。「ディスティレーションファースト」のトレーニング手法は、多くの場合大規模な教師モデルを必要とするため、リソースが限られているユーザーにとってはトレーニングパイプラインを複雑化する要因にもなり得る。
YOLOv5:業界標準
Ultralytics リリースされたYOLOv5 、物体検出におけるユーザー体験をYOLOv5 。単なるモデルではなく、完全な実運用可能なフレームワークであった。
- Author: Glenn Jocher
- 組織:Ultralytics
- 日付: 2020年6月26日
- リンク:YOLOv5 ,GitHub
主要なアーキテクチャ機能
- CSP-Darknet Backbone:クロスステージ部分ネットワークを用いて勾配の流れを強化し計算量を削減する、深さと幅を効果的にバランスさせる堅牢な手作業設計。
- PANet Neck:パスアグリゲーションネットワークは情報の流れを大幅に改善し、異なるバックボーンレベルからの特徴を融合することで、モデルが物体をより正確に位置特定することを支援する。
- モザイク拡張:4枚の訓練画像を1枚に統合する先駆的なデータ拡張技術であり、モデルが異なるスケールや文脈におけるdetect 効果的に学習することを可能にする。
- 自動アンカー:特定のデータセットに最適なアンカーボックスを自動計算し、カスタムデータの設定プロセスを簡素化します。
長所と短所
YOLOv5最大の強みは汎用性である。クラウドサーバーからラズベリーパイ、CoreMLまであらゆる環境で動作する。「bag-of-freebies」というトレーニング戦略により、複雑な設定なしに高い性能を確保する。COCO mAP YOLO新研究モデルよりCOCO 、実世界での信頼性、移植性、そして大規模なコミュニティサポートにより、依然として高い重要性を保っている。
パフォーマンスベンチマーク
以下の表は両モデルの性能を比較したものです。YOLO 集中mAP YOLO に対し、YOLOv5 速度とエクスポートの容易さのYOLOv5 留意してください。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
パフォーマンスコンテキスト
YOLO 同等のmAP 高いmAP YOLO 一方、実環境での推論速度は特定のレイヤー(RepVGGブロックなど)に対するハードウェアサポートに依存することが多く、正しく折り畳むには特定のエクスポート手順が必要となる場合があります。YOLOv5標準操作は、ほぼ全ての推論エンジンで普遍的に最適化されています。
ユースケースの推奨事項
これらの2つのアーキテクチャのどちらを選択するか決定する際には、導入環境の具体的な要件を考慮してください。
DAMO-YOLOの理想的なシナリオ
- 学術研究:NASの研究や、mAP 最後の0.1mAP 絞り出すことが目的であれば、YOLO革新的なアーキテクチャは実験の肥沃な土壌を提供します。
- GPU :メモリと演算能力の制約が緩く、複雑なベンチマークにおける精度が主要な指標となる領域。
Ultralytics YOLOvYOLOv5の理想的なシナリオ
- エッジデプロイメント: NVIDIA や Raspberry Pi などのデバイス向けに、YOLOv5シンプルなアーキテクチャはシームレスに TensorRT および TFLiteにエクスポートされます。
- ラピッドプロトタイピング:ゼロからヒーローへの体験により、カスタムデータセットでトレーニングを行い、数分で結果を確認できます。
- 生産システム:安定性が鍵です。YOLOv5 数百万件の実YOLOv5 、生産パイプラインにおける予期せぬ障害のリスクを低減します。
Ultralyticsの利点
YOLO 興味深い研究成果YOLO 一方で、Ultralytics は実世界のアプリケーションを構築する開発者にとって明確な利点を提供します。
1. 使いやすさとエコシステム
Ultralytics ワークフロー全体を統合します。エコシステムを離れることなく、データセットの管理、クラウド上でのモデルトレーニング、様々なエンドポイントへのデプロイが可能です。ドキュメントは充実しており、活発なコミュニティが存在するため、バグに長時間悩まされることはありません。
2. 検出を超えた汎用性
YOLO 主に物体YOLO 。一方、Ultralytics 、現代のAIアプリケーションに不可欠な幅広いタスクをサポートします:
- インスタンスセグメンテーション:オブジェクトのピクセル単位での精密なマスキング。
- 姿勢推定:人間や動物のキーポイント追跡
- オリエンテッド・バウンディング・ボックス(OBB):衛星画像における船舶などの回転した物体の検出。
- 画像分類:画像全体のカテゴリ分け。
3. メモリとリソース効率
Ultralytics YOLO 、効率的なメモリ使用で知られています。VRAMを大量に消費するトランスフォーマー中心のアーキテクチャや複雑な知識蒸留パイプラインとは異なり、YOLOv5 YOLO26のようなモデルは、RTX 3060などのコンシューマー向けGPUで訓練できることが多く、ハイエンドAIトレーニングへのアクセスを民主化しています。
4. 訓練効率
YOLO 、事前学習済み教師モデルを必要とする複雑な「蒸留」段階が伴うことが多い。Ultralytics 「フリービーの袋」アプローチを採用している。事前学習済み重みをロードし、データ構成を指定するだけで、最適化されたハイパーパラメータを用いたトレーニングが即座に開始される。
未来を見据えて:YOLO26
2026年に新規プロジェクトを始めるなら、上記のいずれでもないものが明らかに勝者だ。 YOLO26 は効率性の頂点を体現している。
- エンドツーエンドNMS:非最大抑制(NMS)を排除することで、YOLO26は展開ロジックを簡素化し、推論遅延のばらつきを低減します。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングに着想を得たこのオプティマイザーは、安定した収束と高速なトレーニング時間を保証します。
- エッジ最適化:ディストリビューション焦点損失(DFL)の削除と最適化されたブロックにより、YOLO26はCPU上で前世代比最大43%高速な推論を実現し、モバイルおよびIoTアプリケーションにおける優れた選択肢となっています。
コード例:Ultralyticsによる推論
Ultralytics シンプルさにより、モデル生成間の切り替えを容易に行えます。
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize and save the results
for result in results:
result.show() # Display to screen
result.save(filename="output.jpg") # Save image to disk
結論
YOLOv5 YOLO 物体検出の歴史において重要な役割YOLOv5 。YOLO ニューラルアーキテクチャ探索の可能性YOLO 、YOLOv5 使いやすさと導入の標準をYOLOv5 。しかし、この分野は急速に進化しています。速度、精度、開発者体験の最適なバランスを求める方にとって、Ultralytics 現代のコンピュータビジョンアプリケーションにおける決定的な選択肢です。
さらなる調査のため、YOLO11 EfficientDet、またはRT-DETR YOLOv8RT-DETR 他のアーキテクチャとの比較を検討してください。