コンテンツにスキップ

YOLOv5 .YOLO:物体検出技術の進化を技術的に深く掘り下げる

コンピュータビジョンが急速に進歩する世界において、適切な物体検出モデルを選択することはプロジェクトの成功に極めて重要です。本ガイドでは YOLOv5、AIの民主化を実現した伝説的なリポジトリ、そしてアリババTinyVisionチームによる研究志向のYOLO。両モデルとも高い効率性を目指していますが、アーキテクチャ、使いやすさ、導入準備の整い方に関して異なる哲学で問題に取り組んでいます。

モデルの概要と起源

YOLOv5

2020年半ばにリリースされた UltralyticsYOLOv5 、そのアーキテクチャだけでなくエンジニアリングの面でも業界標準YOLOv5 。使いやすさ、堅牢なトレーニングパイプライン、シームレスなエクスポート性を重視した設計で、現在も世界で最も広く導入されているビジョンAIモデルの一つです。

YOLOv5について詳しくはこちら

DAMO-YOLO

2022年末にアリババグループが提案YOLO Distillation-Augmented MOdel)YOLO 、ニューラルアーキテクチャ検索(NAS)、効率的な再パラメータ化汎用FPN(RepGFPN)、そして性能向上のための蒸留技術の積極的活用といった最先端技術を統合している。

技術アーキテクチャの比較

これら二つのモデルのアーキテクチャ上の差異は、ヒューリスティックな「フリービーの寄せ集め」設計から、自動化された探索ベースのアーキテクチャへの移行を浮き彫りにしている。

YOLOv5: CSP-Darknet標準

YOLOv5 修正CSP-Darknet53バックボーンを YOLOv5 、これに経路集約ネットワーク(PANet)ネックを接続したYOLOv5 。その主な強みはモジュール設計と、モザイク拡張や遺伝的アルゴリズムによるハイパーパラメータ進化といった「フリービーの袋」と呼ばれる訓練時の手法にある。

  • バックボーン:CSP-ダークネット
  • ネック:PANetとCSPブロック
  • ヘッド:YOLOv3スタイルのアンカーベース結合ヘッド

YOLO: NASとディスティレーション

YOLO 、ニューラルアーキテクチャ検索(NAS)を用いて最適なバックボーン構造(MAE-NAS)を発見することで、標準的な手動設計からYOLO 。

  • バックボーン:MAE-NAS(検索ベース)
  • 首部:RepGFPN(再パラメータ化汎用FPN)による効率的な特徴融合を実現。
  • ヘッド:ゼロヘッド(デュアルタスク投影層)とAlignedOTAを組み合わせたラベル割り当て手法。
  • 蒸留:より大規模な「教師」モデルが小規模な「生徒」モデルの学習を導く中核的な手法であり、学習パイプラインに複雑さを加える一方で最終的な精度を向上させる。

蒸留の複雑性

蒸留YOLO精度を向上させる一方で、YOLOv5トレーニングワークフローを大幅に複雑化する。ユーザーはしばしば教師モデルを事前にトレーニングまたはダウンロードする必要があり、カスタムデータセットへの参入障壁を高めている。

パフォーマンス指標

以下の表は、COCO データセットにおける各種モデルスケールの性能を比較したものです。YOLO 学術的指標で優れた結果YOLO 、YOLOv5 スループットとデプロイの汎用性においてYOLOv5 競争力をYOLOv5 。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

結果の分析

  • 効率性:YOLOv5n(Nano)は軽量推論の王者であり続け、YOLOと比較してパラメータ数(260万対850万)とFLOPsが大幅に少なく、標準的なCPU上での極端なエッジケースにはるかに適している。
  • 精度:YOLO 蒸留パイプラインYOLO 、より高い精度を引き出す mAP を実現しています。
  • 推論速度: YOLOv5 、標準ライブラリで高度に最適化されたシンプルなアーキテクチャブロックを採用しているため、ONNX 経由でYOLOv5 高速なCPU を実現します。

トレーニングとユーザビリティ

これが開発者にとっての主な差別化要因です。Ultralytics 「ゼロからヒーローへ」の体験を優先しますが、研究リポジトリでは多くの場合、広範な設定が必要となります。

YOLOv5: 効率化された体験

YOLOv5 ユーザーフレンドリーなコマンドラインインターフェースとPython YOLOv5 、業界標準となった。カスタムデータセットでのトレーニングは最小限の設定で実行可能である。

import torch

# Load a model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Train via CLI (simplified)
# !python train.py --data coco.yaml --epochs 100 --weights yolov5s.pt

YOLO:研究の複雑性

YOLO 、より複雑な設定システムが伴います。蒸留スケジュールの依存性により、ユーザーはトレーニング段階で2つのモデル(教師モデルと生徒モデル)を管理する必要が生じることが多く、これによりGPUメモリ要件と設定オーバーヘッドが増加します。

Ultralytics :エコシステムと汎用性

YOLO 強力な純粋な物体検出器YOLO 、Ultralytics 現代のAIプロジェクトに必要なより広範な機能群を提供します。

  1. 汎用性:単純なバウンディングボックスを超え、Ultralytics インスタンスセグメンテーション姿勢推定分類およびオリエンテッドバウンディングボックス(OBB)検出Ultralytics 。YOLO 主に標準的な検出に焦点をYOLO
  2. デプロイメント: Ultralytics シームレスに以下の形式へエクスポートされます TensorRT、CoreML、TFLite、OpenVINO 単一OpenVINO シームレスにエクスポートされます。
  3. コミュニティサポート:数百万のユーザーを擁するUltralytics は、研究リポジトリでは提供できない豊富なリソース、チュートリアル、サードパーティ統合を提供します。

次世代:YOLO26

NASベースモデルの効率性に感銘YOLOv5やすさを求める開発者には、YOLO26が推奨される後継モデルです。2026年にリリースされたこのモデルは、両方の長所を兼ね備えています。

  • エンドツーエンドNMS:最近の学術的ブレイクスルーと同様に、YOLO26は非最大抑制(NMS)を排除し、デプロイメントパイプラインを簡素化します。
  • MuSGDオプティマイザ: LLMトレーニングから着想を得たこのハイブリッドオプティマイザは、安定した収束を保証します。
  • エッジ最適化:YOLO26はCPU上で最大43%高速化され、YOLOv5 YOLOよりも優れたエッジコンピューティングの選択肢となっています。

YOLO26についてさらに詳しく

結論

YOLO、ニューラルアーキテクチャ探索と蒸留の威力を実証する、コンピュータビジョン研究分野への優れた貢献である。高度なアーキテクチャ探索手法の研究や、トレーニングの複雑さがボトルネックとならない特定のハードウェア制約下で最大限の精度を引き出したい研究者にとって有力な選択肢となる。

YOLOv5、そしてその後継となるYOLO26は、事実上すべての本番環境での導入において依然として最適な選択肢です。低メモリ使用量、幅広いタスクサポート(セグメンテーション、ポーズ、OBB)、そして堅牢なUltralytics 組み合わせにより、プロジェクトは最小限の摩擦でプロトタイプから本番環境へと移行できます。

性能と機能において絶対的な最新性を求める方には、YOLO26の検討を強く推奨します。研究者が求めるエンドツーエンドの効率性と、Ultralytics 使いやすさを兼ね備えています。

参考資料

  • 最新のYOLO26ドキュメントをご覧ください。
  • YOLOv5 リポジトリをチェックしてみてください。
  • リアルタイム物体検出の基礎について学ぶ。
  • 他のモデルと比較する RT-DETR などの変圧器ベースのソリューションと比較してください。

コメント