コンテンツにスキップ

YOLOv7 YOLOv10:リアルタイム物体検出の進化

コンピュータビジョン分野では過去数年間で目覚ましい進歩が見られ、リアルタイム物体検出においてYOLO You Only Look Once)モデル群が主導的役割を果たしている。コンピュータビジョンプロジェクトに適したアーキテクチャを選択するには、利用可能な選択肢に対する深い理解が求められる。本包括的な技術比較では、二つの画期的なアーキテクチャ間の主要な相違点を探る: YOLOv7YOLOv10の主要な相違点を検証します。

モデルの紹介

これら両モデルは人工知能の歴史における重要なマイルストーンを体現しているが、物体検出の課題解決に向けては根本的に異なるアプローチを取っている。

YOLOv7:フリービーの袋の先駆者

2022年7月6日、中央研究院情報科学研究所の研究者である王千耀(Chien-Yao Wang)、アレクセイ・ボチコフスキー(Alexey Bochkovskiy)、廖宏源(Hong-Yuan Mark Liao)によって発表YOLOv7 、ニューラルネットワークの最適化手法にパラダイムシフトYOLOv7 学術論文で詳述され公式GitHubリポジトリで公開された本研究は、アーキテクチャの再パラメータ化と学習可能な「フリービーの袋」に重点を置いている。

YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)YOLOv7 、元の勾配経路を損なうことなく多様な特徴を学習するようネットワークを導く。これにより、学術研究ベンチマークや標準的なハイエンドGPUに大きく依存するシステムにおいて堅牢な選択肢となる。

YOLOv7について詳しくはこちら

YOLOv10: リアルタイムエンドツーエンドdetect

清華大学の王亜奥(Ao Wang)氏とそのチームによってYOLOv10 、2024年5月23日にYOLOv10 。arXiv論文および清華大学のGitHubリポジトリで詳述されている通り、このモデルは物体検出における長年のボトルネックであった非最大抑制(NMS)を解消するものである。

YOLOv10 NMSトレーニングに向けた一貫した二重アサインメントYOLOv10 、後処理パイプラインを根本的に変革した。効率性と精度を統合的に追求するモデル設計戦略を採用することで、YOLOv10 計算上の冗長性をYOLOv10 。これにより、極低遅延が求められるエッジデバイス向けに独自に最適化されたアーキテクチャを実現している。

YOLOv10について詳しくはこちら

NMS

YOLOv10 非最大抑制(NMS)の除去により、モデル全体を単一の計算グラフとしてエクスポートYOLOv10 。これにより、TensorRTなどのランタイムを用いたデプロイが大幅に簡素化される。 TensorRTOpenVINOなどのランタイムを使用したデプロイを大幅に簡素化します。

パフォーマンスとメトリクスの比較

モデル性能を分析する際には、精度、速度、計算負荷の間のトレードオフを評価することが極めて重要です。以下の表は、これらのモデルの異なるサイズが互いにどのように比較されるかを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

トレードオフの分析

上記の指標は世代間の顕著な差を明らかにしている。YOLOv7xは非常に高いmAPval53.1%を達成する一方で、7130万のパラメータと1899億FLOPsを必要とする。 一方、YOLOv10lは同精度(53.3%mAP)を上回りながら、パラメータ数は半分以下(2950万)、FLOPsも大幅に少ない(1203億)という特徴を持つ。さらに高度に最適化されたYOLOv10nは驚異的な推論速度1.56msを実現し、リアルタイム動画解析やモバイルアプリケーションに最適である。

実際のユースケース

これらのモデルのアーキテクチャ上の差異が、それぞれの最適な使用ケースを決定づける。

YOLOv7を活用すべきタイミング

豊富な特徴表現により、YOLOv7 高度に複雑な環境でYOLOv7 。密集した都市部での交通流監視、衛星画像の解析、重工業自動化における欠陥検出といったユースケースでは、その堅牢な構造再パラメータ化が効果を発揮します。また、PyTorch .12パイプラインと深く統合されたレガシー環境においても、広く採用されています。

YOLOv10を活用すべきタイミング

NMS軽量設計YOLOv10 、制約のある環境でYOLOv10 。NVIDIA NanoやRaspberry Piなどのエッジコンピューティングデバイスに強く推奨されます。低遅延性能により、スポーツ分析、自律ドローン航法、コンベアベルト上の高速ロボット選別といった高速処理を要するアプリケーションに最適です。

Ultralyticsエコシステムの利点

両モデルとも学術的基盤が堅固ですが、真の潜在能力は統合されたUltralytics 内で活用されることで解き放たれます。コンピュータビジョンモデルを一から開発することは非常に困難ですが、Ultralytics は機械学習エンジニアに比類のない体験を提供します。

  • 使いやすさ: Ultralytics Python 統一されたインターフェースを提供します。わずか数行のコードでモデルのトレーニング、検証、エクスポートが可能であり、学術リポジトリにありがちな複雑な依存関係の煩わしさを回避できます。
  • 健全に維持されたエコシステム: Ultralytics 基盤となるコードが積極的に開発されていることをUltralytics 。ユーザーは以下のような人気のある機械学習ツールとのシームレスな連携の恩恵を受けられます Weights & BiasesHugging Face による高速Webデモなど、主要なMLツールとのシームレスな連携を実現します。
  • メモリ要件:トランスフォーマーベースの物体検出器は、トレーニング中に膨大な量のCUDA 消費することが多い。これに対し、Ultralytics YOLO はるかに少ないメモリしか必要とせず、コンシューマー向けハードウェア上でもるはずに大きなバッチサイズを実現できる。
  • 汎用 : Ultralytics は標準的なバウンディングボックスに限定されません。サポート対象のモデルファミリー(例: YOLO11YOLOv8などのサポート対象モデルファミリーにおいて、姿勢推定、インスタンスセグメンテーション、方向付きバウンディングボックス

効率化されたトレーニングの例

Ultralytics トレーニングパイプラインの実行は驚くほどUltralytics 。YOLOv7 データに対する堅牢性を活用する場合でもYOLOv7 YOLOv10 NMS高速性をYOLOv7 、構文は一貫しています:

from ultralytics import YOLO

# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to an edge-friendly format like ONNX
model.export(format="onnx")

ユースケースと推奨事項

YOLOv10 YOLOv7 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選好YOLOv10 。

YOLOv7を選択すべき時

YOLOv7 以下の用途に最適な選択肢YOLOv7 :

  • 学術ベンチマーク:2022年当時の最先端結果の再現、またはE-ELANおよび学習可能なフリービー袋技法の効果の研究。
  • 再パラメータ化研究:計画的再パラメータ化畳み込みと複合モデルスケーリング戦略の検討
  • 既存のカスタムパイプライン: YOLOv7特定アーキテクチャを中心に構築された高度にカスタマイズされたパイプラインを持つプロジェクトで、容易にリファクタリングできないもの。

YOLOv10を選択すべき時

YOLOv10 以下に推奨YOLOv10 :

  • NMSリアルタイム検出:ノンマキシマム抑制なしのエンドツーエンド検出により、導入の複雑さを軽減するアプリケーション。
  • 速度と精度のバランスの取れたトレードオフ:様々なモデル規模において、推論速度と検出精度との強力なバランスを必要とするプロジェクト。
  • 一貫したレイテンシを必要とするアプリケーション:予測可能な推論時間が極めて重要な展開シナリオ(例:ロボティクスや自律システム)。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:

  • NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
  • CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
  • 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。

未来:YOLO26のご紹介

YOLOv7 YOLOv10 画期的な成果YOLOv10 、AIの最先端技術は常に進化を続けています。2026年1月にリリースUltralytics 、あらゆるエッジおよびクラウド展開シナリオにおいて、効率性と精度の面で疑いようのない新たな基準を確立しました。

今日新たにコンピュータビジョンプロジェクトを始めるなら、YOLO26が推奨されるアーキテクチャです。これは前世代の遺産を基盤としつつ、いくつかの画期的な革新を取り入れています:

  • エンドツーエンドNMS設計: YOLOv10に着想を得たYOLO26は、NMS 本質的に排除し、決定論的リアルタイムロボティクス向けに超低遅延推論を実現する。
  • 最大43%高速CPU :分布焦点損失(DFL)モジュールを戦略的に除去することで、YOLO26はGPU ハードウェア上での実行を劇的に高速化し、IoTデバイス向けの強力な推論エンジンを実現します。
  • MuSGDオプティマイザ:最近の大型言語モデル訓練技術革新に着想を得たYOLO26は、SGD ミューオンのハイブリッド手法を採用し、訓練経路を安定化させ、より速い収束を保証します。
  • ProgLoss + STAL:これらの先進的な損失関数は、小型物体認識において顕著な改善をもたらし、YOLO 歴史的な弱点を克服している。
  • 比類なき汎用性:YOLO26は、姿勢追跡のための残差対数尤度推定(RLE)や航空画像における精密なOBB検出のための専用角度損失など、タスク特化型のネイティブ最適化機能を備えています。

速度、精度、導入の簡便性の究極のバランスを求めるエンジニアにとって、従来モデルからYOLO26への移行は、即座に測定可能な競争優位性をもたらします。


コメント