YOLOv7 YOLOv10:リアルタイム物体検出の進化
コンピュータビジョン分野では過去数年間で目覚ましい進歩が見られ、リアルタイム物体検出においてYOLO You Only Look Once)モデル群が主導的役割を果たしている。コンピュータビジョンプロジェクトに適したアーキテクチャを選択するには、利用可能な選択肢に対する深い理解が求められる。本包括的な技術比較では、二つの画期的なアーキテクチャ間の主要な相違点を探る: YOLOv7 と YOLOv10の主要な相違点を検証します。
モデルの紹介
これらのモデルは両方とも人工知能の歴史において重要なマイルストーンとなりますが、物体検出の課題を解決するために根本的に異なるアプローチをとっています。
YOLOv7:フリービーの袋の先駆者
2022年7月6日、中央研究院情報科学研究所の研究者である王千耀(Chien-Yao Wang)、アレクセイ・ボチコフスキー(Alexey Bochkovskiy)、廖宏源(Hong-Yuan Mark Liao)によって発表YOLOv7 、ニューラルネットワークの最適化手法にパラダイムシフトYOLOv7 学術論文で詳述され公式GitHubリポジトリで公開された本研究は、アーキテクチャの再パラメータ化と学習可能な「フリービーの袋」に重点を置いている。
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)YOLOv7 、元の勾配経路を損なうことなく多様な特徴を学習するようネットワークを導く。これにより、学術研究ベンチマークや標準的なハイエンドGPUに大きく依存するシステムにおいて堅牢な選択肢となる。
YOLOv10: リアルタイムエンドツーエンドdetect
清華大学のAo Wang氏とそのチームによって開発されたYOLOv10は、2024年5月23日にリリースされました。そのarxiv論文および清華大学のGitHubリポジトリで詳述されているように、このモデルは、物体検出における長年のボトルネックであったNon-Maximum Suppression (NMS) を排除します。
YOLOv10 NMSトレーニングに向けた一貫した二重アサインメントYOLOv10 、後処理パイプラインを根本的に変革した。効率性と精度を統合的に追求するモデル設計戦略を採用することで、YOLOv10 計算上の冗長性をYOLOv10 。これにより、極低遅延が求められるエッジデバイス向けに独自に最適化されたアーキテクチャを実現している。
NMS
YOLOv10 非最大抑制(NMS)の除去により、モデル全体を単一の計算グラフとしてエクスポートYOLOv10 。これにより、TensorRTなどのランタイムを用いたデプロイが大幅に簡素化される。 TensorRT や OpenVINOなどのランタイムを使用したデプロイを大幅に簡素化します。
パフォーマンスとメトリクスの比較
モデル性能を分析する際には、精度、速度、計算負荷の間のトレードオフを評価することが極めて重要です。以下の表は、これらのモデルの異なるサイズが互いにどのように比較されるかを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
トレードオフの分析
上記の指標は世代間の顕著な差を明らかにしている。YOLOv7xは非常に高いmAPval53.1%を達成する一方で、7130万のパラメータと1899億FLOPsを必要とする。 一方、YOLOv10lは同精度(53.3%mAP)を上回りながら、パラメータ数は半分以下(2950万)、FLOPsも大幅に少ない(1203億)という特徴を持つ。さらに高度に最適化されたYOLOv10nは驚異的な推論速度1.56msを実現し、リアルタイム動画解析やモバイルアプリケーションに最適である。
実際のユースケース
これらのモデルのアーキテクチャ上の差異が、それぞれの最適な使用ケースを決定づける。
YOLOv7を活用すべきタイミング
豊富な特徴表現により、YOLOv7は非常に複雑な環境で優れた性能を発揮します。密集した都市部での交通流監視、衛星画像の分析、重工業における製造自動化での欠陥特定といったユースケースは、その堅牢な構造的再パラメータ化の恩恵を受けます。さらに、特定のPyTorch 1.12パイプラインに深く統合されているレガシー環境でも高く評価されています。
YOLOv10を活用すべきタイミング
NMS軽量設計YOLOv10 、制約のある環境でYOLOv10 。NVIDIA NanoやRaspberry Piなどのエッジコンピューティングデバイスに強く推奨されます。低遅延性能により、スポーツ分析、自律ドローン航法、コンベアベルト上の高速ロボット選別といった高速処理を要するアプリケーションに最適です。
Ultralyticsエコシステムの利点
両モデルとも学術的基盤が堅固ですが、真の潜在能力は統合されたUltralytics 内で活用されることで解き放たれます。コンピュータビジョンモデルを一から開発することは非常に困難ですが、Ultralytics は機械学習エンジニアに比類のない体験を提供します。
- 使いやすさ: Ultralytics Python APIは統一されたインターフェースを提供します。わずか数行のコードでモデルをトレーニング、検証、エクスポートでき、一般的な学術リポジトリに関連する複雑な依存関係の悪夢を回避できます。
- よく整備されたエコシステム: Ultralyticsは、基盤となるコードが活発に開発されていることを保証します。ユーザーは、ロギング用のWeights & Biasesや、高速なウェブデモ用のHugging Faceといった人気のあるMLツールとのシームレスな統合から恩恵を受けられます。
- メモリ要件: Transformerベースの物体検出器は、トレーニング中に大量のCUDAメモリを消費することがよくあります。対照的に、Ultralytics YOLOモデルははるかに少ないメモリしか必要とせず、コンシューマーグレードのハードウェアでより大きなバッチサイズを可能にします。
- 多様性: Ultralyticsパイプラインは標準的なバウンディングボックスに限定されません。YOLO11やYOLOv8のようなサポートされているモデルファミリー全体で、姿勢推定、インスタンスセグメンテーション、そしてoriented bounding boxesをシームレスにサポートします。
効率化されたトレーニングの例
Ultralytics トレーニングパイプラインの実行は驚くほどUltralytics 。YOLOv7 データに対する堅牢性を活用する場合でもYOLOv7 YOLOv10 NMS高速性をYOLOv7 、構文は一貫しています:
from ultralytics import YOLO
# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to an edge-friendly format like ONNX
model.export(format="onnx")
ユースケースと推奨事項
YOLOv7とYOLOv10のどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。
YOLOv7を選択すべき時
YOLOv7 以下の用途に最適な選択肢YOLOv7 :
- Academic Benchmarking: 2022年時代の最先端の結果を再現したり、E-ELANと学習可能なbag-of-freebies技術の効果を研究する場合に。
- 再パラメータ化研究: 計画された再パラメータ化畳み込みと複合モデルスケーリング戦略の調査。
- 既存のカスタムパイプライン: YOLOv7の特定のアーキテクチャを中心に構築され、容易にリファクタリングできない大幅にカスタマイズされたパイプラインを持つプロジェクト。
YOLOv10を選択すべき時
YOLOv10 以下に推奨YOLOv10 :
- NMSフリーのリアルタイムdetect: Non-Maximum Suppressionなしのエンドツーエンドのdetectから恩恵を受け、デプロイの複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ: さまざまなモデルスケールにおいて、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシが求められるアプリケーション: ロボット工学や自律システムなど、予測可能な推論時間が重要となるデプロイメントシナリオ。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
未来:YOLO26のご紹介
YOLOv7 YOLOv10 画期的な成果YOLOv10 、AIの最先端技術は常に進化を続けています。2026年1月にリリースUltralytics 、あらゆるエッジおよびクラウド展開シナリオにおいて、効率性と精度の面で疑いようのない新たな基準を確立しました。
今日新たにコンピュータビジョンプロジェクトを始めるなら、YOLO26が推奨されるアーキテクチャです。これは前世代の遺産を基盤としつつ、いくつかの画期的な革新を取り入れています:
- エンドツーエンドのNMSフリー設計: YOLOv10から着想を得て、YOLO26はネイティブにNMS後処理を排除し、超低遅延の推論を確保することで、決定論的なリアルタイムロボティクスを実現します。
- CPU推論が最大43%高速化: Distribution Focal Loss (DFL)モジュールを戦略的に削除することで、YOLO26はGPU非搭載のエッジコンピューティングハードウェア上での実行を劇的に高速化し、IoTデバイスにとって強力なソリューションとなります。
- MuSGDオプティマイザ: 最近の大規模言語モデルトレーニングの革新に着想を得て、YOLO26はSGDとMuonのハイブリッドを組み込み、トレーニング経路を安定させ、より速い収束を保証します。
- ProgLoss + STAL: これらの高度な損失関数は、小さなオブジェクトの認識において著しい改善をもたらし、以前のYOLO世代における歴史的な弱点を克服します。
- 比類ない汎用性: YOLO26は、姿勢trackのためのResidual Log-Likelihood Estimation (RLE) や、航空画像における正確なobb detectのための特殊な角度損失など、ネイティブでタスク固有の最適化を特徴としています。
速度、精度、展開の簡素さの究極のバランスを求めるエンジニアにとって、レガシーモデルからYOLO26への移行は、即座に測定可能な競争優位性をもたらします。