コンテンツにスキップ

YOLOv6.0 vs.YOLOv10:リアルタイム物体検出アーキテクチャの比較

コンピュータビジョンの領域はますます複雑化しており、最適なモデルの選択は開発者や機械学習エンジニアにとって極めて重要な判断となっています。物体検出技術のUltralytics YOLO 評価する際には、異なるアーキテクチャアプローチ間のトレードオフを理解することが重要です。本ガイドでは、産業用およびエッジデプロイメント向けにそれぞれ明確な利点を持つ2つのモデル、YOLOv6.YOLOv10包括的な技術比較を提供します。

YOLOv6.0の解明:産業用スループット向けに構築

サーバーサイド産業アプリケーションにおけるスループット最大化を目的に開発されたYOLOv6、ハードウェアアクセラレータ(特にGPU)上での高速推論を優先する。最適化されたバックボーンを活用することで、高速動画処理と競争力のある精度とのバランスを実現することを目指す。

著者: Chuyi Li, Lulu Li, Yifei Geng, et al.
組織:Meituan
日付: 2023-01-13
Arxiv:2301.05586
GitHub:YOLOv6

アーキテクチャのハイライト

YOLOv6の中核は、ハードウェアに優しい設計にある。ネック構造内に双方向連結(BiC)モジュールを組み込み、マルチスケール特徴融合を強化している。さらに、アンカー支援学習(AAT)戦略を採用し、学習時のアンカーベース検出器の安定性と、アンカーフリー手法の推論速度を巧みに融合させている。

EfficientRepバックボーンを搭載したこのモデルは、強力なNVIDIA (T4やA100 GPUなど)でのバッチ処理が標準となる重工業の自動化タスクにおいて真価を発揮します。サーバークラスターでは優れた性能を発揮しますが、特定のハードウェア最適化に依存しているため、低電力のエッジCPUでは効率が低下する可能性があります。

YOLOv6について詳しくはこちら

YOLOv10解体:NMS先駆者

1年以上遅れて登場YOLOv10 、従来の検出パイプラインにおける最も根強いボトルネックの一つである非最大抑制(NMS)後処理に対処することで、パラダイムYOLOv10 。

著者: Ao Wang, Hui Chen, Lihao Liu, et al.
所属機関:清華大学
日付: 2024-05-23
Arxiv:2405.14458
GitHub:THU-MIG/yolov10

アーキテクチャのハイライト

YOLOv10主な貢献は、エンドツーエンドNMS設計である。学習時における一貫した二重アサインメントを活用することで、ネットワークは各オブジェクトに対して高品質なバウンディングボックスを厳密に1つだけ生成するよう強制され、推論時のNMS が不要となる。 この革新によりエンドツーエンド推論の遅延が大幅に低減され、ニューラルプロセッシングユニット(NPU)などのエッジデバイス上での展開ロジックが大幅に簡素化された。

さらに、本モデルは効率性と精度を追求した包括的な設計を特徴としています。各層の包括的な最適化により、YOLOv10 計算上の冗長性をYOLOv10 削減。これにより、自動運転車両やエッジロボティクスを含むリソース制約環境において極めて適しています。

YOLOv10について詳しくはこちら

詳細な性能比較

これらのモデルをベンチマークする際、性能は通常、精度、速度、パラメータ効率の観点から測定される。下表は、これらのアーキテクチャの異なるスケールにおける性能を比較したものである。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

分析

YOLOv10 、同等のサイズカテゴリにおいてYOLOv6.YOLOv6と比較してYOLOv10 優れた平均精度(mAP)を達成する。例えば、YOLOv10nはわずか230万mAP 39.mAP を達成する一方、YOLOv6.YOLOv62倍以上のパラメータ数を使用しながら37.5%のスコアに留まる。 ただし、YOLOv6.YOLOv6T4GPU 純粋なTensorRT レイテンシがわずかに高速GPU 1.17ms)であり、並列処理ハードウェア向けの深い最適化が示されている。

デプロイメントに関する考慮事項

GPU 生レイテンシ指標YOLOv6 わずかに優位となるGPU 、YOLOv10 NMS特性は、特に後処理がCPUボトルネックとなるエッジハードウェアにおいて、実世界のエンドツーエンドパイプライン速度をしばしば高速化する。

ユースケースと推奨事項

YOLOv10 YOLOv6 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステム上の好みにYOLOv10 。

YOLOv6を選択すべき時

YOLOv6 以下に最適YOLOv6 :

  • 産業用ハードウェア対応デプロイメント:モデルのハードウェア対応設計と効率的な再パラメータ化により、特定のターゲットハードウェア上で最適化されたパフォーマンスを提供するシナリオ。
  • 高速シングルステージ検出:制御された環境におけるリアルタイム動画処理GPU 上での生の推論速度を優先するアプリケーション。
  • 美団エコシステム統合: 美団のテクノロジースタックおよびデプロイメントインフラストラクチャ内で既に稼働しているチーム。

YOLOv10を選択すべき時

YOLOv10 以下に推奨YOLOv10 :

  • NMSリアルタイム検出:ノンマキシマム抑制なしのエンドツーエンド検出により、導入の複雑さを軽減するアプリケーション。
  • 速度と精度のバランスの取れたトレードオフ:様々なモデル規模において、推論速度と検出精度との強力なバランスを必要とするプロジェクト。
  • 一貫したレイテンシを必要とするアプリケーション:予測可能な推論時間が極めて重要な展開シナリオ(例:ロボティクスや自律システム)。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:

  • NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
  • CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
  • 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。

Ultralytics :YOLO26が優れた選択肢である理由

YOLOv6.YOLOv10 堅牢なベースラインアーキテクチャYOLOv10 ものの、現代の生産環境では最高精度と卓越した実用性を兼ね備えたモデルが求められている。この点において、Ultralytics フレームワークは、単独の学術リリースを根本的に凌駕する性能を発揮する。

2026年1月にリリースされたYOLO26は、過去数年間の優れた革新技術を統合し、入念に維持されたエコシステムに包み込んでいます。

YOLO26の主要なイノベーション

  • エンドツーエンドNMS設計: YOLOv10先駆的に導入された概念を基盤とし、YOLOv26NMS ネイティブに排除。これにより推論時間がより滑らかで予測可能となり、本番環境への展開が劇的に容易になります。
  • MuSGDオプティマイザー:Moonshot AIのKimi K2のような大規模言語モデルの最適化手法に着想を得た、SGD ミューオンのハイブリッド手法。驚異的な安定性を備えた学習と劇的に高速な収束を実現します。
  • 最大43%高速CPU :エッジデバイス向けに、YOLO26は特定のアーキテクチャ簡略化を施しており、IoTチップや民生用CPUへの展開において圧倒的に優れた性能を発揮します。
  • DFL除去:ディストリビューション焦点損失(DFL)の除去により、ヘッドエクスポートが簡素化され、低電力デプロイメントエンジン(例:OpenVINO)との互換性が大幅に向上します。 OpenVINO やNCNN などの低電力デプロイメントエンジンとの互換性を大幅に改善します。
  • ProgLoss + STAL:高度な損失関数により、小型物体認識の精度が顕著に向上する。これはドローンUAV運用や遠距離対象追跡において極めて重要である。

さらに、単一タスク向けリポジトリとは異なり、Ultralytics は、バウンディングボックス検出、インスタンスセグメンテーション画像分類姿勢推定など、膨大な種類のビジョンタスクを標準で処理します。

トレーニング効率とメモリ最適化

Ultralytics YOLO がRT-DETRのような複雑なトランスフォーマーベースのアーキテクチャに対して持つ決定的な利点は、トレーニング時のCUDA 量が極めて低い点である。開発者はコンシューマー向けGPU 無料のクラウドリソースでYOLO26を快適に微調整でき、AI開発の民主化を大きく推進している。

コード例: YOLO26の始め方

Python 提供する使いやすさにより、わずか数行のコードでモデルの読み込み、トレーニング、テストが可能です。

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Evaluate model performance on validation data
metrics = model.val()

# Run real-time NMS-free inference on a target image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for cross-platform deployment
model.export(format="onnx")

YOLO26についてさらに詳しく

結論と代替案

YOLOv6.YOLOv10選択は、デプロイ環境によって決まります。YOLOv6.YOLOv6、ビデオバッチ処理を重視した高スループットGPUサーバーバックエンドにおいて有効です。一方、YOLOv10 NMSスマートなアーキテクチャYOLOv10 、精度と複雑なエッジ統合のバランスに優れています。

ただし、包括的なドキュメントによる妥協のないパフォーマンス、Ultralytics 経由のクラウドロギング、マルチタスク対応の汎用性を求める開発者には、YOLO26が絶対的な推奨選択肢です

レガシーインフラストラクチャの要件については、チームは前世代の Ultralytics YOLO11を検討したり、独自のYOLO探索したりすることも可能です。


コメント