YOLO YOLOv6.0:リアルタイム物体検出における技術対決
リアルタイム物体検出の分野は急速な技術革新が特徴であり、アーキテクチャの効率性と推論速度が最優先事項である。この領域における二大有力候補は、アリババグループが開発したYOLO、美団(Meituan)の堅牢なフレームワークYOLOv6.YOLOv6。両モデルとも遅延と精度の最適なバランスを追求しているが、これを達成する手法はそれぞれ異なる。
この包括的なガイドでは、両アーキテクチャの技術的なニュアンスを詳細に分析し、開発者や研究者がコンピュータビジョンアプリケーションに最適なツールを選択するために必要な知見を提供します。エッジデバイス向けか、高スループットのクラウドサーバー向けかを問わず、これらの違いを理解することは極めて重要です。
性能ベンチマーク
以下の表はCOCO 性能指標を示しています。YOLOv6.YOLOv6 TensorRT設計によりGPU 上で一般的に優れたスループットを提供し、YOLO高いパラメータ効率を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
DAMO-YOLO: ニューラルアーキテクチャ探索と効率性の融合
YOLO、ニューラルアーキテクチャ検索(NAS)をバックボーン設計に直接統合する新たな手法を導入する。アリババグループが開発した本手法は、厳しい遅延制約下での性能最大化に焦点を当てている。
主要なアーキテクチャ機能
- MAE-NASバックボーン:マルチブランチ自動符号化器ニューラルアーキテクチャ探索(MAE-NAS)を用いて最適なネットワーク構造を発見する。これにより、CSPDarknetなどの手作業で設計されたバックボーンよりも効率的に特徴を抽出するバックボーンが得られる。
- 効率的なRepGFPN:本モデルは標準的な特徴ピラミッドネットワーク(FPN)を再パラメータ化汎用FPN(RepGFPN)で置き換える。これにより、複雑な分岐がデプロイ時に単一パスへ統合されるため、推論速度を維持しつつ異なるスケール間での特徴融合が向上する。
- ZeroHead:計算コストをさらに削減するため、YOLO 軽量な「ZeroHead」YOLO 。これは検出ヘッドの設計を簡素化しつつ、精度を大幅に損なうことなく実現している。
- AlignedOTA:トレーニングプロセスでは、Aligned One-to-Many(AlignedOTA)ラベル割り当てを採用しています。これは動的にラベルを割り当てることで収束速度を向上させ、混雑したシーンにおける曖昧性を処理します。
YOLO :
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
所属組織:Alibaba Group
日付: 2022-11-23
Arxiv|GitHub|Docs
YOLOv6.0: GPUの産業標準
YOLOv6.YOLOv6、フレームワークの「全面的な再構築」と称されることが多く、特に産業用途向けに設計されています。このバージョンでは、GPU TensorRT を介したGPU推論が標準となる産業用途向けに特別に設計されています。
主要なアーキテクチャ機能
- 双方向融合(BiFusion): YOLOv6.YOLOv6BiFusionによりネック部を強化し、異なる特徴レベル間での意味情報の流れを改善する。
- アンカー補助トレーニング(AAT): 純粋なアンカーフリー検出器とは異なり、YOLOv6.0はトレーニング中に補助的なアンカーベースの分岐を導入する。これにより学習プロセスが安定し再現率が向上する一方、推論は速度維持のためアンカーフリーのままとなる。
- RepOptimizer:このモデルは、アーキテクチャ(RepVGGブロック)だけでなく最適化プロセス自体においても再パラメータ化技術を活用し、特定の再パラメータ化された構造に対して勾配降下ステップがより効果的であることを保証します。
- 量子化対応トレーニング(QAT):主な強みはQATのネイティブサポートであり、エッジGPUへのデプロイのためにINT8精度に圧縮された場合でも、モデルが高い精度を維持できる点である。
YOLOv6 詳細:
著者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu
組織:Meituan
日付: 2023-01-13
Arxiv|GitHub|Docs
Ultralytics :なぜ最新のYOLO を選ぶべきか?
YOLO YOLOv6YOLO .YOLO それぞれ異なる強みを提供しますが、 Ultralytics エコシステムは、現代のAI開発における幅広いニーズに対応する統合ソリューションを提供します。Ultralytics を選択することで、単なるアーキテクチャだけでなく、完全かつサポートされたワークフローを手に入れることができます。
1. 比類なき使いやすさ
Ultralytics 開発者体験(「ゼロからヒーローへ」)Ultralytics 。データ拡張、ハイパーパラメータ調整、モデルエクスポートといった複雑なプロセスは、Python 背後で抽象化されています。
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)
2. タスク全体にわたる多様性
YOLO YOLOv6主に境界ボックス検出に焦点を当てているのとは異なり、Ultralytics 本質的にマルチモーダルです。単一のコードベースで以下をサポートします:
- 物体検出:物体とその位置の特定。
- インスタンスセグメンテーション:物体の正確なピクセル境界を定義すること。
- 姿勢推定:人間や動物の追跡のためのキーポイント検出。
- 分類:画像へのグローバルラベルの付与
- オリエンテッド・バウンディング・ボックス(OBB):回転した物体の検出。航空写真や文字検出において極めて重要。
3. トレーニング効率とメモリ使用量
Ultralytics 、トレーニング中のVRAM使用量を最小化するよう最適化されています。この効率性により、研究者や愛好家はコンシューマー向けGPU上で最先端モデルをトレーニングでき、メモリを大量に消費するTransformerハイブリッドモデル(例: RT-DETRといったメモリを大量に消費するトランスフォーマーハイブリッドモデルに対して、大きな利点となります。
4. 健全に維持された生態系
Ultralytics 、コンピュータビジョンコミュニティで最も活発なリポジトリの一つです。頻繁な更新により、最新のバージョンとの互換性が確保されています。 PyTorch、CUDA、Pythonの最新バージョンとの互換性を保証し、静的な研究リポジトリでよく見られる「コードの劣化」を防いでいます。
ビジョンAIの未来:YOLO26
開発者が求める究極の性能と導入の容易さUltralytics 、次世代のビジョンAIを体現しています。
YOLO26にアップグレードする理由
YOLO26は、デプロイを簡素化しながら速度と精度を向上させる最先端の機能を統合しています:
- エンドツーエンドNMS: 非最大抑制(NMS)の後処理を排除し、CoreMLへのエクスポートを効率化 CoreML および TFLiteへのエクスポートを効率化します。
- CPU :前世代比で最大43%高速CPU を実現し、高性能GPUを欠くエッジデバイスでもリアルタイム性能を発揮します。
- MuSGDオプティマイザ:LLMトレーニングの革新技術(Moonshot AIのKimi K2に着想を得た)を活用したハイブリッドオプティマイザ。収束速度と安定性の向上を実現。
- 強化された小物体検出: 新しい
ProgLossおよびSTAL損失関数は、小型で検出困難な目標の検知能力を大幅に改善し、これは ドローンの応用.
ユースケースの推奨事項
これらのアーキテクチャを選択する際には、具体的なデプロイ環境を考慮してください:
YOLOYYOLOに最適
- 研究開発:ニューラルアーキテクチャサーチ(NAS)がビジョンバックボーンに与える影響を研究するのに最適です。
- カスタムハードウェア:特定のNPUにおいて、RepGFPN設計に有利な構造上の利点を提供する可能性がある。
- 低遅延要件:ZeroHead設計は、厳密な時間制約環境においてミリ秒単位の短縮を実現します。
YOLOv6-3.0 に最適
- GPU :TensorRT の最適化に重点を置いているため、NVIDIA およびA100カード上で圧倒的な性能を発揮します。
- 量子化要件:INT8デプロイメント向けに量子化対応トレーニング(QAT)を多用するパイプラインの場合、YOLOv6 ネイティブYOLOv6 。
- ハイスループット分析:バッチ処理のスループットが重要な、複数のビデオストリームを同時に処理するといったシナリオ。
Ultralytics YOLO11 YOLO26)に最適
- 汎用デプロイメント:ONNX、OpenVINO、TensorRT、CoreML、TFLite エクスポートTFLite 単一TFLite 実現し、あらゆる基盤をカバーします。
- モバイル&エッジCPU:YOLO26の特化したCPU とNMS設計により、iOS、Android、Raspberry Piへの展開において優れた選択肢となります。
- 複雑なタスク:プロジェクトが単なるボックス(境界ボックス)だけでなく、セグメンテーションマスクや姿勢キーポイントなどを必要とする場合、Ultralytics 唯一、それらを実現する統合Ultralytics 。
- ラピッドプロトタイピング: Ultralytics は、複雑なインフラ管理を必要とせずに、データセットの管理、トレーニング、デプロイを迅速に行うことを可能にします。
結論
YOLO とYOLOv6、いずれもコンピュータビジョン分野における画期的な貢献である。YOLO 自動アーキテクチャ探索の限界をYOLO 、YOLOv6 GPUの技術をYOLOv6 。
しかし、現実世界のアプリケーションの大半においては、Ultralytics YOLO よりバランスの取れた、汎用性が高く、保守性に優れたソリューションを提供します。YOLO26のリリースにより、その差はさらに拡大し、競合モデルが未だ追いつけていないエンドツーエンドの効率性とCPU を実現しています。初めてのAI製品を開発するスタートアップ企業であれ、数百万のユーザーへスケールする大企業であれ、Ultralytics 安定性とパフォーマンスは成功の確固たる基盤を提供します。
参考資料
Ultralytics で、その他の最先端モデルやツールを探索してください:
- YOLOv8 - 安定性で知られる古典的な最先端モデル。
- RT-DETR - 高精度タスク向けリアルタイム検出トランスフォーマー。
- YOLOv9 - プログラマブル勾配情報(PGI)を搭載。
- YOLOv10 -NMSトレーニングの先駆者。
- YOLO11 - 現行世代の強力な前身モデル。