YOLOv9 YOLOv6.0の比較:詳細な技術比較
理想的な物体検出アーキテクチャを選択することは、ロバストなコンピュータビジョンソリューションを開発する上で極めて重要なステップです。多くの場合、その決定には、精度、推論速度、および計算リソース消費量の間の複雑なトレードオフをナビゲートする必要があります。このガイドでは YOLOv9とYOLOv6.0との包括的な技術比較を提供します。それぞれのアーキテクチャーの革新性、性能指標、理想的な導入シナリオを分析し、十分な情報に基づいた選択ができるよう支援します。
YOLOv9:精度と効率の再定義
2024年初頭に発表されたYOLOv9、リアルタイムの物体検出におけるパラダイムシフトを象徴する。ディープ・ニューラル・ネットワークにおける情報損失の根本的な問題に対処し、卓越した計算効率を維持しながら優れた精度を達成する。
著者Chien-Yao Wang and Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics
建築イノベーション
YOLOv9 核となる強みは、2つの画期的なコンセプトにある:プログラム可能な勾配情報(PGI)と一般化された効率的なレイヤー集約ネットワーク(GELAN)である。ネットワークが深くなるにつれて、フィードフォワードの過程で重要な特徴情報が失われることが多くなります。PGIは、ネットワークの重みを更新するために信頼性の高い勾配情報を確実に保存することで、この情報ボトルネックに対処する。同時に、GELANはパラメータ利用率を最大化するようにアーキテクチャを最適化するため、従来の設計と比較して、より少ないパラメータとFLOP数でより高い精度を達成することができる。
Ultralytics エコシステム内で利用する場合、YOLOv9 シームレスな開発体験を提供します。ユーザーフレンドリーなPython API、包括的なドキュメント、強固なサポートにより、研究者にも企業開発者にも利用しやすくなっている。
長所
- 優れた精度: YOLOv9 最先端を達成 mAPスコアを達成し、検出精度で常に先行製品を上回っています。
- 計算効率:GELANアーキテクチャーは、高精度モデルにありがちな多大な計算コストをかけることなく、トップクラスの性能を発揮することを保証し、エッジAIアプリケーションに適しています。
- 情報の保存:情報のボトルネックを軽減することで、PGIはモデルがより効果的な特徴を学習することを可能にし、その結果、複雑なシーンにおいてより信頼性の高い検出が可能になる。
- エコシステムの統合:ユーザーは、合理化されたトレーニング、検証、デプロイメントのパイプラインを含む、Ultralytics ツールの完全なスイートを利用できます。モデルはまた、多くのトランスフォーマーベースのアーキテクチャと比較して、トレーニング中のメモリ使用量が少なくなるように最適化されています。
- 汎用性:検出だけでなく、インスタンスセグメンテーションやパノプティックセグメンテーションなど、他のタスクへの拡張もサポートしている。
弱点
- 新規性:公式サポートは充実しているが、比較的新規参入であるため、コミュニティが作成したチュートリアルやサードパーティによる実装例の量はまだ拡大している。
理想的なユースケース
YOLOv9 精度が重要な場面で優れている:
- メディカルイメージング 腫瘍の検出など、細かなディテールの保存が不可欠なタスクのための高解像度解析。
- 自律走行:歩行者、車両、障害物の正確な識別を必要とする重要なADAS機能。
- 工業検査製造工程における微小な欠陥の発見が、コストのかかる故障につながる可能性があります。
YOLOv6.0:工業用スピードのために作られた
YOLOv6.0は、Meituanのビジョンチームによって開発されたYOLOv6 シリーズの第3弾である。2023年初頭にリリースされ、産業用アプリケーション、特にGPU ハードウェアでの推論速度を最大化することに主眼を置いて設計された。
著者Chuyi Li, Lulu Li, Yifei Geng, et al.
Organization:Meituan
Date:2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics
建築の特徴
YOLOv6.0は、ハードウェアを考慮したニューラルネットワーク設計を採用している。効率的なリパラメータ化バックボーン(RepBackbone)とハイブリッドブロックで構成されるネックを利用している。この構造は、GPUの並列計算能力を活用するために特別に調整されており、競争力のある精度を維持しながら、推論中に可能な限り低いレイテンシを実現することを目指しています。
長所
- 高い推論速度:このアーキテクチャはスループットのために大幅に最適化されており、GPU展開において最も高速なオプションの1つとなっている。
- スピードと精度のトレードオフ:高速の仕分けラインなど、ミリ秒単位が要求されるリアルタイム・システムにとって、説得力のあるバランスを提供します。
- 産業用フォーカス:このモデルは、製造業やオートメーション環境における実用的な課題に対処するために設計された。
弱点
- 低いピーク精度:高速ではあるが、ピーク精度ではYOLOv9 後塵を拝している。
- 限られたエコシステム:コミュニティとツールのエコシステムは、広く採用されているUltralytics フレームワークと比べると小さい。
- タスク特異性:主に物体検出に特化しており、新しいUltralytics モデルに見られるネイティブでマルチタスクな汎用性(ポーズ推定やOBBなど)がない。
理想的なユースケース
YOLOv6.0は高スループット環境に適している:
- リアルタイム監視: セキュリティアラームシステム用に複数のビデオストリームを同時に処理します。
- 生産ラインの仕分け:高速で移動するベルトコンベア上で対象物を迅速に分類し、位置を特定します。
パフォーマンス分析
以下の比較は、両モデルの性能指標を強調しています。YOLOv6.0は、その最小のバリエーションで印象的なスピードを提供する一方、YOLOv9 、同等の括りでより少ないパラメーターでより高い精度を実現し、優れた効率を示しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
重要なポイント
- 効率王: YOLOv9、わずか25.3Mのパラメータで53.0%のmAP 達成した。対照的に、YOLOv6.0lは52.8%という低いmAP 到達するために59.6Mのパラメーターを必要とする。これは、YOLOv9優れたアーキテクチャ設計を物語っている。
- ピーク・パフォーマンス: YOLOv9モデルは55.6%のmAP高い水準を設定し、この比較ではYOLOv6 シリーズが到達していないレベルの精度を提供している。
- スピードと精度: YOLOv6.0nは信じられないほど高速(1.17ms)であるため、精度の低下(37.5%mAP)を許容できる極端な低レイテンシ要求には有効な選択肢となる。しかし、汎用的な用途では、YOLOv9方が、大幅に少ないパラメーター(2.0M対4.7M)で、より良いバランス(2.3msで38.3%のmAP )を提供する。
メモリ効率
YOLOv9含むUltralytics YOLO モデルは、学習時のメモリ使用量が最適化されていることで有名です。大容量のGPU VRAMを必要とする重いトランスフォーマーベースのモデルとは異なり、これらのモデルは多くの場合、コンシューマーグレードのハードウェアで学習することができ、最先端のAI開発へのアクセスを民主化します。
トレーニングとユーザビリティ
ユーザーエクスペリエンスは2つのモデルで大きく異なります。Ultralytics エコシステムに完全に統合されたYOLOv9、合理化されたワークフローを提供します。開発者はシンプルなPython インターフェースを活用し、わずか数行のコードでモデルのトレーニング、検証、デプロイを行うことができます。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model.predict("image.jpg")
この統合により、自動ハイパーパラメータ・チューニング、TensorBoardによるリアルタイム・ロギング、または以下のような高度な機能へのアクセスが可能になります。 Weights & Biasesなどのフォーマットへのシームレスなエクスポートが可能です。 ONNXや TensorRT.
これとは対照的に、YOLOv6.0のトレーニングでは、特定のGitHubリポジトリとトレーニングスクリプトを操作する必要があり、Ultralytics ライブラリのプラグアンドプレイの性質に慣れている人にとっては、学習曲線がより険しくなる可能性があります。
結論
YOLOv6.0は、GPU ハードウェアに絶対的な低レイテンシを要求する特定の産業ニッチでは依然として有力な候補であるが、YOLOv9 、最新のコンピュータビジョンタスクのための優れたオールラウンドな選択肢として浮上している。
YOLOv9 、最先端の精度、卓越したパラメータ効率、そしてUltralytics エコシステムの膨大な利点を組み合わせて提供します。より軽量なモデルでより高い精度を達成する能力は、エッジ展開シナリオにおけるストレージコストの削減と伝送の高速化につながります。さらに、Ultralytics モデルに関連する使いやすさ、豊富なドキュメント、活発なコミュニティサポートは、開発ライフサイクルを大幅に加速し、チームが自信を持ってコンセプトから展開に移行できるようにします。
次世代のパフォーマンスを求める開発者には、次のようなものもお勧めする。 Ultralytics YOLO11この最新モデルは、ポーズ推定や 指向性オブジェクト検出を含む、さらに幅広いタスクに対して、これらの機能をさらに洗練させています。また、次のような変換器ベースのアプローチと比較することもできます。 RT-DETRのような変換器ベースのアプローチと比較することもできます。