DAMO-YOLO 対YOLOv10:物体検出の進化を深く掘り下げる
適切なオブジェクト検出モデルの選択は、導入コストからユーザーエクスペリエンスに至るまで、すべてに影響を与える極めて重要な決定である。この技術比較では、アリババ・グループの研究主導型モデルであるYOLO-YOLOと、YOLOv10の違いを探ります。 YOLOv10清華大学の研究者が開発し、Ultralytics エコシステムに統合された最新のリアルタイムエンドツーエンド検出器です。
どちらのモデルも速度と精度のトレードオフを最適化することを目的としていますが、アーキテクチャ戦略は大きく異なります。この分析では、コンピュータビジョンの複雑な状況をナビゲートするために、技術仕様、性能指標、理想的なユースケースを掘り下げています。
パフォーマンス指標
下の表は、COCO データセットの効率と精度を直接比較したものです。主なポイントは、パラメータ効率と推論速度です。 YOLOv10は、NMS設計により大きな優位性を示しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
DAMO-YOLO:研究主導型イノベーション
2022年後半にリリースされるYOLO -YOLOは、高度なニューラル・アーキテクチャーの探索と斬新な特徴フュージョン技術によってYOLO探知機の限界を押し広げるという、アリババ・グループによる重要な取り組みである。
技術詳細:
著者:Xianzhe Xu, Yiqi Jiang, Weihua Chen,et al:Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
組織:Alibaba Group
日付:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
アーキテクチャと主な機能
DAMO-YOLO 、その性能を実現するためにいくつかの最先端のコンセプトを統合している:
- ニューラル・アーキテクチャ・サーチ(NAS):手動でバックボーンを設計したモデルとは異なり、YOLO -YOLOはMAE-NASを利用して効率的なネットワーク構造を自動的に発見し、特定のハードウェア制約に合わせてネットワークの深さと幅を最適化します。
- RepGFPNネック:この特徴ピラミッドネットワークは、特徴融合を効率的に管理するために再パラメータ化を採用している。これにより、複雑な学習時間構造をより単純な推論時間ブロックに分解することができ、速度を向上させながら精度を維持することができる。
- ZeroHeadとAlignedOTA:このモデルは、検出ヘッドの複雑さを軽減するために「ZeroHead」設計を採用し、学習中のラベル割り当てを処理するためにAlignedOTA(Optimal Transport Assignment)を採用することで、分類タスクと回帰タスクの間のずれの問題を解決している。
複雑さへの配慮
DAMO-YOLO 印象的なイノベーションを導入しているが、NASや特殊なコンポーネントに依存しているため、トレーニングパイプラインが複雑になり、大規模なチューニングを行わずに迅速なカスタマイズやさまざまなハードウェアへの展開を必要とする開発者にとって、アクセスしにくくなる可能性がある。
長所と短所
- 強み:DAMO-YOLO 、特にそのリリース時期において強力な精度を提供し、小型モデルのための蒸留強化のような斬新なコンセプトを導入した。
- 弱点:DAMO-YOLO 取り巻くエコシステムは、主にMMDetectionフレームワークに関連付けられており、ユーザーフレンドリーなUltralytics エコシステムと比較すると、学習曲線が険しくなる可能性がある。さらに、従来のNMS 後処理を必要とするため、待ち時間が発生する。
YOLOv10:エンド・ツー・エンドのリアルタイム検知の時代
清華大学の研究者が2024年5月にリリースしたYOLOv10、YOLO 系譜におけるパラダイムシフトを象徴するものである。非最大抑制NMSNMS)の必要性を排除することで、真のエンド・ツー・エンドの性能を達成し、推論の待ち時間を大幅に短縮している。
技術的詳細:
著者:AoWangAo Wang, Hui Chen, Lihao Liu, et al.
所属機関:清華大学
Date:2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Docsultralytics
アーキテクチャとイノベーション
YOLOv10 、アーキテクチャと後処理パイプラインの両方をターゲットとし、全体的な効率性に焦点を当てている:
- NMS設計: YOLOv10 一貫した二重割り当てと呼ばれる戦略により、一対多と一対一の両方のラベル割り当てで学習する。これにより、推論中、モデルは各オブジェクトに対して1つのベストボックスを予測することができ、NMS 廃止することができます。これは、後処理がボトルネックになりがちなリアルタイム推論にとって重要な利点である。
- 全体的な効率と精度の設計:このアーキテクチャは、軽量な分類ヘッドと空間チャンネル分離ダウンサンプリングを特徴としています。これらの最適化により計算の冗長性が削減され、前世代と比較してFLOPとパラメータ数が減少しています。
- ランク誘導型ブロック設計:このモデルは、異なるステージの冗長性に基づいて内部ブロック設計を適応させ、効率が必要な場合にはコンパクトな反転ブロック(CIB)を使用し、機能強化が重要な場合には部分的自己アテンション(PSA)を使用する。
Ultralytics使いやすさ
YOLOv10 最も大きな利点の一つは、Ultralytics エコシステムへのシームレスな統合です。開発者は、YOLOv10 8で使用したのと同じシンプルなAPIを使用して、YOLOv10 トレーニング、検証、デプロイすることができます。 YOLOv8および YOLO11.
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
比較分析
DAMO-YOLO YOLOv10比較した場合、その違いは効率性へのアプローチと運用エコシステムにある。
スピードとレイテンシー
YOLOv10 、実世界のレイテンシにおいて明確な優位性を持っている。標準的なYOLO モデル(およびYOLO-YOLO)は、オーバーラップするバウンディングボックスをフィルタリングするためにNon-Maximum Suppression(NMS)を必要とする。NMS 実行時間は、検出されたオブジェクトの数によって変化するため、予測不可能な待ち時間が発生します。YOLOv10エンド・ツー・エンド設計は、決定論的なレイテンシーを提供するため、自律走行や高速産業ロボットのようなタイムクリティカルなアプリケーションに最適です。
資源効率
性能表に示すように、YOLOv10sは DAMO-YOLO-S(46.0%)よりも高いmAP (46.7%)を達成しながら、使用するパラメータは半分以下(7.2M対16.3M)である。このメモリフットプリントの削減は、エッジ展開において極めて重要である。Ultralytics モデルは、学習と推論の両方で必要なメモリが少ないことで知られており、他のアーキテクチャではOOM(Out-Of-Memory)エラーに悩まされる可能性があるコンシューマーグレードのGPUでの学習が可能です。
エコシステムとサポート
DAMO-YOLO アカデミックな貢献である一方、YOLOv10 、整備されたUltralytics エコシステムの恩恵を受けている。これには以下が含まれる:
- アクティブな開発:頻繁なアップデートとバグ修正。
- コミュニティサポート:GitHubとDiscordの大規模な開発者コミュニティ。
- ドキュメント: データ増強から配備までを網羅した豊富なドキュメント。
- トレーニングの効率化:自動混合精度(AMP)やマルチGPU トレーニングなどの機能をサポートする合理化されたルーチン。
検出を超えて
インスタンスのセグメンテーション、ポーズ推定、指向性オブジェクト検出(OBB)など、バウンディングボックスを超える多機能性が必要なプロジェクトでは、以下をご検討ください。 YOLO11または YOLOv8.YOLOv10 純粋な検出に優れていますが、より幅広いUltralytics ファミリーは、これらの複雑なマルチタスクのニーズに対して最先端のソリューションを提供します。
理想的なユースケース
YOLOv10選ぶとき
- エッジAIとIoT:パラメータ数が少ないため(例えば、YOLOv10nは2.3Mパラメータ)、Raspberry PiやNVIDIA Jetsonのようなデバイスに最適です。
- リアルタイムビデオ解析: NMS 排除することで、交通監視やセキュリティ・フィードに不可欠な一貫したフレームレートを保証します。
- 迅速な開発: データから配備までを迅速に行う必要があるチームにとって、直感的な操作は非常に便利です。
ultralyticsPython APIと Ultralytics HUB.
DAMO-YOLOを検討する場合
- 学術研究:ニューラル・アーキテクチャー・サーチ(NAS)や特徴ピラミッド最適化を研究している研究者は、YOLO-YOLOのアーキテクチャーが貴重なリファレンスになるかもしれない。
- レガシー・パイプライン:すでにMMDetectionフレームワークに深く統合されているプロジェクトは、フレームワークを切り替えるよりもDAMO-YOLO 採用する方が簡単かもしれない。
結論
両モデルとも、コンピュータ・ビジョンにおける重要なマイルストーンとなる。DAMO-YOLO 、2022年にNASと高度な特徴フュージョンの威力を示した。しかし、2024年以降の最新のアプリケーションでは YOLOv10はより魅力的なパッケージを提供する。そのNMSエンド・ツー・エンド・アーキテクチャーは、物体検出における長年のボトルネックを解決し、Ultralytics エコシステムへの統合は、アクセス性、保守性、導入の容易性を保証します。
スピード、正確さ、使いやすさのベストバランスを求める開発者にとって、YOLOv10多機能な YOLO11-と並んで、堅牢なAIソリューションを構築するための優れた選択肢です。