DAMO-YOLO 対 YOLOv10: 効率的なリアルタイム物体検出の進化

コンピュータビジョン分野では、リアルタイム物体検出アーキテクチャが急速に進化している。YOLOと YOLOv10を比較すると、モデル設計において二つの異なる哲学が観察される：自動アーキテクチャ探索とエンドツーエンドNMS最適化である。両者とも精度と速度の限界を押し広げているが、その基盤となる構造と理想的なユースケースは大きく異なる。

YOLO: 大規模ニューラルアーキテクチャ探索

Alibaba Groupによって開発されたDAMO-YOLOは、構造効率のための自動発見を活用することに焦点を当てた強力な検出器として登場しました。

著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
日付: 2022年11月23日
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

アーキテクチャのハイライト

DAMO-YOLOは、性能とレイテンシーのバランスを取るために、ニューラルアーキテクチャ探索 (NAS) に大きく依存しています。そのバックボーンであるMAE-NASは、厳格な計算予算の下で多目的進化的探索を使用し、最適な層の深さと幅を見つけます。

スケールを超えた特徴融合を処理するため、本モデルは効率的なRepGFPN（再パラメータ化汎用特徴ピラミッドネットワーク）を採用している。このヘビーネック設計は複雑な空間階層構造の抽出に特に優れており、航空写真解析などのシナリオで有用である。YOLO 。これは最終予測層の複雑性を大幅に低減する合理化された検出ヘッドであり、学習中の堅牢な蒸留強化プロセスに依存している。

蒸留学習

DAMO-YOLOは、しばしば多段階の知識蒸留プロセスを利用します。これは、より小さな「学生」モデルを導くために、より重い「教師」モデルをトレーニングすることを必要とします。これにより、より高いmAP (mean Average Precision)が得られますが、必要なGPU compute時間が大幅に増加します。

DAMO-YOLOの詳細

YOLOv10：画期的なエンドツーエンド物体検出

1年半後にリリースYOLOv10 、推論時の非最大抑制（NMS）を完全に不要とするというパラダイムシフトYOLOv10 。

著者: Ao Wang, Hui Chen, Lihao Liu, et al.
組織:清華大学
日付: 2024年5月23日
Arxiv:2405.14458
ドキュメント:Ultralytics YOLOv10

アーキテクチャのハイライト

YOLOv10 最大の特徴YOLOv10 NMSトレーニングを実現する一貫した二重アサインメント YOLOv10 。従来の検出器は単一オブジェクトに対して複数の重複する境界ボックスを予測するため、重複NMS が必要となる。この後処理ステップは、特にエッジデバイスにおいてボトルネックとなる。YOLOv10 、モデルがオブジェクトごとに単一の正確な境界ボックスを自然に予測できるようにすることでこの問題をYOLOv10 。

著者らはまた、効率性と精度を両立させる包括的なモデル設計に焦点を当てた。既存アーキテクチャにおける計算上の冗長性を詳細に分析することで、バックボーンとヘッドを最適化し、FLOPs数とパラメータ数を削減した。この軽量設計により、YOLOv10 TensorRTやPyTorchなどの形式にエクスポートされた際、卓越した推論レイテンシYOLOv10 。 TensorRT や OpenVINOなどの形式にエクスポートされた際に、YOLOv10が卓越した推論レイテンシを実現

YOLOv10について詳しくはこちら

性能とベンチマーク

以下の表は、COCO における生の性能指標を示しています。各列における最高の総合値は太字で強調表示されています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO 精度面でYOLO 、YOLOv10 低いレイテンシと大幅に軽量なモデルを実現する。例えばYOLOv10sは、DAMO-YOLOs（46.0%）よりわずかにmAP 46.7%）を達成しつつ、パラメータ数を半分以下（720万対1630万）に抑えている。メモリ要件が低いことから、YOLOv10 組み込みシステム向けに非常に汎用性の高い選択肢となる。

トレーニングの効率性と使いやすさ

学術研究から実運用への移行においては、使いやすさが最も重要である。YOLO多段階蒸留プロセスと複雑なNAS構成は、エンジニアリングチームにとって急峻な学習曲線をもたらす可能性がある。

対照的に、YOLOv10は、Ultralytics Python SDKに完全に統合されていることから、多大な恩恵を受けています。カスタムモデルのトレーニングには、最小限のボイラープレートコードしか必要ありません。Ultralyticsは、データ拡張、ハイパーパラメータチューニング、および実験追跡を自動的に処理します。

from ultralytics import YOLO

# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()

高速プロトタイピング

Ultralytics を利用することで、開発者はわずか数行のコードでプロトタイプから完全にエクスポートされたONNX へと移行でき、従来のフレームワークで必要だった複雑な環境設定を回避できます。

実際のユースケース

スマートリテール (DAMO-YOLO): DAMO-YOLOのAPは、GPUが豊富でリアルタイムNMSのボトルネックが管理可能な、顧客行動を分析する高密度サーバー環境に最適です。
自動運転車 (YOLOv10): NMSフリーのアーキテクチャは、決定論的で予測可能なレイテンシを保証し、これは自動運転の安全システムにとって極めて重要です。
産業オートメーション (YOLOv10): 高速で移動する組み立てライン上の欠陥を検出するには、大量のVRAMを消費することなくリアルタイム推論速度を最大化するモデルが必要であり、YOLOv10はエッジ展開の有力候補となります。

ユースケースと推奨事項

DAMO-YOLOとYOLOv10のどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの好みに依存します。

DAMO-YOLOを選択するタイミング

DAMO-YOLOは以下のような場合に強力な選択肢となります。

高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索（MAE-NAS）と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。

YOLOv10を選択すべき時

YOLOv10 以下に推奨YOLOv10 ：

NMSフリーのリアルタイムdetect: Non-Maximum Suppressionなしのエンドツーエンドのdetectから恩恵を受け、デプロイの複雑さを軽減するアプリケーション。
速度と精度のバランスの取れたトレードオフ: さまざまなモデルスケールにおいて、推論速度と検出精度の強力なバランスを必要とするプロジェクト。
一貫したレイテンシが求められるアプリケーション: ロボット工学や自律システムなど、予測可能な推論時間が重要となるデプロイメントシナリオ。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

次世代：Ultralytics の登場

YOLOv10 NMSの基盤をYOLOv10 一方で、この技術は急速に進化を遂げています。現代のアプリケーションにおいて、Ultralytics モデルは比類のない性能と使いやすさを提供し、前世代の優れた点を継承しつつ、実運用向けに洗練されています。

YOLO26は厳密にネイティブなエンドツーエンド設計を採用し、エッジデバイス全体でのデプロイメントパイプラインを簡素化するため、NMS 排除しています。さらに、分布焦点損失（DFL）の除去により、低電力エッジAIハードウェアとの互換性が劇的に向上しました。

トレーニング面では、YOLO26は大規模言語モデル（LLM）のトレーニング手法に着想を得たハイブリッド方式であるMuSGDオプティマイザーを導入。これによりトレーニングの安定性と収束速度が向上した。ProgLoss + STAL損失関数と組み合わせることで、YOLO26は野生生物保護やドローン運用において重要な機能である微小物体認識において顕著な改善を示している。

重要なことに、YOLO26は単なる物体検出器ではありません。タスク固有の改善を全面的に提供し、ネイティブでインスタンスセグメンテーション、残差対数尤度推定 (RLE) を使用した姿勢推定、そしてOriented Bounding Boxes (OBB)のための特殊な角度損失をサポートしています。前モデルよりも最大43%高速なCPU推論を実現し、アジャイルなエンジニアリングチームにとって決定的な選択肢となります。

YOLO26モデルの一元管理、アノテーション、クラウドトレーニングには、Ultralytics Platformが直感的なインターフェースを提供し、コンピュータビジョンライフサイクル全体を効率化します。

他の最近の進歩を探求することに関心のある開発者は、異なるアーキテクチャソリューションを必要とするシナリオ向けに、Ultralytics YOLO11またはTransformerベースのRT-DETRフレームワークも評価できます。

DAMO-YOLO 対 YOLOv10: 効率的なリアルタイム物体検出の進化

YOLO: 大規模ニューラルアーキテクチャ探索

アーキテクチャのハイライト

YOLOv10：画期的なエンドツーエンド物体検出

アーキテクチャのハイライト

性能とベンチマーク

トレーニングの効率性と使いやすさ

実際のユースケース

ユースケースと推奨事項

DAMO-YOLOを選択するタイミング

YOLOv10を選択すべき時

Ultralytics YOLO26）を選択すべきタイミング

次世代：Ultralytics の登場

コメント