YOLOv6.0 vsYOLO：リアルタイム物体検出における技術対決

コンピュータビジョンの分野は絶えず進化を続けており、新たなアーキテクチャがリアルタイム物体検出の可能性の限界を押し広げている。この分野で特に注目すべき2つの競合モデルYOLOv6YOLO。両モデルとも産業用ハードウェアでの性能を最大化するために設計された独自のアーキテクチャ革新を導入しています。本ガイドでは、これらの2つのモデルを包括的に技術的に比較し、そのアーキテクチャ、トレーニング手法、理想的なユースケースを探るとともに、Ultralytics 次世代的な優位性についても紹介します。

モデルプロフィール

YOLOv6.0: 産業グレードのスループット

MeituanのVision AI部門によって開発されたYOLOv6-3.0は、高スループットの産業用アプリケーション向けに特別に設計されています。NVIDIA GPUのようなハードウェアアクセラレータでのパフォーマンス最大化に重点を置いています。

著者: Chuyi Li、Lulu Li、Yifei Geng、他。
組織: Meituan
日付: 2023-01-13
Arxiv:2301.05586
GitHub:meituan/YOLOv6
ドキュメント:Ultralytics YOLOv6 ドキュメント

YOLOv6、特徴融合を改善する双方向連結（BiC）モジュールを導入し、アンカー補助学習（AAT）戦略を採用している。この戦略は、学習時にはアンカーベース検出器とアンカーフリー検出器の利点を組み合わせつつ、推論時には厳密にアンカーフリーを維持する。そのEfficientRepバックボーンにより、GPU に対して高いハードウェア親和性を実現し、膨大な量の動画理解データ処理に理想的である。

YOLOv6について詳しくはこちら

DAMO-YOLO: NASによる高速かつ高精度

Alibaba Groupによって作成されたDAMO-YOLOは、ニューラルアーキテクチャ探索（NAS）を活用して、リアルタイム推論に最も効率的なバックボーン構造を自動的に発見します。

著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, 他
組織: Alibaba Group
日付: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

DAMO-YOLOは、効率的なマルチスケール特徴融合のためのRepGFPN（Reparameterized Generalized Feature Pyramid Network）と、検出ヘッドの計算オーバーヘッドを大幅に削減するZeroHead設計によって際立っています。また、AlignedOTAラベル割り当てと、モデルのパラメータ数を増やすことなく精度を向上させる堅牢な知識蒸留技術を組み込んでいます。

DAMO-YOLOの詳細

蒸留オーバーヘッド

YOLO 優れた精度YOLO 一方で、学習時の知識蒸留への依存度が高いため、より大規模な「教師」モデルが必要となる。これにより、単純なアーキテクチャと比較して、学習フェーズで必要CUDA が大幅に増加する。

パフォーマンス比較

物体検出モデルを評価する際、平均精度（mAP）と推論速度のバランスが極めて重要である。以下に、異なるモデルスケールYOLO YOLOv6.YOLOv6とYOLO の詳細な比較を示す。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv6.YOLOv6、NVIDIA を活用することで卓越した速度を発揮します TensorRT 最適化を活用することで、特にnanoおよびsmallバリエーションにおいて卓越した速度を発揮します。ただし、YOLO、中規模および大規模スケールではより少ないFLOPsを必要とする傾向があり、大規模な展開ではわずかなレイテンシの優位性をもたらします。

Ultralyticsの利点: YOLO26の登場

YOLOv6.YOLO 強力なYOLO 、開発者は複雑なデプロイメントパイプライン、トレーニング時の高いメモリ要件、そして硬直した単一タスクアーキテクチャといった課題に直面することが多いです。Ultralytics 、開発者体験を大幅に合理化します。

YOLO26のリリースにより、Ultralytics 最先端のビジョンAIUltralytics 。2026年1月にリリースUltralytics 、効率性と汎用性の限界を押し広げます。

YOLO26の主な革新点

エンドツーエンドNMSフリー設計: YOLOv10で開拓された概念に基づいて構築されたYOLO26は、Non-Maximum Suppression (NMS)の後処理をネイティブに排除します。これにより、レイテンシのばらつきが劇的に低減され、CoreMLまたはTFLiteを介したエッジデバイスへのデプロイメントが簡素化されます。
DFLの削除: Distribution Focal Lossを削除することで、YOLO26はエクスポートプロセスを簡素化し、低電力マイクロコントローラおよびエッジハードウェアとの互換性を大幅に向上させます。
CPU推論が最大43%高速化: 専用GPUハードウェアを持たないアプリケーション向けに、YOLO26のCPU最適化は比類のない速度を実現し、YOLOv6のようなGPUに大きく依存するモデルを凌駕します。
MuSGDオプティマイザ: Moonshot AIのKimi K2のようなLLMトレーニング技術に着想を得て、YOLO26はMuSGDオプティマイザ（SGDとMuonのハイブリッド）を利用し、安定したトレーニングと迅速な収束を保証します。
ProgLoss + STAL: 高度な損失関数は、小さな物体認識を劇的に改善し、YOLO26をドローン運用や遠距離ターゲットtrackに最適なものにします。
マルチタスクの汎用性: 厳密にはdetectorであるDAMO-YOLOとは異なり、YOLO26は単一の統合されたAPI内で、インスタンスsegment、姿勢推定（残差対数尤度推定による）、およびOriented Bounding Boxes (OBB)をすぐにサポートします。

YOLO26についてさらに詳しく

メモリ効率的なトレーニング

複雑な変圧器アーキテクチャとは異なり RT-DETRYOLO蒸留を多用したパイプラインとは異なり、Ultralytics VRAM使用量が少ないことで知られています。一般消費者向けハードウェアでもYOLO26モデルを容易に学習できます。

合理化されたPython

最先端モデルのトレーニングとデプロイに、何百行もの定型コードは必要ありません。Ultralytics Python 機械学習ライフサイクルを簡素化します。

from ultralytics import YOLO

# Load the cutting-edge YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with built-in data handling
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast inference and display results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

理想的なユースケース

適切なアーキテクチャの選択は、デプロイメントの制約に完全に依存します。

YOLOv6.0の使用タイミング

高バッチビデオ分析: TensorRTを最大限に活用できるエンタープライズGPUサーバー上で、密度の高いビデオストリームを処理するのに優れています。
産業オートメーション: 品質管理の欠陥検出を行う高速製造ライン。

YOLOの使用タイミング

Custom Silicon: 特定の独自NPUハードウェア向けに、ニューラルアーキテクチャ探索マッピングを研究しています。
学術研究: リアルタイムネットワーク向けの新しい知識蒸留手法のベンチマーク。

Ultralytics YOLO26の使用タイミング

エッジおよびモバイルデプロイメント: NMSフリー設計、DFLの削除、および43%のCPU速度向上により、iOS、Android、およびRaspberry Piの統合において揺るぎないチャンピオンとなっています。
迅速なプロトタイピングから本番環境へ: Ultralytics Platformとのシームレスな統合により、チームはデータセットアノテーションからグローバルなクラウドデプロイまでを数ヶ月ではなく数日で実行できます。
複雑なビジョンパイプライン：プロジェクトが、人間の姿勢キーポイントと正確なsegmentマスクと同時にバウンディングボックスをdetectすることを必要とする場合。

結論

YOLOv6-3.0とDAMO-YOLOは両方ともリアルタイム物体検出の科学に大きく貢献しました。YOLOv6はGPUの最大化を洗練させ、一方DAMO-YOLOは自動アーキテクチャ探索の力を示しました。

ただし、精度、推論速度、エコシステムの維持可能性の究極の融合を求める開発者にとっては、 Ultralytics YOLO ファミリーが依然として最良の選択肢です。YOLO26で導入された画期的な最適化により、エンタープライズグレードのコンピュータビジョンアプリケーション開発への参入障壁はかつてないほど低くなりました。

さらなる探求として、これらのモデルを、当社のドキュメントにある他のアーキテクチャ、例えばYOLO11や、RT-DETRのようなトランスフォーマーベースのアプローチなどと比較することにも興味があるかもしれません。