技術対決：リアルタイム物体 detect におけるDAMO-YOLO対RTDETRv2

コンピュータビジョンの急速な進化に伴い、速度・精度・計算効率のバランスを追求した多様なアーキテクチャが開発されている。こうした課題解決に独自のアプローチをもたらした代表的なモデルYOLO 。両モデルともリアルタイム推論の最先端ソリューションを提供することを目指しているが、そのアーキテクチャ設計思想は根本的に異なる。

この包括的なガイドでは、両モデルの技術仕様、アーキテクチャの革新、実用的なユースケースを深く掘り下げると同時に、Ultralytics 最先端のYOLO26といった現代的なソリューションが、導入と使いやすさにおける業界標準をどのように再定義したかを探ります。

モデルの概要

YOLOの理解

Alibaba Groupの研究者によって開発されたDAMO-YOLOは、ニューラルアーキテクチャ探索（NAS）に大きく依存する高速かつ正確な物体検出手法を導入しています。従来のハンドクラフトされたバックボーンを、低遅延向けに設計されたNAS生成構造に置き換えています。さらに、効率的なRepGFPN（Reparameterized Generalized Feature Pyramid Network）とZeroHead設計を組み込むことで、特徴集約とバウンディングボックス予測を合理化しています。

主要モデルの詳細：

著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織:Alibaba Group
日付: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO
ドキュメント:DAMO-YOLO ドキュメント

DAMO-YOLOの詳細

RTDETRv2の理解

BaiduのRTDETRv2は、リアルタイム検出トランスフォーマーにとって画期的な進歩です。アンカーボックスとNon-Maximum Suppression (NMS) に依存する従来の畳み込みニューラルネットワーク (CNN) とは異なり、RTDETRv2は自己注意メカニズムを活用して画像全体を文脈的に捉えます。これにより、NMSの後処理ステップを完全にバイパスし、バウンディングボックスを直接出力します。このモデルは、「bag of freebies」トレーニング戦略を導入することで、推論レイテンシを増加させることなくベースライン精度を向上させています。

主要モデルの詳細：

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETR Repository
ドキュメント:RTDETRv2 ドキュメント

RTDETRv2の詳細について。

Vision AIにおけるTransformerの活用

トランスフォーマーはより高い計算リソースを必要とする一方、グローバルコンテキストを処理する能力により複雑なシーン理解において非常に効果的であり、これがRTDETRv2の主要な強みである。

パフォーマンス比較

これらのモデルを実運用向けに評価する際には、平均精度（mAP）、推論速度、メモリ使用量といったパラメータが極めて重要である。RTDETRv2のようなトランスフォーマーベースのモデルは、YOLOのような軽量CNNと比較して、学習時および推論時において一般的によりCUDA 必要とする。

以下は、それらのパフォーマンスメトリクスの詳細な比較です。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

理想的なユースケース

DAMO-YOLOが優れている点： NAS最適化されたバックボーンと、より小型のバリアント（DAMO-YOLOtなど）における非常に少ないパラメーター数により、制約の厳しいハードウェアへの展開に非常に適しています。ONNXのようなランタイムや、エッジコンピューティング向けの特殊なTensorRTエンジンを使用して組み込みデバイス用のソリューションを構築している場合、DAMO-YOLOは非常に応答性の高いフレームワークを提供します。

RTDETRv2が優れている点： RTDETRv2は、サーバーグレードのGPUが利用可能で、グローバルな画像コンテキストが最重要となるシナリオで真価を発揮します。そのTransformerアーキテクチャにより、NMSなしで重なり合うバウンディングボックスを自然に解決できるため、密な群衆管理や、離れたオブジェクト間の空間的関係が重要となる複雑なobject trackingにおいて堅牢な選択肢となります。

Ultralytics ：YOLO26のご紹介

YOLO 重要な学術的成果である一方、これらのモデルをスケーラブルで実運用可能なアプリケーションへ移行させることは困難を伴う。開発者はしばしば、断片化されたコードベース、マルチタスク学習のサポート不足、複雑なデプロイメントパイプラインといった課題に直面する。

Ultralytics 真に差別化されるのはここです。使いやすさ、整備Python 、比類のない汎用性を優先することで、Ultralytics 開発者がデバッグに費やす時間を減らし、構築に費やす時間を増やすことをUltralytics 。

最近Ultralytics モデルは、これらの利点をさらに高次元へと引き上げ、YOLO 凌駕する画期的な進歩を実現しています：

エンドツーエンドのNMSフリー設計: YOLOv10で最初に開拓されたように、YOLO26はネイティブにエンドツーエンドです。これによりNMS後処理が完全に排除され、従来のCNNよりもデプロイメントが高速かつ大幅に簡素化されます。同時にRTDETRv2のダイレクト出力の利点にも匹敵します。
CPU推論が最大43%高速化: ディスクリートGPUを持たないエッジAIデバイス向けに大幅に最適化されており、メモリを大量に消費するトランスフォーマーと比較して、IoTアプリケーションにとって大幅に優れた選択肢となります。
MuSGDオプティマイザ: Moonshot AIのKimi K2に着想を得たSGDとMuonのこのハイブリッドは、大規模言語モデル（LLM）のトレーニング革新をコンピュータビジョンにもたらし、驚くほど安定したトレーニングとより速い収束を実現します。
ProgLoss + STAL: これらの高度な損失関数は、モデルが従来苦戦していた分野である小オブジェクト認識において顕著な改善をもたらします。これは航空画像およびドローンアプリケーションにとって不可欠です。
DFLの削除: Distribution Focal Lossが削除され、エクスポート形式の簡素化と低電力エッジデバイスとの互換性向上が保証されます。
比類なき汎用性: 厳密に detect に限定された競合モデルとは異なり、YOLO26 は全体的にタスク固有の改善を含んでおり、例えば、Oriented Bounding Boxes (OBB) 用の特殊な角度損失、ピクセル単位の精度を実現するセマンティック segment 損失、および Pose estimation 用のResidual Log-Likelihood Estimation (RLE) などです。

YOLO26についてさらに詳しく

メモリ効率が重要である

RTDETRv2のようなトランスフォーマーベースモデルのトレーニングにはCUDA 割り当てが必要であり、高コストなGPU 求められることが多い。Ultralytics YOLO 、トレーニング時と推論時双方において著しく低いメモリ要件を維持し、研究者から愛好家までAI開発の民主化を実現している。

コード例：統合されたUltralytics API

Ultralytics 最大の利点の一つは、統一されたAPIです。PyTorch のRTDETRや最先端YOLO を含む様々なモデルを、ワークフローを変更することなくシームレスに読み込み、トレーニングし、検証できます。

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

この簡潔さはカスタムデータセットのトレーニングとエクスポートにも及びます。Python を利用することで、開発者はトレーニング済み重みを CoreML や OpenVINO などのデプロイプラットフォームへ、単一のコマンドで簡単にプッシュできます。

結論とさらなる探求

DAMO-YOLOとRTDETRv2はどちらも、リアルタイム物体検出の可能性を間違いなく広げました。DAMO-YOLOは、生の効率性のために高度に最適化された自動探索型ネットワーク構造を提供し、RTDETRv2は、NMSのような従来のボトルネックを排除することで、トランスフォーマーがリアルタイム分野で競争できることを証明しています。

しかし、パフォーマンス、包括的なドキュメント、本番環境対応の究極のバランスを求める開発者にとって、Ultralytics YOLO 依然として最高水準の選択肢です。YOLO26の導入により、ユーザーはトランスフォーマー型エンドツーエンド検出、LLMに着想を得たトレーニング効率、比類のないCPU 、直感的で堅牢なエコシステム内に統合して利用できるようになります。

次のプロジェクトでモデルを評価している場合、EfficientDetとRTDETRの比較や、前世代の YOLO11の検証、あるいはYOLOXなどの学術ベースラインのレビューも参考になるでしょう。Ultralytics ガイドで今すぐ構築を始めましょう。