DAMO-YOLO RTDETRv2の比較：スピードとトランスの精度のバランス

最適な物体検出アーキテクチャを選択するには、推論レイテンシと検出精度のトレードオフをナビゲートする必要があります。この技術比較では、Alibaba Groupが最適化した高速検出器DAMO-YOLO、Baiduの第2世代Real-Time Detection TransformerであるRTDETRv2を検証します。アーキテクチャの革新性、性能ベンチマーク、導入の適性を分析し、コンピュータ・ビジョン・アプリケーションのための十分な情報に基づいた意思決定を支援します。

DAMO-YOLO：低遅延のための最適化

DAMO-YOLO YOLOの進化における重要なステップである。 YOLOアーキテクチャの進化における重要な一歩であり、精度を大きく損なうことなくスピードを最大化することに重点を置いている。アリババ・グループによって開発されたDAMO-YOLOは、高度なニューラル・アーキテクチャー・サーチ（NAS）技術を採用し、ネットワーク構造を効率的に調整する。

著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織アリババグループ
Date: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub：https://github.com/tinyvision/DAMO-YOLO
ドキュメントhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

建築ハイライト

DAMO-YOLO 、検出パイプラインを合理化するためにいくつかの新しい技術を統合している：

NASを利用したバックボーン：このモデルは、効率的なバックボーン構造（MAE-NAS）を自動的に発見するために、ニューラル・アーキテクチャ・サーチ（NAS）を利用している。このアプローチにより、ネットワークの深さと幅が特定のハードウェア制約に最適化されます。
RepGFPNネック：RepGFPNとして知られる一般化特徴ピラミッドネットワーク（GFPN）の効率的なバージョンを備えています。このコンポーネントは、低レイテンシー制御を維持しながら、異なるスケールにわたる特徴融合を強化する。
ZeroHead：「ZeroHead」と名付けられた簡素化されたヘッド設計は、分類と回帰のタスクを切り離し、最終予測層の計算負荷を軽減する。
AlignedOTA: トレーニングの安定性のために、DAMO-YOLOは、分類ターゲットと回帰ターゲットを調整して収束を改善するラベル割り当て戦略であるAlignedOTA（Optimal Transport Assignment）を採用しています。

DAMO-YOLOの詳細

RTDETRv2：リアルタイム・トランスフォーマーの進化

RTDETRv2は、リアルタイム性能を達成した最初の変換器ベースのオブジェクト検出器であるオリジナルのRT-DETR成功に基づいて構築されています。Baidu社によって開発されたRTDETRv2は、「bag-of-freebies」を導入し、推論コストを追加することなく、学習の安定性と精度を向上させています。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織百度
Date: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub：https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
ドキュメントhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

建築ハイライト

RTDETRv2 は、ビジョントランスの長所を活かしながら、従来のスピードボトルネックを軽減しています：

ハイブリッド・エンコーダ：このアーキテクチャは、マルチスケール特徴を効率的に処理するハイブリッドエンコーダを使用し、計算コストを節約するために、スケール内相互作用とクロススケールフュージョンを切り離す。
IoUクエリ選択：このメカニズムでは、Intersection over UnionIoU)スコアに基づいて高品質な初期オブジェクトクエリを選択し、トレーニングの収束を早める。
適応可能な構成： RTDETRv2は、デコーダーとクエリ選択に柔軟な構成を提供し、ユーザーが特定の速度/精度の要件に合わせてモデルを調整できるようにします。
Anchor-Free Design: 先行モデルと同様に、完全にアンカーフリーであり、ヒューリスティックなアンカーボックスの調整や、ポストプロセッシング中のNon-Maximum Suppression (NMS)が不要になります。

RTDETRv2の詳細について。

技術的な比較：性能と効率

この2つのモデルの違いは、アーキテクチャのルーツにある。

メトリック分析

以下の表は、COCO データセットにおける主要なメトリクスの概要である。RTDETRv2が平均平均精度mAP）の点で優位に立つ一方、DAMO-YOLO スループット（FPS）に優れ、その小さな亜種ではパラメータ数が少ないことを示している。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

トレードオフの分析

DAMOYOLOYOLOは、高頻度の工業用選別のようなミリ秒単位が重要な環境で優れています。その「タイニー」（t）バージョンは非常に軽量である。逆に、RTDETRv2は精度の上限が高く、自律航法や詳細な監視など、対象物を見逃すことが重要な複雑なシーンに適している。

アーキテクチャと実世界での応用

グローバルコンテキストとローカル特徴の比較：RTDETRv2の変換注目メカニズムにより、CNNベースのDAMO-YOLOグローバルコンテキストを理解することができる。この結果、混雑したシーンや物体が隠されているときに、より優れた性能を発揮する。しかし、このグローバルな注意は、より高いメモリ消費と遅い学習時間という代償を伴う。
ハードウェアの最適化：DAMO-YOLONASベースのバックボーンは、GPU 推論用に高度に最適化されており、非常に低いレイテンシを実現している。RTDETRv2はリアルタイムではあるが、YOLOディテクターのフレームレートに合わせるためには、一般的に、より強力なハードウェアを必要とする。

Ultralyticsの利点：YOLO11を選ぶ理由

DAMO-YOLO RTDETRv2が特別な利点を提供する一方で、 Ultralytics YOLO11は、実際のアプリケーションの大部分にとって、最もバランスの取れた、開発者に優しいソリューションとして際立っています。

優れた開発者体験とエコシステム

DAMO-YOLO RTDETRv2のような学術的モデルにおける最も大きな課題の1つは、統合である。Ultralytics 、堅牢なエコシステムでこれを解決します：

使いやすさ：統一されたPython APIとCLI、わずか数行のコードでモデルの学習、検証、デプロイが可能です。
整備されたエコシステム： Ultralytics モデルは、活発な開発、広範なドキュメント、大規模なコミュニティによってサポートされています。これにより、最新のハードウェアやソフトウェアライブラリとの互換性が保証されます。
トレーニング効率： YOLO11 、RTDETRv2のようなトランスフォーマーベースのモデルよりも高速にトレーニングできるように設計されており、GPU メモリ（VRAM）の使用量が大幅に削減されています。これにより、コンシューマーグレードのハードウェアでも高性能AIにアクセスできるようになります。

比類なき汎用性

DAMO-YOLO RTDETRv2が主にバウンディングボックス検出に特化しているのとは異なり、YOLO11 幅広いコンピュータビジョンタスクをネイティブにサポートしている：

パフォーマンス・バランス

YOLO11 、YOLO ファミリーの特徴である推論スピードと効率性を維持しながら、多くのベンチマークでRTDETRv2に匹敵するか、それを上回る最先端の精度を達成している。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

YOLO11の詳細について。

結論

DAMO-YOLO RTDETRv2のどちらを選ぶかは、特定の制約による：

主な制約がレイテンシーで、最小限のパラメータ数が重要なエッジ・デバイスに導入する場合は、YOLO-YOLOを選択する。
複雑なシーンで最高の精度を必要とし、トランスフォーマーアーキテクチャをサポートする計算予算がある場合は、RTDETRv2を選択してください。

しかし、高いパフォーマンス、使いやすさ、マルチタスク機能を兼ね備えた総合的なソリューションが必要です、 Ultralytics YOLO11をお勧めします。トレーニング中のメモリフットプリントが小さく、成熟したエコシステムと組み合わされることで、プロトタイプから製品化までの道のりが加速されます。

その他のモデルを見る

物体検出の状況をさらに理解するために、これらの比較を調べてみよう：

DAMO-YOLO RTDETRv2の比較：スピードとトランスの精度のバランス

DAMO-YOLO：低遅延のための最適化

建築ハイライト

RTDETRv2：リアルタイム・トランスフォーマーの進化

建築ハイライト

技術的な比較：性能と効率

メトリック分析

アーキテクチャと実世界での応用

Ultralyticsの利点：YOLO11を選ぶ理由

優れた開発者体験とエコシステム

比類なき汎用性

パフォーマンス・バランス

結論

その他のモデルを見る

コメント