Link to this sectionRTDETRv2とDAMO-YOLOの比較#
コンピュータビジョンの分野は絶えず進化しており、研究者やエンジニアは、速度、精度、効率を完璧に両立させるモデルの構築に努めています。この分野で大きな注目を集めている2つの主要なアーキテクチャが、Baiduによって開発されたRTDETRv2と、Alibaba Groupによって作成されたDAMO-YOLOです。どちらのモデルもリアルタイムの物体検出の限界を押し広げていますが、その優れた結果を達成するために、根本的に異なるアーキテクチャの哲学を採用しています。
この技術比較では、それぞれのアーキテクチャ、トレーニング手法、および実環境へのデプロイ機能について詳細に掘り下げます。また、これらのモデルがより広範なエコシステム、特に高度に最適化されたUltralytics Platformや最先端のYOLO26アーキテクチャと比較してどのように位置づけられるかについても探ります。
Link to this sectionアーキテクチャの革新#
本番環境に適したツールを選択する任務を負う機械学習エンジニアにとって、これらのモデルの核となるメカニズムを理解することは極めて重要です。
Link to this sectionRTDETRv2: Transformerアプローチ#
RTDETRv2は、オリジナルのRT-DETRの成功に基づいて、ハイブリッドエンコーダーとtransformerデコーダーを活用しています。この設計により、モデルはグローバルなコンテキストを非常に効果的に処理できるため、密集したシーンで重なり合う物体を区別する能力が極めて高くなっています。このアーキテクチャの最大の利点は、ネイティブなNMSフリー(非最大値抑制なし)設計であることです。NMSの後処理ステップを排除することで、RTDETRv2は推論パイプラインを簡素化し、さまざまなハードウェア構成全体でより安定したレイテンシを保証します。
Link to this sectionDAMO-YOLO: CNN効率の向上#
一方、DAMO-YOLOは、非常に成功したCNNベースのYOLO系統に根ざしつつ、いくつかの画期的な改良を導入しています。ニューラルアーキテクチャ探索(NAS)を活用してバックボーンを最適化し、最大の特徴抽出効率を確保しています。さらに、効率的なRepGFPN(再パラメータ化された一般化特徴ピラミッドネットワーク)とZeroHead設計を採用し、AlignedOTAや蒸留強化技術を組み合わせました。これらのイノベーションにより、DAMO-YOLOは高い競争力のあるmAPvalスコアを維持しながら、高速な推論速度を実現しています。
RTDETRv2がNMSなしでグローバルな特徴理解のためにアテンションメカニズムを活用することに焦点を当てているのに対し、DAMO-YOLOはNASと高度な蒸留を通じて従来のCNN効率を最大化しており、標準的な後処理が必要ですが、特定のハードウェアでは明確な速度上の利点を提供します。
Link to this sectionパフォーマンスと指標の比較#
デプロイに向けてモデルを評価する際には、平均適合率(mAP)、推論速度、パラメータ数などのパフォーマンス指標が極めて重要です。以下に、両モデルファミリーの詳細な比較を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Link to this section結果の分析#
表からわかるように、RTDETRv2-xはmAPval 54.3という最高の精度を達成しており、COCOデータセットのような複雑な検証においてtransformerアーキテクチャの威力を示しています。しかし、これはパラメータ数(76M)とFLOPsが大幅に増加するというコストを伴います。
対照的に、DAMO-YOLOt(Tiny)は非常に軽量で、パラメータ数はわずか8.5Mであり、CUDAメモリが厳しく制限される環境において非常に高速な選択肢となります。DAMO-YOLOは、レガシーエッジデバイスに対して、一般的に速度と精度の良好なトレードオフを提供します。
Link to this sectionエコシステム、ユーザビリティ、そしてUltralyticsの利点#
公式のRT-DETR GitHubやDAMO-YOLO GitHubのような独立したリポジトリは、これらのモデルをトレーニングするための生のコードを提供していますが、それらを本番パイプラインに統合するには、多くの場合、膨大なボイラープレートコードと手動での最適化が必要です。
ここで、Ultralyticsエコシステムが開発者体験を大幅に簡素化します。UltralyticsはRTDETRv2のようなモデルを統一APIに直接統合しており、ユーザーは1行のコードでモデルのトレーニング、検証、エクスポートを行うことができます。さらに、Ultralyticsモデルは、重いtransformerベースのスタンドアロンリポジトリと比較して、トレーニング中のメモリ要件が最小限であることで知られています。
Link to this sectionコード例: シームレスな統合#
Ultralytics Pythonライブラリを活用して推論を実行するのがいかに簡単かを示します。transformerモデルを使用する場合でも、最先端のCNNを使用する場合でも、APIの一貫性は維持されます。
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()Using the Ultralytics API, you can seamlessly export your trained models to formats like TensorRT, ONNX, or CoreML with a simple model.export(format="engine") command, drastically reducing deployment friction.
Link to this section理想的なユースケース#
これらのアーキテクチャを選択するかどうかは、特定のプロジェクト要件に完全に依存します。
- RTDETRv2は、VRAMが豊富なサーバーサイド処理において優れています。そのグローバルなコンテキスト認識は、医療画像処理や、重なり合いが頻繁に発生する密集した群衆解析に最適です。
- DAMO-YOLOは、組み込みIoTアプリケーションや、少ないパラメータ数と高いFPSが厳格な要件となる高速な工業用検査ラインに非常に適しています。
Link to this section未来:Ultralytics YOLO26#
RTDETRv2とDAMO-YOLOにはそれぞれ利点がありますが、コンピュータビジョンの分野は急速に進歩しています。新しいプロジェクトには、最新の**Ultralytics YOLO26**が、速度、精度、開発者体験の究極の統合を体現しています。
YOLO26はEnd-to-End NMS-Free Designを採用しており、巨大な計算オーバーヘッドなしでtransformerの主な利点を獲得しています。大規模言語モデルのトレーニングに着想を得た革新的なMuSGD Optimizerを組み込み、安定した高速な収束を実現しています。さらに、DFL Removal(エクスポートの簡素化とエッジ/低電力デバイスへの適合性向上のためDistribution Focal Lossを削除)により、YOLO26は最大43%高速なCPU推論を達成しており、エッジコンピューティングにおいて揺るぎないチャンピオンです。加えて、ProgLoss + STALは改善された損失関数を提供し、IoT、ロボティクス、航空画像に不可欠な小物体認識において顕著な向上を実現しています。
バウンディングボックスに厳密に制限されるモデルとは異なり、YOLO26ファミリーは比類のない多用途性を提供し、インスタンスセグメンテーションや姿勢推定から指向性バウンディングボックス(OBB)までのタスクをサポートしており、すべて直感的なUltralytics Platformを通じてシームレスに管理されます。
Link to this sectionモデルの詳細とリファレンス#
Link to this sectionRTDETRv2#
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
- 組織: Baidu
- 日付: 2024年7月24日
- Arxiv: 2407.17140
- GitHub: RT-DETR リポジトリ
Link to this sectionDAMO-YOLO#
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: DAMO-YOLOリポジトリ
他の比較に興味があるユーザーは、RTDETRv2 vs. YOLO11やDAMO-YOLO vs. YOLOv8のガイドをチェックして、これらのモデルがUltralyticsファミリーの以前の世代と比べてどのようなパフォーマンスを発揮するかを確認してください。