Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 と RTDETRv2 の比較#

コンピュータビジョンの状況はここ数年で劇的に拡大し、開発者は複雑な視覚的タスクに取り組むための多様なアーキテクチャを選択できるようになりました。最も一般的なパラダイムの一つが、畳み込みニューラルネットワーク(CNN)と検出用Transformer(DETR)です。

本ガイドでは、これら両カテゴリーにおける極めて重要な2つのモデルについて詳細な技術比較を行います。非常に効率的で広く採用されているCNNベースのモデルUltralytics YOLOv5と、最先端のTransformerベースのリアルタイム物体検出器であるRTDETRv2です。

Link to this sectionUltralytics YOLOv5:効率性における業界標準#

リリース以来、Ultralytics YOLOv5はAIコミュニティの礎となり、世界中の何千もの商用アプリケーションや研究プロジェクトを支えてきました。PyTorchフレームワーク上に完全に構築されており、リアルタイム性能を犠牲にすることなく直感的な開発者エクスペリエンスを優先しています。

主な特徴:

Link to this sectionアーキテクチャと強み#

YOLOv5は、極めて低いメモリフットプリントを維持しつつ、特徴抽出の効率を最大化するように設計された合理的なCNNアーキテクチャを利用しています。バックボーンにCSPDarknet、ネックにPANetを採用しており、マルチスケールの特徴融合において強力な組み合わせを実現しています。

One of the primary advantages of YOLOv5 is its Performance Balance. It strikes an exceptional trade-off between speed and accuracy, making it an ideal choice for model deployment on resource-constrained hardware like NVIDIA Jetson devices and smartphones.

さらに、YOLOv5は比類のない汎用性を誇ります。バウンディングボックス予測のみに限定されるモデルとは異なり、YOLOv5は画像分類インスタンスセグメンテーションをネイティブでサポートしており、多様な視覚タスクに対して統一されたフレームワークを提供します。そのトレーニング効率も非常に優れており、Transformerベースのアーキテクチャと比較して、トレーニング中のCUDAメモリ消費量が大幅に少なくなっています。

Link to this section弱点#

古いCNNフレームワークに依存しているため、YOLOv5は後処理において重複するバウンディングボックスを除去するためにNon-Maximum Suppression (NMS)を本質的に必要とします。Ultralyticsフレームワーク内では高度に最適化されていますが、NMSは特殊なエッジNPU上でレイテンシのボトルネックを引き起こすことがあります。

YOLOv5の詳細はこちら

Link to this sectionRTDETRv2:BaiduによるリアルタイムTransformer#

RTDETRv2 (Real-Time Detection Transformer v2) は、リアルタイム物体検出にTransformerアーキテクチャを適用する上で大きな進歩を遂げており、従来のDETRを悩ませていた計算上の非効率性に対処しています。

主な特徴:

Link to this sectionアーキテクチャと強み#

RTDETRv2は、ハイブリッドエンコーダと柔軟なデコーダ設計を採用することで、画像を処理します。Transformerの自己注意機構(self-attention)が画像コンテキストのグローバルな理解を可能にし、物体が激しく遮蔽された複雑なシーンでも非常に高い性能を発揮します。

A defining feature of RTDETRv2 is its end-to-end, NMS-free design. By predicting object queries directly without requiring anchor boxes or NMS post-processing, it simplifies the inference pipeline. This architecture achieves an impressive mAP (mean Average Precision) on benchmark datasets like COCO.

Link to this section弱点#

リアルタイム性を備えているにもかかわらず、RTDETRv2はYOLOモデルと比較してメモリ要件が顕著に高くなっています。Transformerの注意機構はシーケンス長に対して二次関数的にスケールするため、大規模なGPUクラスタを使用しない限り、高解像度のトレーニング中にメモリ不足エラーが発生する可能性があります。さらに、Ultralyticsエコシステムのような箱から出してすぐに使える汎用性はなく、主に2Dの物体検出に特化しており、セグメンテーションや姿勢推定のネイティブサポートはありません。

RTDETRの詳細はこちら

Link to this section性能比較テーブル#

これらのアーキテクチャを客観的に評価するために、性能指標をまとめました。太字で強調された値は、テストされたスケール全体で最も効率的、または最高性能の指標を示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
性能に関するコンテキスト

RTDETRv2-xは絶対的なmAPにおいて最高値を達成しますが、YOLOv5nの約30倍のパラメータを必要とします。制限されたハードウェアで実行される高速アプリケーションに対しては、Ultralyticsモデルが一貫して最高の計算効率を提供します。

Link to this sectionUltralyticsエコシステムの利点#

研究用ノートブックから本番環境へモデルを移行する場合、モデルを囲むソフトウェアはニューラルネットワークのアーキテクチャと同じくらい重要です。Ultralyticsが提供する十分にメンテナンスされたエコシステムは、開発ライフサイクルを劇的に加速させます。

Link to this section比類なき使いやすさ#

Ultralyticsモデルは、非常に合理化されたユーザーエクスペリエンスを優先しています。カスタムモデルのトレーニング、バリデーションの実行、またはTensorRTONNXといったハードウェア固有のフォーマットへのエクスポートなど、Ultralytics Python APIを使用すれば、わずか数行のコードで実現可能です。

以下は、Ultralyticsモデルでのトレーニングと推論がいかにシンプルであるかを示す実践的なコード例です。

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

This simple, unified API natively supports experiment tracking integrations with tools like Weights & Biases and Comet, allowing developers to log metrics seamlessly without writing complex boilerplate code.

Link to this sectionユースケースと推奨事項#

YOLOv5とRT-DETRの選択は、プロジェクトの具体的な要件、デプロイの制約、およびエコシステムの好みに依存します。

Link to this sectionYOLOv5を選択すべき場合#

YOLOv5は次の場合に強力な選択肢となります:

  • 実証済みの本番システム: YOLOv5の長期にわたる安定性の実績、広範なドキュメント、および膨大なコミュニティサポートが重視される既存のデプロイ環境。
  • リソースが制限されたトレーニング: GPUリソースが限られており、YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利に働く環境。
  • 広範なエクスポート形式のサポート: ONNXTensorRTCoreMLTFLiteを含む多くのフォーマット全体でのデプロイが必要なプロジェクト。

Link to this sectionRT-DETRを選択すべき時#

RT-DETRが推奨される場合:

  • Transformerベースの検出研究: NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
  • 高い精度が求められ、レイテンシに柔軟性があるシナリオ: 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
  • 大きな物体の検出: 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section今後の展望:YOLO11とYOLO26#

現在新しいビジョンプロジェクトを開始する場合は、最新世代のUltralyticsモデルを検討することを強く推奨します。

YOLOv5は依然として非常に信頼性が高いですが、YOLO11は精度の向上と、傾きバウンディングボックス (OBB)検出を含む一連のタスクの拡張を提供します。

さらに重要なことに、最先端のYOLO26は両者の長所を融合させています。YOLOv10で初めて導入されたエンドツーエンドのNMSフリー設計を実装しており、CNNの効率を維持しながら後処理のオーバーヘッドを排除します。YOLO26はまた、LLMトレーニングのイノベーションに触発されたMuSGD Optimizerを導入し、より高速な収束を実現しています。DFL Removal(エクスポートの簡素化とエッジ/低電力デバイスとの互換性向上のためのDistribution Focal Lossの削除)により、YOLO26はCPU推論を最大43%高速化し、エッジAIにとって間違いなく最適な選択肢となります。さらに、ProgLoss + STALにより損失関数が改良され、IoT、ロボティクス、航空写真にとって重要な小物体認識において顕著な改善を実現しています。

Link to this section結論#

YOLOv5とRTDETRv2の選択は、デプロイの制約に大きく左右されます。RTDETRv2は強力なTransformerの注意機構を利用してmAPの限界を押し広げますが、メモリと計算のオーバーヘッドという大きなコストを伴います。

対照的に、Ultralytics YOLOv5は、クラウドサーバーからマイクロコントローラまで、どこでもスムーズに動作する、実証済みで高度に最適化された汎用性の高いソリューションを提供します。可能な限り高い精度とシームレスなデプロイツールを求めるチームにとって、Ultralyticsエコシステム内でYOLO26へアップグレードすることは、現代のビジョンAIアプリケーションのための決定的な最先端ソリューションとなります。

コメント