Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2とYOLOv7の比較#

コンピュータビジョンの領域は、畳み込みニューラルネットワーク(CNN)とVision Transformer(ViT)の両方における絶え間ないイノベーションにより、ここ数年で劇的に拡大しました。デプロイメントに最適なアーキテクチャを選択するには、速度、精度、計算オーバーヘッドの間の微妙なトレードオフを理解する必要があります。本ガイドでは、高く評価されている2つのアーキテクチャであるRTDETRv2とYOLOv7の技術的な違いを解説するとともに、最新のUltralytics YOLO26で利用可能な最新の進歩についても紹介します。

Link to this sectionRTDETRv2:リアルタイム検出へのTransformerアプローチ#

RTDETRv2(Real-Time Detection Transformer version 2)は、その前身の基盤の上に構築されており、従来のポストプロセスステップに頼ることなく、Transformerベースのアーキテクチャがリアルタイムのシナリオで効果的に競合できることを証明しています。

著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織: Baidu 日付: 2024-07-24 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RTDETRv2 Repository

Link to this sectionアーキテクチャのハイライト#

RTDETRv2 utilizes a hybrid encoder and a transformer decoder architecture. By leveraging self-attention mechanisms, the model processes the entire image holistically, allowing it to understand complex spatial relationships better than strictly localized convolutional kernels. One of its most defining features is its natively NMS-free design. By eliminating Non-Maximum Suppression (NMS), RTDETRv2 removes a common bottleneck that introduces variable inference latency during deployment.

Link to this section強みと制限#

RTDETRv2の主な強みは、複雑なシーンにおける密集した重なり合うオブジェクトを処理できる能力にあります。Transformerの注意層によって提供されるグローバルコンテキストにより、特にオクルージョン(遮蔽)が頻発するシナリオにおいて、非常に高い精度を実現します。

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

RTDETRv2について詳しく学ぶ

Link to this sectionYOLOv7:速度のためのCNNベースライン#

RTDETRv2の1年前にリリースされたYOLOv7は、古典的なYOLOフレームワークにいくつかの構造的な最適化を導入し、発表当時にCNNベースのリアルタイム検出器としての強力なベンチマークを設定しました。

著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
組織: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: YOLOv7 Repository

Link to this sectionアーキテクチャのハイライト#

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Link to this section強みと制限#

YOLOv7は標準的なオブジェクト検出タスクにおいて非常に有能なモデルであり、一般的なGPUで優れた処理速度を提供します。CNNベースであるため、RTDETRv2のようなTransformerベースのモデルと比較して、トレーニング中のCUDAメモリ消費が少ないのが一般的です。

これらの利点がある一方で、YOLOv7は依然としてポストプロセスにNMSに依存しています。予測が密集する環境では、NMSステップによって処理時間に変動が生じる可能性があり、厳密なリアルタイム性を保証することが困難になります。さらに、最新のフレームワークと比較して、インスタンスセグメンテーション姿勢推定のような多様なタスクを扱うプロセスが断片化している場合があります。

YOLOv7の詳細はこちら

Link to this sectionパフォーマンスの比較#

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
性能に関するコンテキスト

RTDETRv2-xは最高のmAPを達成しますが、同時に最大のパラメータ数とFLOPsを要します。RTDETRv2-sのような小型のバリエーションはTensorRT上で競争力のある速度を提供しますが、専用GPUを持たない低電力環境をターゲットとするユーザーは、CPU推論能力を慎重に評価する必要があります。

Link to this section最新のソリューション:YOLO26の登場#

While RTDETRv2 and YOLOv7 were pivotal in pushing the boundaries of computer vision applications, the AI landscape evolves rapidly. Released in January 2026, YOLO26 synthesizes the best aspects of both CNN efficiency and transformer-like NMS-free architectures.

新しいシステムを構築する開発者や研究者にとって、統合されたUltralytics PlatformとPythonエコシステムは、技術的負債を大幅に削減する統一された体験を提供します。

Link to this sectionYOLO26 における主な革新#

  • エンドツーエンドのNMSフリー設計: YOLO26はネイティブなエンドツーエンドモデルであり、NMSポストプロセスを排除して、より高速でシンプルなデプロイメントを実現します。この画期的なアプローチはYOLOv10で最初に導入され、オブジェクトの密度に関係なく安定したレイテンシを保証します。
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • MuSGDオプティマイザ: SGDとMuon(Moonshot AIのKimi K2に触発された)のハイブリッドであり、LLMのトレーニングイノベーションをコンピュータビジョンにもたらし、より安定したトレーニングと高速な収束を実現します。
  • DFLの削除: Distribution Focal Lossが削除されたことで、計算グラフが簡素化され、組み込みNPUやTensorRT環境へのエクスポートがスムーズになりました。
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • タスク固有の改善: YOLO26は検出専用ではありません。セグメンテーションのためのマルチスケールプロトタイプ、姿勢追跡のためのRLE(Residual Log-Likelihood Estimation)、および指向性バウンディングボックス (OBB)の境界問題を解決する特殊な角度損失機能を備えています。

Link to this section合理化された開発体験#

YOLO26(または非常に人気のあるYOLO11)のようなUltralyticsモデルを選択する真の利点は、十分に整備されたエコシステムにあります。カスタムデータセットのトレーニングには、最小限の定型コードしか必要としません。

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26の詳細はこちら

Link to this section理想的なユースケースとアプリケーション#

これらのアーキテクチャの選択は、ターゲットとなるハードウェアと特定の運用要件に大きく依存します。

Link to this sectionRTDETRv2を検討すべき場合#

RTDETRv2は、強力なGPUを搭載したサーバーサイド処理環境において非常に効果的です。そのグローバル注意メカニズムにより、過密なイベントモニタリングや、重複する特徴のために深いコンテキスト分析が必要な特殊な医療画像診断など、複雑なシーンの理解に適しています。

Link to this sectionYOLOv7を検討すべき場面#

YOLOv7は、レガシーな学術研究においてベースライン比較モデルとして維持されることが多いです。また、既存のパイプラインが特定のPyTorchバージョンにハードコーディングされており、新しいフレームワークのマルチタスク柔軟性を必要としない、古い産業用デプロイメントでも見られます。

Link to this sectionなぜYOLO26が推奨される基準なのか#

For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.

さらなる比較

これらのモデルと他のアーキテクチャとの比較に興味がありますか?YOLO11 vs. RTDETRおよびYOLOv8 vs. YOLOv7に関する詳細ガイドをチェックして、ビジョンAIプロジェクトに最適なものを見つけてください。

コメント