Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX対YOLOv10#

リアルタイムコンピュータビジョンモデルの進化は、アーキテクチャの重要な飛躍によって特徴づけられてきました。この歩みにおける2つの決定的なマイルストーンがYOLOXとYOLOv10です。2021年にリリースされたYOLOXは、非常に効果的なアンカーフリー設計を導入することで、学術研究と産業応用の間のギャップを埋めることに成功しました。その3年後、YOLOv10は後処理におけるNMS(非最大値抑制)の必要性を排除することで、効率性と速度の境界を押し広げ、この分野に革命をもたらしました。

この包括的な技術比較では、両モデルのアーキテクチャ、パフォーマンス指標、および理想的なユースケースを探り、次の物体検出プロジェクトに最適なツールを選択するための洞察を提供します。

Link to this sectionモデルの起源とメタデータ#

これらのモデルの起源を理解することは、アーキテクチャの選択や想定されるデプロイ環境の背景を理解する助けとなります。

YOLOXの詳細 著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun 組織: Megvii 日付: 2021-07-18 Arxiv: https://arxiv.org/abs/2107.08430 GitHub: https://github.com/Megvii-BaseDetection/YOLOX ドキュメント: https://github.com/Megvii-BaseDetection/YOLOX/tree/main/docs

YOLOXについて詳しく学ぶ

YOLOv10の詳細 著者: Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, and Guiguang Ding 組織: Tsinghua University 日付: 2024-05-23 Arxiv: https://arxiv.org/abs/2405.14458 GitHub: https://github.com/THU-MIG/yolov10 ドキュメント: https://docs.ultralytics.com/models/yolov10/

YOLOv10について詳しく知る

Link to this sectionアーキテクチャの革新#

YOLOXとYOLOv10の主な違いは、バウンディングボックスの予測と後処理の扱いにあります。

Link to this sectionYOLOX: アンカーフリー設計の先駆け#

YOLOXは、YOLOファミリーをアンカーフリーのアーキテクチャに移行させることで大きな波を起こしました。事前に定義されたアンカーボックスに頼るのではなくオブジェクトの中心を予測することで、YOLOXはカスタムデータセットに必要な設計パラメータの数や試行錯誤的な調整を劇的に削減しました。さらに、分類タスクと回帰タスクを個別の経路に分離するデカップリングヘッド(decoupled head)を導入しました。このアプローチにより、オブジェクトが「何」であるかの識別と「どこ」にあるかの決定との間の競合が解消され、収束速度と精度の向上が実現しました。

Link to this sectionYOLOv10: NMSフリー革命#

YOLOXは検出ヘッドを簡素化しましたが、依然として冗長なバウンディングボックス予測をフィルタリングするためにNMSに依存していました。YOLOv10はこの根本的なボトルネックに対処しました。トレーニング中に一貫したデュアルアサインメントを活用することで、YOLOv10はネイティブなエンドツーエンド検出を実現します。トレーニング中はone-to-manyヘッドを使用して豊富な監督シグナルを確保し、推論中はone-to-oneヘッドを使用して最終的な予測を直接出力します。この全体的な効率と精度を重視した設計によりNMSが完全に排除され、組み込みチップでの推論レイテンシが大幅に短縮されました。

NMS排除の影響

NMSは、NPU(Neural Processing Unit)での高速化が難しい複雑な操作であることがよくあります。これを排除することで、YOLOv10はモデルグラフ全体を専用ハードウェア上でシームレスに実行できるようになり、OpenVINOやTensorRTなどの最適化フレームワークとの互換性が劇的に向上しました。

Link to this sectionパフォーマンス指標と比較#

本番環境向けにモデルを評価する際は、精度と計算オーバーヘッドのバランスが重要です。下の表は、さまざまなスケールのYOLOXとYOLOv10のトレードオフを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this sectionデータの分析#

これらの指標は、YOLOv10の世代を超えた飛躍を明確に示しています。例えば、YOLOv10-SはmAPが46.7%で、YOLOX-mの46.9%に匹敵しますが、パラメータ数は3分の1未満(7.2M対25.3M)であり、FLOPsも大幅に削減されています。さらに、最上位のYOLOv10-XモデルはmAPを54.4%まで向上させており、旧来のYOLOX-xアーキテクチャよりも高速でありながら、要求の厳しい精度タスクで非常に高い競争力を発揮します。

Link to this sectionUltralyticsエコシステムの利点#

YOLOXは依然として堅牢なオープンソースの研究実装ですが、YOLOv10を採用することで、Ultralyticsが提供する十分にメンテナンスされたエコシステムを即座に活用できます。Ultralyticsがサポートするモデルを選択することで、シンプルなAPIと広範なドキュメントに裏打ちされた、合理化されたユーザー体験が保証されます。

開発者は、このフレームワークのメモリ要件の恩恵を大きく受けます。Ultralyticsモデルのトレーニングは、RT-DETRのような重いTransformerベースの代替手法よりも、通常はるかに少ないCUDAメモリしか消費しません。この効率的なトレーニングフットプリントにより、コンシューマグレードのハードウェアでもより大きなバッチサイズが可能になり、データ収集からモデルデプロイまでの時間を短縮できます。さらに、このフレームワークは比類のない汎用性を提供し、ユーザーは最小限のコード変更で物体検出インスタンスセグメンテーション、および姿勢推定をシームレスに切り替えることができます。

Link to this sectionトレーニングと推論の例#

統合されたAPIにより、アイデアの検証が非常に高速に行えます。以下のスニペットは、PyTorchバックエンドを使用してYOLOv10モデルをいかに簡単にトレーニングおよびデプロイできるかを示しています。

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export the model for edge deployment
model.export(format="engine", quantize=16)

組み込みのエクスポートルーチンを活用することで、モデルをTensorRTONNXのようなフォーマットに変換する作業は、わずか1行のコードで行うことができ、複雑なコンパイルの手間を完全に回避できます。

Link to this section理想的なユースケースとデプロイシナリオ#

これらのアーキテクチャの選択は、主にハードウェアの制約と特定のドメイン要件に依存します。

Link to this sectionリアルタイムビデオ解析#

自動運転やリアルタイム交通監視など、超低遅延が求められるアプリケーションには、YOLOv10が最適な選択肢です。エンドツーエンドのNMSフリー設計により決定論的な実行時間が保証され、変動する後処理の遅延が許容されない安全システムにおいて不可欠です。これらのモデルは、NVIDIA Jetsonシリーズのようなデバイス上で簡単に高フレームレートを達成します。

Link to this section学術的ベースラインとエッジマイクロコントローラー#

YOLOXは、研究者がラベル割り当て戦略を実験するために、クリーンでデカップリングされたヘッドのベースラインを必要とする学術的な現場において、依然として価値があります。さらに、非常に小型のYOLOX-Nano(100万パラメータ未満)は、ハードウェアが標準的な畳み込み演算をサポートしていれば、メモリがキロバイト単位で測定されるような極めて制約の厳しいエッジマイクロコントローラーにも搭載可能です。

Link to this section究極の標準: Ultralytics YOLO26#

YOLOv10はNMSを排除するという大きな飛躍を遂げましたが、コンピュータビジョンの分野は急速に進歩しています。今日、クラス最高性能のモデルの実装を目指す開発者の皆様には、YOLO26を探求することを強く推奨します。

ビジョンAIの最新標準としてリリースされたYOLO26は、前モデルの基本的なアイデアを取り入れ、それをさらに強化しています。検出、セグメンテーション、姿勢推定、および回転バウンディングボックス(OBB)をネイティブにサポートし、最高のパフォーマンスバランスを提供します。

YOLO26が最新のコンピュータビジョンパイプラインにおいて推奨される理由は以下の通りです。

  • エンドツーエンドのNMSフリー設計: YOLOv10のブレイクスルーを基盤として、YOLO26はネイティブなエンドツーエンドを実現しており、後処理のボトルネックなしに、より高速で決定論的な推論時間を保証します。
  • 最大43%高速なCPU推論: エッジコンピューティング向けに特別に最適化されており、モバイルプロセッサやディスクリートGPUを持たないデバイスでも卓越したパフォーマンスを保証します。
  • MuSGDオプティマイザ: 大規模言語モデルのトレーニング(具体的にはMoonshot AIのKimi K2)に触発されたYOLO26は、SGDとMuonのハイブリッドを採用しており、非常に安定したトレーニングと迅速な収束を実現します。
  • ProgLoss + STAL: これらの高度な損失関数は、航空写真やドローンナビゲーションのような要求の厳しいドメインで重要な、小物体認識において顕著な改善をもたらします。
  • DFL削除: Distribution Focal Lossを削除することで、YOLO26はモデルグラフを簡素化し、エッジデバイスや低電力デバイスへの摩擦のないエクスポートを可能にします。
  • タスク固有の改善: 姿勢推定のためのResidual Log-Likelihood Estimation (RLE)を使用する場合でも、OBBのための特殊な角度損失を使用する場合でも、YOLO26はすべての主要なビジョンタスク向けに微調整されています。

利用可能な最も効率的なトレーニングおよびデプロイツールでパイプラインをアップグレードする準備ができている開発者にとって、Ultralytics Platformへ移行しYOLO26を活用することは、人工知能の最前線に留まることを保証します。旧来の安定したアーキテクチャに関心があるユーザーは、広範なコミュニティサポートと実証済みの堅牢性を備えたYOLO11YOLOv8を検討することも可能です。

コントリビューター

コメント