Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX対YOLOv5#

適切な物体検出モデルの選定は、コンピュータビジョンプロジェクトの成否を左右する重要な決断です。本ガイドでは、AI業界における2つの主要モデル、Megvii社のYOLOXとUltralytics YOLOv5について、包括的な技術比較を行います。両者のアーキテクチャ、パフォーマンス指標、およびトレーニングエコシステムを分析し、開発者や研究者が特定の導入環境に合わせて情報に基づいた選択を行えるよう支援します。

Link to this sectionモデルの紹介#

両モデルはリアルタイム物体検出が急速に進歩していた時期に登場しましたが、その性能を達成するためのアーキテクチャの哲学は異なります。

Link to this sectionYOLOX:アンカーフリーのアプローチ#

2021年7月18日にMegviiの研究者であるZheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sunによって発表されたYOLOXは、従来のアンカーボックスから脱却することで大きな転換をもたらしました。彼らのArxiv技術レポートに記録されている通り、YOLOXはアンカーフリーの設計とデカップルヘッド、そしてSimOTAラベル割り当て戦略を統合しました。この設計は、学術研究と産業応用の間のギャップを埋めることを目的としており、標準的なデータセットにおいて強力なパフォーマンスを提供します。

YOLOX について詳しく学ぶ

Link to this sectionYOLOv5:プロダクションVision AIのスタンダード#

2020年6月26日にGlenn Jocherが執筆し、UltralyticsからリリースされたYOLOv5は、導入済みのコンピュータビジョンにおいて急速に業界標準となりました。PyTorchフレームワーク上にネイティブ構築されており、比類のない使いやすさ、非常に高速なトレーニング、そして高度に洗練されたリポジトリを提供することで、最先端のAIを民主化しました。YOLOv5のアーキテクチャは、速度、精度、導入の容易さの完璧なバランスに焦点を当てており、エッジデバイスから大規模なクラウド導入に至るまで、あらゆる場面で選ばれるモデルとなっています。

YOLOv5の詳細はこちら

Link to this sectionアーキテクチャの違い#

これらのネットワーク間の基本的なメカニズムの違いを理解することで、なぜ各タスクにおいてパフォーマンスに差が生じるのかが明確になります。

Link to this sectionアンカーフリー対アンカーベース#

最も決定的な違いは、YOLOXのアンカーフリーメカニズムです。YOLOv5のような従来のモデルは、事前に定義されたアンカーボックスに依存してbboxを予測します。これには、最適なアンカーサイズを決定するためにトレーニングデータセットでのクラスタリング分析が必要です。YOLOXはこれを排除し、各空間位置で直接bbox座標を予測します。アンカーフリーのアプローチは設計パラメータの数とヒューリスティックな調整を減らしますが、YOLOv5の洗練されたアンカーベースのアプローチは、オートアンカー機能によって、最初から非常に安定した予測可能なトレーニングの収束を保証します。

Link to this sectionデカップルヘッド対カップルヘッド#

YOLOXはデカップルヘッドを採用しており、これは分類タスクと回帰タスクが別々のニューラルネットワークブランチに分離されていることを意味します。著者らは、これが空間的特徴学習と意味的特徴学習の間の競合を解決すると主張しました。対照的に、YOLOv5は(初期バージョンにおいて)計算効率を最大化し、推論レイテンシを低減する高度に最適化されたカップルヘッドを利用しており、これはリアルタイムエッジコンピューティングにおいて極めて重要です。

アーキテクチャの進化

YOLOXは2021年にデカップルヘッドを推奨しましたが、Ultralyticsはその後、YOLOv8や最先端のYOLO26などのモデルにおいてデカップルアーキテクチャを採用し、両者の長所を組み合わせて完成度を高めました。

Link to this sectionラベル割り当て戦略#

YOLOXはラベル割り当てにSimOTAを利用しており、これは正解オブジェクトと予測のペアリングを最適な輸送問題として定式化するものです。この動的な割り当てにより、密集したシーンの処理が改善されます。YOLOv5は堅牢な形状ルールに基づく割り当てを採用しており、高品質なポジティブサンプルが確実に損失関数へ供給されるようにしており、これが伝説的なトレーニングの安定性に寄与しています。

Link to this section性能とベンチマーク#

速度と精度のトレードオフは、これらのアーキテクチャにとって究極のテストです。以下の表は、標準的なベンチマークにおける各モデルサイズのパフォーマンスを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOXは特に大規模なバリアントで競争力のあるmAPスコアを達成していますが、YOLOv5はTensorRT推論速度において全体的に驚くべき優位性を維持しています。例えば、YOLOv5sモデルは卓越した速度と精度の比率を提供し、1ミリ秒を争うリアルタイムアプリケーションにおいて非常に望ましい選択肢となります。

Link to this sectionUltralyticsの利点:トレーニングとユーザビリティ#

研究からプロダクションへ移行する際、モデルを取り巻くエコシステムはモデルそのものと同じくらい重要です。ここで、Ultralyticsエコシステムの利点が明確になります。

Link to this section効率的なユーザー体験#

YOLOv5は「ゼロからヒーローへ」の体験を提供することで世界中で高く評価されています。Ultralytics Python APIとCLIを使用すれば、わずか1行のコードでモデルの読み込み、トレーニング、デプロイが可能です。対照的に、Megvii GitHubリポジトリからYOLOXを実行するには、環境変数の手動設定、複雑なPythonパスの設定、そして学術研究用コードベースに典型的な高い学習曲線が必要となります。

Link to this sectionトレーニングの効率とメモリ要件#

Ultralyticsのモデルは、トレーニング中のメモリ使用量を最小限に抑えるよう緻密に設計されています。YOLOv5は、RT-DETRのような高度にパラメータ化されたTransformerモデルや、最適化されていない研究用モデルと比較して、CUDAメモリを大幅に少なく消費します。これにより、開発者はコンシューマーグレードのハードウェアでより大きなバッチサイズでのトレーニングが可能となり、反復的な開発サイクルを加速させます。

Link to this sectionタスク間での汎用性#

YOLOXは厳密には物体検出フレームワークですが、UltralyticsエコシステムはYOLOv5を進化させ、複数のビジョンタスクをサポートしています。標準で画像分類インスタンスセグメンテーション、および物体検出を、全く同じAPI構文を使用して実行できます。

絶え間ない革新

もし姿勢推定指向性バウンディングボックス(OBB)検出のようなさらに高度なタスクが必要な場合は、最新のUltralytics YOLO26アーキテクチャへのアップグレードを強く推奨します。これは、最先端の精度ですべてのタスクをネイティブにサポートしています。

Link to this sectionコード比較#

ユーザビリティの違いは、コードを見れば一目瞭然です。

YOLOv5でのトレーニング:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

YOLOXでのトレーニング: (手動でのリポジトリクローン、setup.pyインストール、および複雑なCLI引数が必要)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Ultralyticsのアプローチは摩擦を排除し、設定ファイルのデバッグではなく、データセットとアプリケーションロジックに集中できるようにします。さらに、Weights & BiasesComet MLへの組み込み統合により、実験の追跡もシームレスに行えます。

Link to this section理想的なユースケースと実世界のアプリケーション#

これらのモデルの選択は、プロジェクトの運用環境に依存します。

Link to this sectionYOLOXが優れている点#

YOLOXは、研究者がアンカーフリーのパラダイムやラベル割り当て戦略を明確に研究している学術環境において、強力な候補であり続けます。また、混雑したシーンでの検出が絶対的に最優先される指標であり、エッジ展開の速度が二の次であるシナリオでも有用です。

Link to this sectionYOLOv5が優れている点#

YOLOv5は実用的なデプロイにおいて疑いの余地のないチャンピオンです。

  • 高速製造: 組立ラインでの欠陥検出において、エッジGPU上でのYOLOv5の最小限の推論レイテンシは、ベルトコンベアの速度を落とすことなく製品の検査を確実に行います。
  • ドローンおよび航空画像: その効率的なメモリフットプリントにより、農業監視や野生生物の追跡といったタスクのために、ドローン上の軽量なコンパニオンコンピュータで実行可能です。
  • スマートリテール: 自動チェックアウトから在庫管理まで、YOLOv5はTensorRTONNXへのエクスポートが容易であり、何千もの店舗用カメラでの大規模なデプロイに対応します。

Link to this section今後の展望:YOLO26の優位性#

YOLOv5は伝説的なモデルですが、AIの分野は急速に進化しています。現在新しいプロジェクトを開始する場合は、最新世代のUltralyticsモデルを検討することを強く推奨します。

2026年にリリースされた**Ultralytics YOLO26は、大きな飛躍を遂げました。これはエンドツーエンドのNMSフリー設計を特徴としており、Non-Maximum Suppression(NMS)の後処理を完全に排除して導入ロジックを劇的に簡素化します。Distribution Focal Loss(DFL)を削除し、最先端のMuSGDオプティマイザを活用することで、YOLO26は従来の世代よりもCPU推論を最大43%高速化**しつつ、新しいProgLoss + STAL損失関数のおかげで、特に小さなオブジェクトに対してより高い精度を維持しています。

YOLOv5の戦闘で証明された信頼性を選択する場合でも、YOLO26の最先端のパフォーマンスを選択する場合でも、Ultralytics Platformは、コンピュータビジョンソリューションをコンセプトからプロダクションへシームレスに移行させるための最高のツールを提供します。包括的なUltralyticsドキュメントを探索し、AIパイプラインの可能性を最大限に引き出してください。

コメント