Link to this sectionコンピュータビジョンのためのデータ収集およびアノテーション戦略#

データ収集とアノテーションは、すべてのコンピュータビジョンプロジェクトにおける2つの基礎的なステップです。代表的な画像や動画を収集し、モデルが学習できるようにラベル付けを行います。このデータの品質がモデルの性能を直接左右するため、トレーニングを開始する前に、クラス定義、バイアスのないソース選定、そして一貫したアノテーションが重要になります。

Watch: How to Build Effective Data Collection and Annotation Strategies for Computer Vision 🚀

このガイドでは、クラスの設定とデータの収集、データアノテーションとは何か（アノテーションの種類や形式の選択を含む）、そして効率的なラベリング戦略について解説します。すべての決定はプロジェクトの目標と整合させる必要があります。

Link to this sectionクラスの設定とデータの収集#

コンピュータビジョンプロジェクト用の画像や動画の収集は、定義するクラスの数、データの調達先、そしてデータセットのバイアスを排除する方法という3つの決定事項に集約されます。

Link to this sectionプロジェクトに適したクラスの選択#

コンピュータビジョンプロジェクトを開始する際、最初に問われることの一つが、いくつのクラスを含めるかです。モデルに何を認識させ、区別させたいかというカテゴリーやラベルである、クラス構成を決定しなければなりません。クラス数は、プロジェクトの具体的な目標に基づいて決定されるべきです。

例えば、交通量を監視したい場合、クラスには「車」、「トラック」、「バス」、「オートバイ」、「自転車」などが考えられます。一方、店舗内の商品を追跡する場合、クラスは「果物」、「野菜」、「飲料」、「スナック」などになるでしょう。プロジェクトの目標に基づいてクラスを定義することで、データセットを関連性が高く、焦点を絞ったものに保つことができます。

クラスを定義する際、もう一つ重要な区別は、クラス数を粗く（Coarse）するか細かく（Fine）するかを選択することです。「数（Count）」とは、対象とする異なるクラスの数を指します。この決定が、データの粒度とモデルの複雑さに影響します。各アプローチの検討事項は以下の通りです。

粗いクラス数（Coarse Class-Count）: 「車両」や「非車両」のように、より広範で包括的なカテゴリーです。アノテーションが簡略化され、必要な計算リソースも少なくて済みますが、詳細な情報が得られないため、複雑なシナリオではモデルの有効性が制限される可能性があります。
細かいクラス数（Fine Class-Count）: 「セダン」、「SUV」、「ピックアップトラック」、「オートバイ」のように、より細かい区別を持つカテゴリーです。詳細な情報を捕捉できるため、モデルの精度とパフォーマンスが向上します。ただし、アノテーションにはより多くの時間と労力を要し、より多くの計算リソースが必要になります。

特に詳細が重要な複雑なプロジェクトでは、より具体的なクラスから始めることが非常に役立ちます。より具体的なクラスによって、詳細なデータを収集し、より深い洞察を得て、カテゴリー間の明確な区別を確立できます。これはモデルの精度を向上させるだけでなく、必要に応じて後からモデルを調整しやすくし、時間とリソースの両方を節約することにもつながります。

Link to this sectionデータのソース#

公開データセットを使用するか、独自のカスタムデータを収集することができます。KaggleやGoogle Dataset Search Engineのような公開データセットは、適切にアノテーションされた標準化データを提供しており、モデルのトレーニングや検証を開始するのに最適です。

一方、カスタムデータの収集では、特定のニーズに合わせてデータセットをカスタマイズできます。カメラやドローンで画像や動画を撮影したり、ウェブから画像をスクレイピングしたり、組織内の既存データを使用したりすることも可能です。カスタムデータは、品質と関連性においてより大きな制御を可能にします。公開データとカスタムデータの両方のソースを組み合わせることで、多様で包括的なデータセットを作成できます。

Link to this sectionデータ収集におけるバイアスの回避#

バイアス（偏り）は、特定のグループやシナリオがデータセット内で過小評価または過大評価されている場合に発生します。その結果、一部のデータに対してはうまく機能するものの、他のデータに対しては機能しないモデルになってしまいます。コンピュータビジョンモデルがさまざまなシナリオでうまく機能するように、AIにおけるバイアスを回避することが極めて重要です。

データ収集中にバイアスを回避する方法は以下の通りです。

多様なソース: さまざまな視点やシナリオを捉えるために、多くのソースからデータを収集してください。
バランスの取れた表現: すべての関連グループからのバランスの取れた表現を含めてください。例えば、年齢、性別、民族性などの違いを考慮します。
継続的なモニタリング: データセットを定期的に見直し更新することで、新たに発生するバイアスを特定して対処してください。
バイアス緩和技術: 過小評価されているクラスのオーバーサンプリング、データ拡張、公平性を意識したアルゴリズムなどの手法を使用してください。

これらの実践に従うことで、実世界のアプリケーションにおいて汎用性が高く、より堅牢で公平なモデルを作成する助けとなります。

Link to this sectionデータアノテーションとは？#

データアノテーションとは、機械学習モデルのトレーニングに使用できるようにデータにラベルを付けるプロセスです。コンピュータビジョンでは、モデルが学習するために必要な情報を画像や動画にラベル付けすることを意味します。適切にアノテーションされていないデータでは、モデルは入力と出力の間の関係を正確に学習できません。

Link to this sectionデータアノテーションの種類#

コンピュータビジョンタスクの特定の要件に応じて、さまざまな種類のアノテーションがあります。以下に例を挙げます。

Bounding Boxes（バウンディングボックス）: 画像内のオブジェクトの周囲に描かれる長方形の枠で、主に物体検出タスクに使用されます。これらのボックスは、左上と右下の座標によって定義されます。
Polygons（ポリゴン）: オブジェクトの輪郭を詳細に指定するもので、バウンディングボックスよりも正確なアノテーションが可能です。ポリゴンは、オブジェクトの形状が重要となるインスタンスセグメンテーションなどのタスクで使用されます。
Masks（マスク）: 各ピクセルがオブジェクトの一部か背景かを示すバイナリマスクです。マスクは、ピクセルレベルの詳細を提供するセマンティックセグメンテーションタスクで使用されます。
Keypoints（キーポイント）: 画像内の特定の関心点を特定するためにマークされた点です。キーポイントは、姿勢推定や顔のランドマーク検出などのタスクで使用されます。

Data annotation types including bounding boxes, polygons, and masks

Link to this section一般的なアノテーションフォーマット#

アノテーションの種類を選択した後、アノテーションの保存と共有に適した形式を選択することが重要です。最も一般的な形式は以下の通りです。

形式	ファイル構造	一般的に使用される用途
COCO	単一のJSONファイル	物体検出、インスタンスセグメンテーション、キーポイント検出、stuffおよびパノプティックセグメンテーション、画像キャプション
Pascal VOC	画像1枚につきXMLファイル1つ	物体検出
YOLO	画像1枚につき1つの`.txt`ファイル	物体検出、セグメンテーション、ポーズ

The YOLO format stores one row per object with class indices starting from 0. For object detection the row is class x_center y_center width height with normalized 0–1 coordinates, while segmentation appends normalized polygon points and pose appends keypoint coordinates plus optional visibility values after the box.

Link to this sectionアノテーションガイドラインの設定#

アノテーションの種類と形式が決まったら、次は明確かつ客観的なラベリングルールを確立します。これらのルールは、アノテーションプロセス全体における一貫性と精度を保つためのロードマップとして機能します。ルールの重要な側面には以下が含まれます。

明確さと詳細さ: 指示が明確であることを確認してください。何が期待されているかを示すために、例や図解を使用してください。
一貫性: アノテーションを統一してください。異なる種類のデータをアノテーションするための標準基準を設定し、すべてのアノテーションが同じルールに従うようにします。
バイアスの低減: 中立を保ってください。客観的になるように自身を訓練し、個人的なバイアスを最小限に抑えて公平なアノテーションを確実にしてください。
効率性: より賢く働き、効率を上げてください。反復的なタスクを自動化するツールやワークフローを使用して、アノテーションプロセスを迅速かつ効率的にします。

ラベリングルールを定期的に見直し更新することで、アノテーションの正確性と一貫性を保ち、プロジェクトの目標に沿った状態を維持できます。

Link to this sectionアノテーションツール#

優れたアノテーションツールは、タスクに必要なあらゆるタイプをラベル付けでき、ガイドラインの一貫性を強制し、トレーニング可能な形式でラベルをエクスポートできるものです。Ultralytics Platformは、検出、インスタンスセグメンテーション、ポーズ、OBB、分類に対応した組み込みのアノテーションエディターを提供しています。また、SAMを活用したスマートアノテーションにより、ワンクリックで検出、セグメンテーション、OBBタスク用のマスクを作成可能です。すべてのアノテーションはYOLO形式で保存されるため、変換ステップなしで直接トレーニングに移行できます。

Link to this sectionアノテーションの品質：正確性、適合率、外れ値#

大規模なアノテーションを行う前に、正確性、適合率、外れ値、品質管理について理解しておくと、非効率なデータラベリングを防ぐことができます。

Link to this section正確性と精度の理解#

正確性と精度の違い、およびそれがアノテーションとどのように関連しているかを理解することが重要です。正確性（Accuracy）は、アノテーションされたデータが真の値にどれだけ近いかを示します。ラベルが実世界のシナリオをどの程度正確に反映しているかを測定するのに役立ちます。精度（Precision）は、アノテーションの一貫性を示します。データセット全体を通して、同じオブジェクトや特徴に同じラベルを付けているかどうかを確認します。高い正確性と精度は、ノイズを減らし、トレーニングデータからモデルが一般化する能力を向上させることで、より優れたトレーニング済みモデルへと導きます。

Accuracy vs precision comparison for data annotation

Link to this section外れ値の識別#

外れ値とは、データセット内の他の観測値からかなり逸脱したデータポイントのことです。アノテーションに関して言えば、外れ値とは、誤ってラベル付けされた画像や、データセットの残りの部分と一致しないアノテーションを指す可能性があります。外れ値はモデルの学習プロセスを歪め、不正確な予測や低い汎化性能につながる可能性があるため、懸念すべき問題です。

外れ値を検出・修正するために、さまざまな手法を使用できます。

統計的アプローチ: ピクセル値、バウンディングボックス座標、オブジェクトのサイズなどの数値的特徴における外れ値を検出するために、箱ひげ図、ヒストグラム、zスコアなどの手法を使用できます。
視覚的アプローチ: オブジェクトのクラス、色、形状といったカテゴリカルな特徴における異常を見つけるために、画像、ラベル、ヒートマップをプロットするなどの視覚的な方法を使用してください。
アルゴリズム的手法: クラスタリング（例：K-meansクラスタリング、DBSCAN）や異常検知アルゴリズムなどのツールを使用して、データ分布パターンに基づいて外れ値を識別します。

Link to this sectionアノテーション済みデータの品質管理#

他の技術プロジェクトと同様に、アノテーション済みデータにおいても品質管理は不可欠です。アノテーションが正確で一貫していることを確認するために、定期的にチェックするのが良い実践です。これはいくつかの異なる方法で行うことができます。

アノテーション済みデータのサンプルをレビューする
自動化ツールを使用して一般的なエラーを見つける
他の人にアノテーションをダブルチェックしてもらう

複数の担当者で作業している場合、アノテーター間の一貫性が重要です。アノテーター間合意（inter-annotator agreement）が高いということは、ガイドラインが明確であり、全員が同じ方法で作業できていることを意味します。これにより、全員の認識を一致させ、アノテーションの一貫性を保つことができます。

レビュー中にエラーが見つかった場合は、それを修正し、将来のミスを防ぐためにガイドラインを更新してください。アノテーターにフィードバックを提供し、エラーを減らすために定期的なトレーニングを実施してください。エラーを処理するための強力なプロセスを持つことで、データセットを正確かつ信頼性の高いものに保つことができます。

Link to this section効率的なデータラベリング戦略#

データラベリングのプロセスをよりスムーズで効果的にするために、以下の戦略の実装を検討してください。

明確なアノテーションガイドライン: すべてのアノテーターがタスクを一貫して解釈できるように、例を交えた詳細な指示を提供してください。例えば、鳥をラベリングする際に、鳥全体を含めるべきか、特定の部位のみを含めるべきかを指定します。
定期的な品質チェック: ベンチマークを設定し、特定のメトリクスを使用して作業をレビューすることで、継続的なフィードバックを通じて高い基準を維持します。
事前アノテーションツールの使用: 多くの現代的なアノテーションプラットフォームは、AI支援による事前アノテーション機能を提供しています。これにより、AIが生成した初期アノテーションを人間が修正することで、プロセスを大幅にスピードアップできます。
アクティブラーニングの実装: このアプローチでは、最も情報量の多いサンプルから優先的にラベリングを行うため、モデルのパフォーマンスを維持しつつ、必要なアノテーションの総数を減らすことができます。
バッチ処理: 一貫性を維持し効率を高めるために、類似した画像をグループ化してアノテーションを行います。

これらの戦略は、高品質なアノテーションを維持しながら、ラベリングプロセスに必要な時間とリソースを削減する助けとなります。

Link to this sectionコミュニティと意見を共有する#

他のコンピュータビジョン愛好家とアイデアや質問を共有することは、プロジェクトを加速させるのに役立ちます。学習、トラブルシューティング、ネットワーク構築のための優れた方法は以下の通りです。

Link to this sectionヘルプとサポートを見つける場所#

GitHub Issues: YOLO26 GitHubリポジトリにアクセスし、Issuesタブを使用して質問をしたり、バグを報告したり、機能を提案したりしてください。コミュニティやメンテナが、直面しているあらゆる問題のサポートを行います。
Ultralytics Discordサーバー: Ultralytics Discordサーバーに参加して、他のユーザーや開発者と交流し、サポートを受け、知識を共有し、アイデアを出し合いましょう。

Link to this section公式ドキュメント#

Ultralytics YOLO26ドキュメント: 数多くのコンピュータビジョンタスクやプロジェクトに関する詳細なガイドや貴重な洞察については、公式YOLO26ドキュメントを参照してください。

Link to this section結論#

多様でバイアスのないデータを収集し、適切なツールを使用して一貫性のあるアノテーションを行うことが、信頼性の高いコンピュータビジョンモデルの基礎となります。データセットの収集とラベリングが完了したら、コンピュータビジョンプロジェクトのステップガイドに進み、トレーニングと評価を開始してください。

Link to this sectionよくある質問 (FAQ)#

Link to this sectionコンピュータビジョンプロジェクトにおいて、データ収集時のバイアスを回避する最善の方法は何ですか？#

バイアスを最小限に抑えるには、多様なソースからデータを収集し、関連するすべてのグループ（年齢、性別、民族など）間でバランスの取れた表現を確保し、データセットを定期的にレビューおよび更新して新たなバイアスを検出し、過小評価されているクラスのオーバーサンプリング、データ拡張、公平性を考慮したアルゴリズムなどの緩和手法を適用してください。このようにバイアスを回避することで、コンピュータビジョンモデルが多様な実世界のシナリオで良好に機能し、汎化能力が向上します。

Link to this sectionデータアノテーションにおいて、高い一貫性と精度を確保するにはどうすればよいですか？#

詳細な指示、例、図を含む明確で客観的なラベリングガイドラインを策定し、すべてのデータタイプに一律に適用して、すべてのアノテーションが同じルールに従うようにします。アノテーターが個人的なバイアスを減らすために中立を保つようトレーニングし、ガイドラインを定期的にレビュー・更新し、自動一貫性チェックやアノテーター間のフィードバックを活用して、精度を高め、プロジェクト目標と一致させ続けます。

Link to this sectionUltralytics YOLOモデルのトレーニングには何枚の画像が必要ですか？#

クラスごとに数百個のアノテーション済みオブジェクトがあれば、転移学習の実験を開始するには十分ですが、信頼性の高い実世界でのパフォーマンスを得るために、Ultralyticsはクラスあたり少なくとも1,500枚の画像と10,000個のラベル付きインスタンスを推奨しています。十分なサイズのデータセットと妥当なトレーニングスケジュールを組み合わせ、約300エポックを一般的な開始点とし、モデルが早期に過学習する場合は減らし、アノテーションを厳密かつプロジェクトの特定の目標に合わせるようにしてください。詳細なトレーニング戦略については、YOLO26トレーニングガイドをご覧ください。

Link to this sectionUltralyticsはデータアノテーションツールを提供していますか？#

はい。Ultralytics Platformには、単一のワークスペース内でバウンディングボックス、ポリゴン、キーポイント、指向性ボックス、分類ラベルをサポートする組み込みのアノテーションエディターが含まれています。SAMを活用したスマートアノテーションは、ワンクリックでマスクを生成することにより、検出、セグメンテーション、OBBタスクのラベリングを高速化し、すべてのアノテーションはYOLO形式で保存され、トレーニングの準備が整います。

Link to this sectionコンピュータビジョンで一般的に使用されるデータアノテーションの種類は何ですか？#

コンピュータビジョンにおいて最も一般的なデータアノテーションの種類は、バウンディングボックス、ポリゴン、マスク、およびキーポイントであり、それぞれ異なるタスクに適しています。

Bounding Boxes（バウンディングボックス）: 主に物体検出に使用され、画像内のオブジェクトを囲む長方形の枠です。
Polygons（ポリゴン）: インスタンスセグメンテーションタスクに適した、より正確なオブジェクトの輪郭を提供します。
Masks（マスク）: ピクセルレベルの詳細を提供し、背景とオブジェクトを区別するためにセマンティックセグメンテーションで使用されます。
Keypoints（キーポイント）: 画像内の特定の関心点を識別し、姿勢推定や顔のランドマーク検出などのタスクに有用です。

適切なアノテーションの種類の選択は、プロジェクトの要件によって異なります。これらのアノテーションの実装方法とそのフォーマットについては、弊社のデータアノテーションガイドで詳しく解説しています。

貢献者

GLglenn-jocher¹¹ RAraimbekovm³ RIRizwanMunawar² ABabirami-vina¹

作成日 2024年5月31日更新日 3 週間前