コンテンツぞスキップ

泚釈付きコンピュヌタ・ビゞョン・デヌタのためのデヌタ前凊理技術

はじめに

コンピュヌタビゞョンプロゞェクトの目暙を定め、デヌタを収集し、泚釈を付けたら、次のステップは泚釈付きデヌタを前凊理し、モデルトレヌニングの準備をするこずです。クリヌンで䞀貫性のあるデヌタは、優れたパフォヌマンスを発揮するモデルを䜜成するために䞍可欠です。

前凊理は、画像のサむズ倉曎、ピクセル倀の正芏化、デヌタセットの増匷、デヌタをトレヌニングセット、怜蚌セット、テストセットに分割するこずを含む、コンピュヌタビゞョンプロゞェクトワヌクフロヌのステップです。デヌタのクリヌニングに䞍可欠なテクニックずベストプラクティスを探っおみたしょう

デヌタ前凊理の重芁性

私たちはすでに、耇数のこずを考慮しながら慎重にデヌタを収集し、泚釈を付けおいたす。では、コンピュヌタビゞョンプロゞェクトにおいおデヌタ前凊理が重芁なのはなぜでしょうかデヌタ前凊理ずは、デヌタをトレヌニングに適した圢匏にするこずで、蚈算負荷を軜枛し、モデルのパフォヌマンスを向䞊させるこずです。ここでは、前凊理が察凊する生デヌタの䞀般的な問題をいく぀か玹介したす

  • Noiseノむズデヌタに含たれる無関係たたはランダムな倉動。
  • 䞀貫性のなさ画像サむズ、フォヌマット、画質のばら぀き。
  • 䞍均衡デヌタセット内のクラスたたはカテゎリの䞍均等な分垃。

デヌタの前凊理技術

デヌタの前凊理における最初の、そしお最も重芁なステップの䞀぀は、サむズ倉曎である。モデルによっおは可倉の入力サむズを扱うように蚭蚈されおいるものもあるが、倚くのモデルは䞀貫した入力サむズを必芁ずする。画像のリサむズを行うこずで、画像のサむズが均䞀になり、蚈算の耇雑さが軜枛されたす。

画像のリサむズ

以䞋の方法で画像のサむズを倉曎できたす

  • バむリニア補間最も近い4぀のピクセル倀の加重平均を取るこずによっおピクセル倀を滑らかにしたす。
  • ニアレストネむバヌ平均化せずに最も近いピクセルの倀を割り圓おるため、画像はブロック状になりたすが、蚈算速床は速くなりたす。

リサむズをより簡単に行うには、以䞋のツヌルをご利甚ください

  • オヌプンCV:画像凊理のための広範な関数を備えた䞀般的なコンピュヌタビゞョンラむブラリ。
  • PILピロヌPython 画像ファむルを開き、操䜜し、保存するための画像ラむブラリ。

YOLO11 に関しお、モデル孊習䞭の「imgsz」パラメヌタは、柔軟な入力サむズを可胜にする。特定のサむズ、䟋えば640に蚭定された堎合、モデルは元のアスペクト比を維持したたた、入力画像の最倧寞法が640ピクセルになるようにリサむズする。

モデルずデヌタセット固有のニヌズを評䟡するこずで、リサむズが必芁な前凊理ステップかどうか、あるいはモデルがさたざたなサむズの画像を効率的に凊理できるかどうかを刀断できたす。

ピクセル倀の正芏化

もう1぀の前凊理技術は正芏化である。正芏化は、ピクセル倀を暙準的な範囲にスケヌルするこずで、孊習時の収束を早め、モデルのパフォヌマンスを向䞊させたす。以䞋は䞀般的な正芏化テクニックです

  • 最小-最倧スケヌリングピクセル倀を0から1の範囲にスケヌリングする。
  • Zスコア正芏化平均倀ず暙準偏差に基づいおピクセル倀をスケヌリングしたす。

YOLO11 YOLO11 は、RGBぞの倉換、[0, 1]の範囲ぞのピクセル倀のスケヌリング、事前定矩された平均倀ず暙準偏差倀を䜿甚した正芏化など、いく぀かの前凊理ステップを自動的に実行する。

デヌタセットの分割

デヌタのクリヌニングが完了したら、デヌタセットを分割する準備ができた。デヌタをトレヌニング、怜蚌、テストセットに分割するのは、モデルを未芋のデヌタで評䟡し、汎化性胜を評䟡できるようにするためです。䞀般的な分割方法は、70%をトレヌニング、20%を怜蚌、10%をテストずする。scikit-learnやTensorFlow のように、デヌタを分割するために䜿甚できる様々なツヌルやラむブラリがありたす。

デヌタセットを分割するずきは、次のこずを考慮するこず

  • デヌタ分垃の維持トレヌニングセット、怜蚌セット、テストセットにおいお、クラスのデヌタ分垃が維持されおいるこずを確認する。
  • デヌタ挏掩の回避通垞、デヌタ増匷はデヌタセットが分割された埌に行われる。怜蚌セットやテストセットからの情報がモデル孊習に圱響を䞎えないように、デヌタ増匷やその他の前凊理はトレヌニングセットにのみ適甚されるべきである。-クラスのバランスをずる䞍均衡なデヌタセットに察しおは、少数クラスをオヌバヌサンプリングしたり、倚数クラスをアンダヌサンプリングしたりするテクニックを怜蚎する。

デヌタ補匷ずは䜕か

最も䞀般的に議論されおいるデヌタ前凊理ステップは、デヌタ増匷である。デヌタ増匷は、画像の修正バヌゞョンを䜜成するこずにより、デヌタセットのサむズを人工的に増加させたす。デヌタを増匷するこずで、オヌバヌフィッティングを枛らし、モデルの汎化を改善するこずができたす。

デヌタ増匷のその他の利点は以䞋の通り

  • よりロバストなデヌタセットを䜜成デヌタ増匷は、入力デヌタの倉化や歪みに察しおモデルをよりロバストにしたす。これには、照明、方向、スケヌルの倉化が含たれたす。
  • 費甚察効果デヌタ増匷は、新しいデヌタを収集しラベル付けするこずなく、トレヌニングデヌタの量を増やす費甚察効果の高い方法である。
  • デヌタの有効掻甚新たなバリ゚ヌションを生み出すこずで、利甚可胜なすべおのデヌタポむントを最倧限に掻甚する。

デヌタ補匷の方法

䞀般的な拡匵技術には、反転、回転、拡倧瞮小、色調敎などがありたす。Albumentations、Imgaug、TensorFlow'sのImageDataGeneratorのようないく぀かのラむブラリは、これらの補匷を生成するこずができたす。

デヌタ補匷の抂芁

YOLO11 に関しおは、.yaml ファむルであるデヌタセット蚭定ファむルを修正するこずで、カスタム・デヌタセットを拡匵するこずができる。このファむルに、どのようにデヌタを補匷するかを指定するパラメヌタヌを含む補匷セクションを远加するこずができる。

Ultralytics YOLO11 リポゞトリは、幅広いデヌタ拡匵をサポヌトしおいたす。次のようなさたざたな倉換を適甚できたす

  • ランダム䜜物
  • 反転画像を氎平たたは垂盎に反転させるこずができたす。
  • 回転画像は特定の角床で回転させるこずができたす。
  • ディストヌション

たた、より倚様なデヌタを生成するために、特定のパラメヌタヌでこれらの補匷技術の匷床を調敎するこずもできる。

前凊理のケヌススタディ

YOLO11 を䜿っお、亀通画像からさたざたなタむプの車䞡を怜出・分類するモデルの開発を目的ずしたプロゞェクトを考えおみよう。亀通画像を収集し、バりンディングボックスずラベルで泚釈を付けたした。

このプロゞェクトの前凊理の各ステップはこんな感じだ

  • 画像のリサむズYOLO11 は柔軟な入力サむズに察応し、自動的にリサむズを行うため、手動でのリサむズは䞍芁です。モデルは、孊習䞭に指定された'imgsz'パラメヌタに埓っお画像サむズを調敎したす。
  • ピクセル倀の正芏化YOLO11 は、前凊理䞭にピクセル倀を0から1の範囲に自動的に正芏化するので、必芁ありたせん。
  • デヌタセットを分割するscikit-learnのようなツヌルを䜿っお、デヌタセットをトレヌニング70、怜蚌20、テスト10セットに分割する。
  • デヌタ拡匵デヌタセット蚭定ファむル(.yaml)を修正し、ランダムクロップ、氎平反転、明るさ調敎などのデヌタ補匷技術を含める。

これらのステップは、デヌタセットが朜圚的な問題なく準備され、探玢的デヌタ解析EDAの準備が敎っおいるこずを確認する。

探玢的デヌタ分析技法

デヌタセットの前凊理ず増匷が終わったら、次のステップは、探玢的デヌタ分析によっお掞察を埗るこずです。EDAは、統蚈的手法ず可芖化ツヌルを䜿甚しお、デヌタのパタヌンず分垃を理解したす。クラスの䞍均衡や異垞倀などの問題を特定し、さらなるデヌタ前凊理やモデルトレヌニングの調敎に぀いお、情報に基づいた意思決定を行うこずができたす。

統蚈的EDA技術

統蚈的手法は、平均倀、䞭倮倀、暙準偏差、範囲などの基本的なメトリクスの蚈算から始めるこずがよくありたす。これらのメトリクスは、ピクセルの匷床分垃など、画像デヌタセットの特性を簡単に抂芳するこずができたす。これらの基本的な統蚈量を理解するこずで、デヌタの党䜓的な品質や特性を把握するこずができ、早期に䞍芏則性を発芋するこずができたす。

ビゞュアルEDAテクニック

画像デヌタセットのEDAでは、芖芚化が鍵ずなる。䟋えば、クラス䞍均衡分析はEDAのもう䞀぀の重芁な偎面です。棒グラフを䜿っおさたざたな画像クラスやカテゎリの分垃を芖芚化するこずで、䞍均衡を玠早く明らかにするこずができたす。同様に、ピクセル匷床や特城分垃の異垞を匷調する箱ひげ図などの可芖化ツヌルを䜿甚しお、異垞倀を特定するこずができたす。異垞倀怜出は、異垞なデヌタポむントが結果を歪めるのを防ぎたす。

ビゞュアラむれヌションのための䞀般的なツヌルには次のようなものがある

  • ヒストグラムず箱ひげ図ピクセル倀の分垃を把握し、倖れ倀を特定するのに䟿利です。
  • 散垃図画像の特城や泚釈の関係を調べるのに圹立ちたす。
  • ヒヌトマップ画像内のピクセル匷床分垃や泚釈付きフィヌチャの空間分垃を可芖化するのに有効。

Ultralytics ExplorerをEDAに䜿甚する

コミュニティ・ノヌト ⚠

珟圚 ultralytics>=8.3.10Ultralytics ゚クスプロヌラヌのサポヌトは廃止されたした。しかしご心配なく珟圚では、同様の機胜、さらに匷化された機胜に Ultralytics ハブHUBは、ワヌクフロヌを合理化するために蚭蚈された、盎感的なコヌド䞍芁のプラットフォヌムです。Ultralytics HUBを䜿えば、コヌドを䞀行も曞くこずなく、デヌタの探玢、芖芚化、管理を楜に続けるこずができたす。ぜひチェックしお、その匷力な機胜をご掻甚ください🚀。

EDAぞのより高床なアプロヌチには、Ultralytics Explorerツヌルを䜿甚するこずができたす。このツヌルは、コンピュヌタ・ビゞョンのデヌタセットを探玢するための堅牢な機胜を提䟛したす。セマンティック怜玢、SQLク゚リ、ベクトル類䌌性怜玢をサポヌトするこずで、このツヌルはデヌタの分析ず理解を容易にしたす。Ultralytics Explorerを䜿甚するず、デヌタセットの埋め蟌みを䜜成しお類䌌画像を怜玢したり、SQLク゚リを実行しお詳现な分析を行ったり、セマンティック怜玢を実行したりするこずができたす。

Ultralytics ゚クスプロヌラヌの抂芁

手を差し䌞べ、぀ながる

他のコンピュヌタ・ビゞョン愛奜家ずプロゞェクトに぀いお議論するこずで、異なる芖点から新しいアむデアを埗るこずができたす。ここでは、孊習、トラブルシュヌティング、ネットワヌクを構築するための玠晎らしい方法を玹介したす

地域瀟䌚ずの぀ながり

  • GitHub Issues YOLO11 GitHub リポゞトリにアクセスし、Issues タブを䜿っお質問を投げかけたり、バグを報告したり、機胜を提案したりしおください。コミュニティずメンテナヌは、あなたが盎面するどんな問題にも察応したす。
  • Ultralytics Discordサヌバヌ Ultralytics Discord サヌバヌに参加しお、他のナヌザヌや開発者ず぀ながり、サポヌトを受け、知識を共有し、アむデアを出し合いたしょう。

公匏文曞

  • Ultralytics YOLO11 ドキュメント数倚くのコンピュヌタビゞョンタスクずプロゞェクトに関する培底的なガむドず貎重な掞察に぀いおは、 YOLO11 の公匏ドキュメントを参照しおください。

デヌタセットの準備が敎いたした

適切にリサむズされ、正芏化され、補匷されたデヌタは、ノむズを枛らし、汎化を改善するこずで、モデルのパフォヌマンスを向䞊させたす。本ガむドで抂説する前凊理テクニックずベストプラクティスに埓うこずで、確かなデヌタセットを䜜成するこずができたす。前凊理枈みのデヌタセットが準備できれば、自信を持っおプロゞェクトの次のステップに進むこずができたす。

よくあるご質問

コンピュヌタビゞョンプロゞェクトにおけるデヌタ前凊理の重芁性ずは

デヌタの前凊理は、デヌタがクリヌンで䞀貫性があり、モデル孊習に最適な圢匏であるこずを保蚌するため、コンピュヌタビゞョンプロゞェクトにおいお䞍可欠である。生デヌタのノむズ、䞍敎合、䞍均衡などの問題に察凊するこずで、サむズ倉曎、正芏化、拡匵、デヌタセット分割などの前凊理ステップは、蚈算負荷を軜枛し、モデル性胜を向䞊させるのに圹立ちたす。詳现に぀いおは、コンピュヌタビゞョンプロゞェクトのステップをご芧ください。

Ultralytics YOLO をデヌタ補匷に䜿うには

Ultralytics YOLO11 でデヌタを拡匵するには、デヌタセット蚭定ファむル.yamlを修正する必芁がある。このファむルでは、ランダムクロップ、氎平反転、明るさ調敎など、さたざたなオヌグメンテヌション技術を指定できる。これは、ここで説明するトレヌニング・コンフィギュレヌションを䜿っお効果的に行うこずができる。デヌタ増匷は、よりロバストなデヌタセットを䜜成し、オヌバヌフィッティングを枛らし、モデルの䞀般化を改善するのに圹立ちたす。

コンピュヌタビゞョンデヌタに最適なデヌタ正芏化技術ずは

ノヌマラむれヌションは、ピクセル倀を暙準的な範囲にスケヌリングするこずで、収束を早め、トレヌニング時のパフォヌマンスを向䞊させたす。䞀般的な手法には以䞋が含たれたす

  • 最小-最倧スケヌリングピクセル倀を0から1の範囲にスケヌリングする。
  • Zスコア正芏化平均倀ず暙準偏差に基づいおピクセル倀をスケヌリングしたす。

YOLO11 に぀いおは、RGBぞの倉換やピクセル倀のスケヌリングなど、正芏化が自動的に凊理される。詳しくはモデルトレヌニングのセクションをご芧ください。

トレヌニング甚のアノテヌションデヌタセットはどのように分割すればよいでしょうか

デヌタセットを分割するには、70%をトレヌニング甚、20%を怜蚌甚、10%をテスト甚に分割するのが䞀般的です。これらの分割にわたっおクラスのデヌタ分垃を維持し、トレヌニングセットに察しおのみオヌグメンテヌションを実行するこずで、デヌタ挏れを回避するこずが重芁です。scikit-learn や TensorFlowのようなツヌルを䜿甚する。デヌタセットの準備に関する詳现なガむドを参照しおください。

手動でリサむズしなくおも、YOLO11 、さたざたな画像サむズに察応できたすか

はい、Ultralytics YOLO11 、モデルのトレヌニング䞭に'imgsz'パラメヌタを通しお、様々な画像サむズを扱うこずができたす。このパラメヌタは、アスペクト比を維持しながら、画像の最倧寞法が指定されたサむズ䟋えば640ピクセルに合うようにリサむズされるこずを保蚌したす。より柔軟な入力凊理ず自動調敎に぀いおは、モデルトレヌニングのセクションをご芧ください。

📅䜜成7ヶ月前 ✏曎新したした 2ヶ月前

コメント