画像セグメンテーション技術[ステップバイステップの実装]

公開: 2021-02-19

自分撮りを見ると、最初に何が見えますか? あなたの顔ですよね? あなたの脳はあなたの顔を識別し、それを画像の残りの部分(背景)から分離することができるので、あなたはあなたの顔を見つけることができます。

さて、もしあなたがあなたのコンピュータにあなたの顔を自分撮りで認識させたいのなら、それはそれをすることができるでしょうか?

はい、画像セグメンテーションを実行できる場合に限ります。

今日の記事では、画像セグメンテーションと、使用できるさまざまな画像セグメンテーション手法を含む、その主要な側面のすべてについて説明します。 ただし、長い間読んでいるので、後で戻ってくることができるように、この記事をブックマークすることをお勧めします。

画像処理におけるセグメンテーションのさまざまな手法について説明する前に、まず「画像セグメンテーションとは」を理解する必要があります。

目次

画像セグメンテーションとは何ですか?

画像セグメンテーションは、画像をその特徴や特性に応じてさまざまな部分に分割することに焦点を当てたデジタル画像処理の一分野です。 画像セグメンテーションの主な目的は、分析を容易にするために画像を単純化することです。 画像セグメンテーションでは、画像を同様の属性を持つさまざまな部分に分割します。 画像を分割する部分は、画像オブジェクトと呼ばれます。

これは、画像分析の最初のステップです。 画像のセグメンテーションを実行しないと、コンピュータビジョンの実装を実行することはほぼ不可能です。

画像セグメンテーション技術を使用することにより、画像から特定のピクセルを分割してグループ化し、それらにラベルを割り当て、これらのラベルに従ってさらにピクセルを分類することができます。 線を描画したり、境界線を指定したり、画像内の特定のオブジェクト(重要なコンポーネント)を残りのオブジェクト(重要でないコンポーネント)から分離したりできます。

機械学習では、画像セグメンテーションから生成したラベルを教師ありおよび教師なしトレーニングに使用できます。 これにより、多くのビジネス上の問題を解決できます。

例として、画像のセグメンテーションがどのように機能するかを理解することをお勧めします。

次の画像を見てください。

ソース

ここでは、道路の真ん中に椅子が置かれているのが見えます。 画像セグメンテーションを使用すると、椅子を画像から分離できます。 さらに、さまざまな画像セグメンテーション手法を使用して、さまざまな結果を得ることができます。 たとえば、複数の椅子がある画像を使用する場合は、セマンティックセグメンテーションを使用する必要があります。

一方、次のような画像に存在するすべての椅子を識別したい場合は、インスタンスのセグメンテーションを使用する必要があります。

ソース

画像セグメンテーションが必要なのはなぜですか?

画像セグメンテーションはコンピュータビジョンの大きな側面であり、多くの業界で多くの用途があります。 画像セグメンテーションが多用されている注目すべき領域のいくつかは次のとおりです。

1.顔認識

iPhoneと高度なセキュリティシステムに搭載されている顔認識テクノロジーは、画像セグメンテーションを使用して顔を識別します。 不要な相手があなたの電話やシステムにアクセスできないように、あなたの顔のユニークな特徴を識別できなければなりません。

2.ナンバープレートの識別

多くの信号機やカメラは、ナンバープレートの識別を使用して罰金を請求し、検索を支援します。 ナンバープレート識別技術により、交通システムは車を認識し、その所有権に関連する情報を取得できます。 画像セグメンテーションを使用して、ナンバープレートとその情報をビジョン内に存在する残りのオブジェクトから分離します。 この技術により、政府の清澄プロセスが大幅に簡素化されました。

3.画像ベースの検索

画像ベースの検索機能を提供するGoogleおよびその他の検索エンジンは、画像セグメンテーション技術を使用して、画像に存在するオブジェクトを識別し、それらの結果を関連する画像と比較して、検索結果を提供します。

4.医用画像

医療分野では、画像セグメンテーションを使用して、がん細胞の位置を特定して特定し、組織の体積を測定し、仮想手術シミュレーションを実行し、手術内ナビゲーションを実行します。 画像セグメンテーションは、医療分野で多くの用途があります。 患部を特定し、その治療法を計画するのに役立ちます。

これらのアプリケーションとは別に、画像セグメンテーションは、製造、農業、セキュリティ、および他の多くのセクターで使用されています。 私たちのコンピュータビジョン技術がより進歩するにつれて、画像セグメンテーション技術の使用はそれに応じて増加します。

たとえば、一部のメーカーは、欠陥のある製品を見つけるために画像セグメンテーション技術を使用し始めています。 ここで、アルゴリズムはオブジェクトの画像から必要なコンポーネントのみをキャプチャし、それらを障害または最適として分類します。 このシステムは、人的エラーのリスクを軽減し、組織にとってテストプロセスをより効率的にします。

画像分類の一般的な実装は、Python、C、C ++、およびMatlabです。

さまざまな種類の画像セグメンテーションとは何ですか?

画像のセグメンテーションは非常に幅広いトピックであり、プロセスを進めるためのさまざまな方法があります。 次のパラメータに従って画像セグメンテーションを分類できます。

1.アプローチベースの分類

最も基本的な意味では、画像のセグメンテーションはオブジェクトの識別です。 アルゴリズムは、最初にオブジェクトを識別せずに、さまざまなコンポーネントを分類することはできません。 単純な実装から複雑な実装まで、すべての画像セグメンテーションはオブジェクトの識別に基づいて機能します。

したがって、アルゴリズムがオブジェクトを識別する方法に基づいて画像セグメンテーション方法を分類できます。つまり、類似したピクセルを収集し、それらを異なるピクセルから分離します。 このタスクを実行するには、次の2つのアプローチがあります。

地域ベースのアプローチ(類似性の検出)

この方法では、選択したしきい値、領域のマージ、領域の拡散、および領域の拡大に従って、画像内の類似したピクセルを検出します。 クラスタリングおよび同様の機械学習アルゴリズムは、この方法を使用して未知の機能と属性を検出します。 分類アルゴリズムは、特徴を検出し、それらに従って画像セグメントを分離するために、このアプローチに従います。

境界ベースのアプローチ(不連続性の検出)

境界ベースのアプローチは、オブジェクト識別のための領域ベースのアプローチの反対です。 似たような特徴を持つピクセルを見つける領域ベースの検出とは異なり、境界ベースのアプローチでは互いに異なるピクセルを見つけます。 ポイント検出、エッジ検出、ライン検出、および同様のアルゴリズムは、この方法に従い、異なるピクセルのエッジを検出し、それに応じて画像の残りの部分からそれらを分離します。

2.技術ベースの分類

どちらのアプローチにも、独自の画像セグメンテーション手法があります。 これらの手法は、処理および分析する画像の種類と、そこから導き出す結果の種類に応じて使用されます。

これらのパラメータに基づいて、画像セグメンテーションアルゴリズムを次のカテゴリに分類できます。

構造技術

これらのアルゴリズムでは、使用している画像の構造データが必要です。 これには、ピクセル、分布、ヒストグラム、ピクセル密度、色分布、およびその他の関連情報が含まれます。 次に、画像から分離する必要のある領域の構造データが必要です。

アルゴリズムが地域を識別できるように、その情報が必要になります。 これらの実装に使用するアルゴリズムは、リージョンベースのアプローチに従います。

確率的手法

これらのアルゴリズムでは、画像の必要なセクションの構造ではなく、画像の個別のピクセル値に関する情報が必要です。 このため、画像のセグメンテーションを実行するために多くの情報を必要とせず、複数の画像を操作する必要がある場合に役立ちます。 K-meansクラスタリングやANNアルゴリズムなどの機械学習アルゴリズムは、このカテゴリに分類されます。

ハイブリッドテクニック

名前から推測できるように、これらのアルゴリズムは確率論的手法と構造的手法の両方を使用します。 これは、画像のセグメンテーションを実行するために、必要な領域の構造情報と画像全体の個別のピクセル情報を使用することを意味します。

さまざまな種類の画像セグメンテーション手法とは何ですか?

画像セグメンテーションのさまざまなアプローチと手法がわかったので、詳細について説明します。 以下は、画像セグメンテーション手法の主なタイプです。

  1. しきい値セグメンテーション
  2. エッジベースのセグメンテーション
  3. 地域ベースのセグメンテーション
  4. 流域のセグメンテーション
  5. クラスタリングベースのセグメンテーションアルゴリズム
  6. セグメンテーションのためのニューラルネットワーク

これらの手法のそれぞれについて詳しく説明し、それらの特性、利点、および制限を理解しましょう。

1.しきい値セグメンテーション

画像処理におけるセグメンテーションの最も簡単な方法は、しきい値法です。 ピクセルの強度を指定された値(しきい値)と比較することにより、画像内のピクセルを分割します。 必要なオブジェクトが背景(不要な部分)よりも強度が高い場合に便利です。

しきい値(T)は一定であると見なすことができますが、画像にノイズ(不要な情報やデータ)がほとんどない場合にのみ機能します。 要件に応じて、しきい値を一定または動的に保つことができます。

しきい値処理方法は、グレースケール画像を2つのセグメント(必須セクションと不要セクション)に分割することにより、バイナリ画像に変換します。

さまざまなしきい値に従って、しきい値セグメンテーションを次のカテゴリに分類できます。

単純なしきい値処理

この方法では、画像のピクセルを白または黒に置き換えます。 ここで、特定の位置のピクセルの強度がしきい値よりも小さい場合は、それを黒に置き換えます。 一方、しきい値よりも高い場合は、白に置き換えます。 これは単純なしきい値処理であり、画像セグメンテーションの初心者に特に適しています。

大津の二値化

単純なしきい値処理では、一定のしきい値を選択し、それを使用して画像のセグメンテーションを実行しました。 しかし、選択した値が正しいものであるとどのように判断しますか? このための簡単な方法は、さまざまな値をテストして1つを選択することですが、最も効率的な方法ではありません。

前景用と背景用の2つのピークを持つヒストグラムを使用して画像を撮影します。 大津二値化を使用することにより、それらのピークの中央の近似値をしきい値として使用できます。

大津二値化では、画像がバイモーダルの場合、画像のヒストグラムからしきい値を計算します。

このプロセスは、ドキュメントのスキャン、パターンの認識、ファイルからの不要な色の削除に非常に人気があります。 ただし、多くの制限があります。 バイモーダルではない画像(ヒストグラムに複数のピークがある画像)には使用できません。

適応しきい値処理

一定のしきい値を1つ持つことは、すべての画像で取得するのに適したアプローチではない場合があります。 画像が異なれば、背景や条件も異なり、プロパティに影響します。

したがって、画像全体でセグメンテーションを実行するために1つの一定のしきい値を使用する代わりに、しきい値を可変に保つことができます。 この手法では、画像のセクションごとに異なるしきい値を保持します。

この方法は、さまざまな照明条件を持つ画像でうまく機能します。 画像を小さなセクションに分割し、それぞれのしきい値を計算するアルゴリズムを使用する必要があります。

2.エッジベースのセグメンテーション

エッジベースのセグメンテーションは、画像処理におけるセグメンテーションの最も一般的な実装の1つです。 これは、画像内のさまざまなオブジェクトのエッジを識別することに焦点を当てています。 これは、エッジに使用できる多くの情報が含まれているため、画像に存在するさまざまなオブジェクトの特徴を見つけるのに役立つため、重要なステップです。

エッジ検出は、画像から不要な情報を削除するのに役立つため、広く普及しています。 画像のサイズが大幅に縮小され、分析が容易になります。

エッジベースのセグメンテーションで使用されるアルゴリズムは、テクスチャ、コントラスト、グレーレベル、色、彩度、およびその他のプロパティの違いに従って、画像のエッジを識別します。 すべてのエッジを画像の境界に正確に一致するエッジチェーンに接続することで、結果の品質を向上させることができます。

利用可能なエッジベースのセグメンテーション方法はたくさんあります。 それらを2つのカテゴリに分けることができます。

検索ベースのエッジ検出

検索ベースのエッジ検出方法は、エッジ強度の測定値の計算に焦点を当て、エッジの局所的な向きの計算された推定値を通じて、勾配の大きさの局所的な方向の最大値を探します。

ゼロクロッシングベースのエッジ検出

ゼロクロッシングベースのエッジ検出方法は、画像から取得した微分式でゼロクロッシングを探してエッジを見つけます。

通常、不要なノイズを除去し、エッジの検出を容易にするために、画像を前処理する必要があります。 Canny、Prewitt、Deriche、Roberts crossは、最も人気のあるエッジ検出演算子の一部です。 それらにより、不連続性の検出とエッジの検出が容易になります。

エッジベースの検出では、すべてのローカルエッジをバイナリイメージにグループ化できる部分的なセグメンテーションの最小値を取得することが目標です。 新しく作成したバイナリイメージでは、エッジチェーンが問題のイメージの既存のコンポーネントと一致する必要があります。

3.地域ベースのセグメンテーション

領域ベースのセグメンテーションアルゴリズムは、画像を同様の機能を持つセクションに分割します。 これらの領域はピクセルのグループにすぎず、アルゴリズムは最初に入力画像の小さなセクションまたは大部分である可能性のあるシードポイントを見つけることによってこれらのグループを見つけます。

シードポイントを見つけた後、領域ベースのセグメンテーションアルゴリズムは、それらにピクセルを追加するか、他のシードポイントとマージできるようにピクセルを縮小します。

これらの2つの方法に基づいて、地域ベースのセグメンテーションを次のカテゴリに分類できます。

地域の成長

この方法では、小さなピクセルセットから始めて、特定の類似性条件に従って、より多くのピクセルを繰り返しマージし始めます。 領域拡大アルゴリズムは、画像内の任意のシードピクセルを選択し、それを隣接するピクセルと比較して、シードポイントに一致するものを見つけることによって領域の拡大を開始します。

特定の領域がそれ以上成長できない場合、アルゴリズムは既存の領域に属していない可能性のある別のシードピクセルを選択します。 1つの領域の属性が多すぎると、画像の大部分を占める可能性があります。 このようなエラーを回避するために、領域拡張アルゴリズムは同時に複数の領域を拡張します。

ノイズがエッジの検索やしきい値処理アルゴリズムの使用を困難にするため、ノイズの多い画像には領域拡大アルゴリズムを使用する必要があります。

リージョンの分割とマージ

名前が示すように、領域の分割とマージに焦点を合わせた方法は、画像の一部の分割とマージという2つのアクションを一緒に実行します。

まず、画像を類似の属性を持つ領域に分割し、互いに類似している隣接する部分をマージします。 領域分割では、アルゴリズムは画像全体を考慮しますが、領域拡大では、アルゴリズムは特定のポイントに焦点を合わせます。

領域の分割とマージの方法は、分割統治法に従います。 画像をさまざまな部分に分割し、所定の条件に従ってそれらを照合します。 このタスクを実行するアルゴリズムの別名は、分割マージアルゴリズムです。

4.流域のセグメンテーション

画像処理では、流域はグレースケール画像の変換です。 これは、地質学的流域または分水界を指します。 流域アルゴリズムは、画像を地形図であるかのように処理します。 ピクセルの明るさを高さと見なし、それらの尾根の上部に沿って走る線を見つけます。

流域には多くの技術的定義があり、いくつかの用途があります。 ピクセルの尾根を識別することとは別に、それは盆地(尾根の反対側)を定義することに焦点を合わせ、尾根を通る流域線に出会うまで盆地をマーカーで溢れさせます。

盆地には多くのマーカーがありますが、尾根にはないため、画像はすべてのピクセルの「高さ」に応じて複数の領域に分割されます。

流域法は、すべての画像を地形図に変換します。流域セグメンテーション法は、ピクセルのグレー値を介して地形を反映します。

さて、谷と尾根のある風景は確かに立体的な側面を持っているでしょう。 流域は、画像の3次元表現を考慮し、それに応じて「集水域」と呼ばれる領域を作成します。

MRI、医用画像などの医療分野で多くの用途があります。流域セグメンテーションは医療画像セグメンテーションの重要な部分であるため、その分野に参入したい場合は、特に画像処理におけるセグメンテーションのこの方法の学習に焦点を当てる必要があります。

5.クラスタリングベースのセグメンテーションアルゴリズム

分類アルゴリズムを研究したことがあるなら、クラスタリングアルゴリズムに出くわしたに違いありません。 これらは教師なしアルゴリズムであり、通常の視覚では見えない可能性のある画像内の隠されたデータを見つけるのに役立ちます。 この非表示のデータには、クラスター、構造、シェーディングなどの情報が含まれます。

名前が示すように、クラスタリングアルゴリズムは、画像を類似した特徴を持つピクセルのクラスター(互いに素なグループ)に分割します。 データ要素をクラスターに分離し、クラスター内の要素は他のクラスターに存在する要素と比較してより類似しています。

人気のあるクラスタリングアルゴリズムには、ファジーc-means(FCM)、k-means、および改良されたk-meansアルゴリズムが含まれます。 画像セグメンテーションでは、非常に単純で効率的であるため、主にk-meansクラスタリングアルゴリズムを使用します。 一方、FCMアルゴリズムは、さまざまなメンバーシップの程度に応じて、ピクセルをさまざまなクラスに配置します。

画像処理におけるセグメンテーションのための最も重要なクラスタリングアルゴリズムは次のとおりです。

K-meansクラスタリング

K-meansは、単純な教師なし機械学習アルゴリズムです。 特定の数のクラスターを介して画像を分類します。 画像空間をk個のグループ重心を表すk個のピクセルに分割することでプロセスを開始します。

次に、オブジェクトと図心の間の距離に基づいて、各オブジェクトをグループに割り当てます。 アルゴリズムがすべてのピクセルをすべてのクラスターに割り当てたら、重心を移動して再割り当てできます。

ファジーC手段

ファジーc-meansクラスタリング手法を使用すると、画像内のピクセルを複数のクラスターにクラスター化できます。 これは、ピクセルが複数のクラスターに属することができることを意味します。 ただし、すべてのピクセルは、すべてのクラスターとさまざまなレベルの類似性を持っています。 ファジーc-meansアルゴリズムには、結果の精度に影響を与える最適化関数があります。

クラスタリングアルゴリズムは、画像セグメンテーションのニーズのほとんどを処理できます。 それらについて詳しく知りたい場合は、クラスタリングとは何か、およびさまざまなタイプのクラスタリングアルゴリズムに関するこのガイドを確認してください

6.セグメンテーションのためのニューラルネットワーク

おそらく、あなたは自分ですべてをやりたくないでしょう。 おそらく、AIにほとんどのタスクを実行させたいと思うでしょう。これは、画像セグメンテーション用のニューラルネットワークで確実に実行できます。

AIを使用して画像を分析し、顔、オブジェクト、テキストなどのさまざまなコンポーネントを識別します。畳み込みニューラルネットワークは、画像データを非常に迅速かつ効率的に識別および処理できるため、画像セグメンテーションで非常に人気があります。

Facebook AI Research(FAIR)の専門家は、画像に存在するすべてのオブジェクトに対してピクセル単位のマスクを作成できるMaskR-CNNと呼ばれる深層学習アーキテクチャを作成しました。 これは、FasterR-CNNオブジェクト検出アーキテクチャの拡張バージョンです。 Faster R-CNNは、画像内のすべてのオブジェクトに対して、バウンディングボックスの座標とオブジェクトのクラスの2つのデータを使用します。 Mask R-CNNを使用すると、このプロセスで追加のセクションを取得できます。 マスクR-CNNは、セグメンテーションの実行後にオブジェクトマスクを出力します。

このプロセスでは、最初に入力画像をConvNetに渡し、ConvNetが画像の特徴マップを生成します。 次に、システムはフィーチャマップにリージョンプロポーザルネットワーク(RPN)を適用し、オブジェクト性スコアを使用してオブジェクトプロポーザルを生成します。

その後、Roiプーリングレイヤーが提案に適用され、提案が1つのサイズに縮小されます。 最終段階で、システムは提案を接続されたレイヤーに渡して分類し、すべてのオブジェクトのバウンディングボックスを使用して出力を生成します。

画像処理におけるセグメンテーションの詳細

画像処理におけるセグメンテーションは確かに多くのサブセクションを持つ幅広いトピックです。 さまざまな画像セグメンテーション手法からアルゴリズムまで、この分野で学ぶべきことはたくさんあります。 カバーする地面が非常に多いため、迷子になり、混乱する可能性があります。

そのため、これらの問題を克服するために、機械学習とAIのコースを受講することをお勧めします。 この主題のコースでは、画像セグメンテーションと関連セクターの基本と高度な概念を学びます。 画像処理、画像セグメンテーション、コンピュータービジョンに関連するさまざまな機械学習の概念について学習します。

AI&MLコースでは、構造化されたカリキュラムから学習できるため、関連するすべての概念を簡単に学ぶことができます。 upGradでは、機械学習の複数のコースを提供しています。

機械学習とAIで提供する主なコースは次のとおりです。

  • 機械学習とAIの理学修士
  • 機械学習と人工知能のエグゼクティブ大学院プログラム
  • 機械学習と人工知能の理学修士
  • 機械学習とディープラーニングのPG認定
  • 機械学習とNLPのPG認定

これらのコースはすべて、ライブセッションで疑問を解決し、質問に答える業界の専門家から学ぶことができます。 オンラインで勉強します。つまり、これらのコースを受講している間、どこにも行ったり、仕事を邪魔したりする必要はありません。

これらのコースでは、upGradのStudent Success Cornerにアクセスできます。このコーナーでは、履歴書のフィードバック、面接の準備、キャリアカウンセリングなど、多くの利点があります。 コースを修了すると、必要なすべてのソフトスキルとハードスキルを備えた、すぐに使えるAI/MLの専門家になります。

結論

画像のセグメンテーションは確かに複雑で高度なトピックです。 この記事で説明したさまざまな画像セグメンテーション手法にはすべて、特定の利点と制限があります。 それらに精通することにより、一方をどこで使用すべきか、もう一方をどこで使用しないべきかについてのアイデアを得ることができます。

習得したすべてのスキルを使用して、他の競合するプラットフォームでもアクティブになり、スキルをテストして、さらに実践的になることができます。

画像セグメンテーションのいくつかの重要なアプリケーションは何ですか?

画像セグメンテーションはコンピュータビジョンの大きな部分であり、さまざまなビジネスで使用されています。 画像セグメンテーションは、携帯電話の顔認識テクノロジーと高度なセキュリティシステムで使用され、顔を認識します。 交通システムは、ナンバープレート識別技術を使用して、車を認識し、その所有者に関する情報を取得できます。 画像セグメンテーションアルゴリズムは、Googleやその他の画像ベースの検索エンジンで使用され、写真内のアイテムを認識し、それらの結論を発見した関連写真と比較して、検索結果を提供します。 医療分野で画像セグメンテーションを使用して、がん細胞の検出と識別、組織量の定量化、仮想手術シミュレーションの実施、および手術中のナビゲートを行います。

画像セグメンテーションの種類は何ですか?

しきい値アプローチは、最も基本的な画像処理セグメンテーション方法です。 各ピクセルの強度を所定の値(しきい値)と比較することにより、画像内のピクセルを分離します。 簡単に言うと、しきい値処理とは、画像内のピクセルを黒または白に置き換えるプロセスです。 画像全体のセグメンテーションに単一の固定値を使用する代わりに、指定したしきい値を柔軟に保つことができます。 適応しきい値処理は、このメソッドの名前です。 画像処理セグメンテーションの最も一般的なタイプの1つは、エッジベースのセグメンテーションです。 これは、画像内のさまざまなもののエッジを認識することに焦点を当てています。

クラスタリングベースのセグメンテーションアルゴリズムとは何ですか?

分類アルゴリズムを研究したことがあれば、おそらくクラスタリングアルゴリズムに出くわしたことでしょう。 これらは、肉眼では見えない画像内の隠されたデータを見つけるのに役立つ教師なしアルゴリズムです。 クラスター、構造、シェーディング、およびその他の情報は、隠されたデータの中にあります。 クラスタリングアルゴリズムは、名前が示すように、画像を同等のプロパティを持つピクセルのクラスター(互いに素なグループ)に分離します。 データ項目をクラスターに分割し、1つのクラスターのコンポーネントが他のクラスターの要素により類似します。