データマイニングでベイズ分類を学ぶ[2022]

公開: 2021-03-10

しばらくの間データマイニングを研究しているなら、「ベイズ分類」という用語を聞いたことがあるはずです。それが何を意味し、データマイニングの概念としてどれほど重要か疑問に思いますか？

この記事では、データマイニングにおけるベイズ分類とは何かを探求しながら、これらの質問に答えます。さぁ、始めよう：

ベイズ分類とは何ですか？

データマイニング中に、クラス変数と属性セットの間の接続が非決定論的であることがわかります。つまり、属性セットがトレーニングの例と同じであっても、テストレコードのクラスラベルを確実に想定することはできません。

これは、特定の影響要因またはノイズの多いデータが存在するために発生する可能性があります。食生活に応じて、心臓病のリスクがあるかどうかを予測したいとします。人の食生活は心臓の問題に苦しむかどうかを決定する大きな要因ですが、遺伝学や感染症など、同じことが発生する他の理由もあります。

したがって、その人が食生活だけに基づいて心臓病のリスクがあるかどうかを判断する際の分析には欠陥があり、複数の問題が発生する可能性があります。

次に、「データマイニングでこの問題をどのように解決しますか？」という質問が発生します。答えはベイズ分類です。

データマイニングでベイズ分類を使用して、この問題に取り組み、イベントの発生を予測できます。ベイズ分類器は、ベイズ確率の理解を使用した統計的分類器で構成されます。

データマイニングにおけるベイズ分類の仕組みを理解するには、ベイズの定理から始める必要があります。

ベイズの定理

ベイズの定理の功績は、条件付き確率を使用して、未知のパラメーターの制限を計算するための証拠を利用するアルゴリズムを作成したトーマスベイズにあります。彼はこの解決策を思いついた最初の人でした。

数学的には、ベイズの定理は次のようになります。

P（A / B）= P（B / A）P（A） P（B）

ここで、AとBはイベントを表し、P（B）をゼロに等しくすることはできません。

P（B） 0

P（B / A）は、Aが真の場合にイベントBが発生することを説明する条件付き確率です。同様に、P（A / B）は、Bが真の場合のイベントAの発生を説明する条件付き確率です。

P（B）とP（A）は、BとAを独立して観測する確率であり、周辺確率と呼ばれます。

ベイズ解釈

ベイズの解釈では、確率は信念の程度を計算します。ベイズの定理によれば、証拠を検討する前の仮説の信念の程度は、同じことを検討した後の仮説の信念の程度に関連しています。

あなたがコインを持っているとしましょう。コインを1回投げると、表または裏のどちらかが得られ、両方が発生する確率は50％です。ただし、コインを数回ひっくり返して結果を観察すると、結果に基づいて信念の程度が増加、減少、または安定したままになる可能性があります。

命題Aと証拠Bがある場合、次のようになります。

P（A）はAの主要な信念度です。P（A / B）はBを考慮した後の信念度です。商P（B / A）/ P（B）は、BがAに対して提供するサポートを示します。。

条件付き確率からベイズの定理を導き出すことができます。

P（A / B）= P（A B） P（B）、P（B） 0の場合

P（B / A）= P（B A） P（A）、P（A） 0の場合

ここで、 P（A B）は、AとBの両方が真である同時確率です。理由は次のとおりです。

P（B A）= P（A B）

または、P（A B）= P（ A B ）P（B）= P（ B A ）P（A）

または、P（ A B ）= P（ B A ）P（A） P（B）、IF P（B） 0

ベイジアンネットワーク

ベイジアンネットワーク（信念ネットワークとも呼ばれます）を使用して、DAG（有向非巡回グラフ）を通じて不確実性を示します。有向非巡回グラフは、他の統計グラフと同様にベイジアンネットワークを示します。これには、ノードとリンクのグループが含まれ、リンクはそれぞれのノード間の接続を示します。

有向非巡回グラフのすべてのノードは確率変数を表します。変数は連続値または離散値にすることができ、データに与えられた実際の属性に対応する場合があります。

ベイジアンネットワークを使用すると、変数サブセット間でクラスの条件付き独立性を定義できます。これにより、実装を実行する関係のグラフィカルモデルが得られます。

DAGとは別に、ベイジアンネットワークには条件付き確率テーブルのセットもあります。

結論

ここまでで、データマイニングにおけるベイズ分類の基本に精通している必要があります。データマイニング実装のアプリケーションの背後にある定理を理解することは、進歩を遂げるために不可欠です。

データマイニングにおけるベイズ分類についてどう思いますか？実装してみましたか？コメントであなたの答えを共有してください。あなたからの御一報をお待ちしています。

データサイエンスについて知りたい場合は、IIIT-BとupGradのデータサイエンスのPGディプロマをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、1- on-1業界のメンター、400時間以上の学習、トップ企業との仕事の支援。

機械学習における分類と回帰とは何ですか？

分類と回帰は、機械学習で使用される教師あり学習アルゴリズムの一種です。ただし、これらのアルゴリズムには明確な違いがあります。機械学習の回帰アルゴリズムは、特定の入力変数に基づいて変数の連続値を推定するために使用されます。このアルゴリズムは、身長、収入、体重、スコア、天気などの連続変数を計算するために使用されます。つまり、整数形式の離散値を計算するためにのみ使用できます。離散変数の値を計算するために分類アルゴリズムが採用されています。興味深いことに、分類手法では離散変数と実数値変数の両方を処理できますが、分類されたカテゴリまたはラベル付けされたカテゴリに分類する必要があります。

データマイニングと機械学習は同じですか？

データマイニングの利点は何ですか？

データマイニングは、このデータ中心の世界のデータまたは情報に関連する問題を解決する手段を効果的に提供します。これは、企業が有用で信頼できる情報を収集するのに役立ちます。その結果、企業は意思決定の基礎を築いたり、最終的にはより多くの利益を生み出す業務を変更したりすることができます。データマイニングは、企業が十分な情報に基づいた意思決定を行い、リスクを検出して軽減し、不正行為の発生を最小限に抑えるのに役立つ重要な役割を果たします。データサイエンティストは、費用対効果が高く効率的なデータマイニング技術を使用して、大量の毎日のデータをすばやく検索できます。