機械学習の統計:知っておくべきことすべて

公開: 2021-03-12

統計と確率は、機械学習とデータサイエンスの中核を形成します。 機械学習が今日達成していることを達成できるのは、計算能力と最適化を組み合わせた統計分析です。 確率の基礎から記述統計および推論統計まで、これらのトピックは機械学習の基礎になります。

このチュートリアルを終えると、次のことがわかります。

  • 確率の基本
  • 確率分布
  • 正規分布
  • 中心傾向の測定
  • 中心極限定理
  • 標準偏差と標準誤差
  • 歪度と尖度

目次

確率の基本

独立イベントと依存イベント

イベントAとイベントBの2つのイベントを考えてみましょう。イベントAの発生確率がイベントBの発生に依存しない場合、AとBは独立したイベントです。 たとえば、公正なコインが2つある場合、両方のコインで頭が出る確率は両方とも0.5になります。 したがって、イベントは独立しています。

ここで、5つのボール(2つは黒、3つは赤)を含むボックスについて考えてみます。 最初に黒いボールを引く確率は2/5になります。 これで、残りの4つのボールから再び黒いボールを引く確率は1/4になります。 この場合、2回目の黒いボールを引く確率は、最初にどのボールを引いたかに依存するため、2つのイベントは依存しています。

周辺確率

これは、他の確率変数(P(A)やP(B)など)の結果に関係なく、イベントの確率です。

同時確率

これは、2つの異なるイベントが同時に発生する確率です。つまり、2つ(またはそれ以上)の同時イベント、たとえばP(AおよびB)またはP(A、B)です。

条件付き確率

これは、別のイベントが発生した場合の1つ(または複数)のイベントの確率です。つまり、2次イベントBが真のときにイベントAが発生する確率です。 例:P(AがBを指定)またはP(A | B)。

世界のトップ大学(修士、エグゼクティブ大学院プログラム、ML&AIの高度な証明書プログラム)からオンラインでMLコースに参加して、キャリアを早急に進めましょう。

確率分布

確率分布は、サンプル空間内のデータポイントの分布を表します。 母集団からランダムにサンプリングした場合に、特定のデータポイントをサンプリングする確率を確認するのに役立ちます。 たとえば、母集団が学校の生徒のマークで構成されている場合、確率分布のX軸にはマークがあり、Y軸にはそれらのマークが付いている生徒の数があります。 これは、ヒストグラムとも呼ばれます。 ヒストグラムは、離散確率分布の一種です 離散分布の主なタイプは、二項分布、ポアソン分布、および一様分布です。

一方、連続確率分布は、連続値を持つデータに対して作成されます。 言い換えると、高さ、速度、温度などの値の無限のセットを持つことができる場合。連続確率分布は、データサイエンスおよび統計分析で、機能の重要性、データ分布、統計テストなどをチェックするために非常に役立ちます。

機械学習の背後にある数学も読んでください

正規分布

最もよく知られている連続分布は正規分布です。これは、ガウス分布または「ベル曲線」としても知られています。

人の身長の正規分布を考えてみましょう。 高さのほとんどは、背が高く、左右の極値に向かって徐々に減少する中央部分に集まっています。これは、その値をランダムに取得する可能性が低いことを示しています。

この曲線は平均値の中心にあり、高くて細い場合もあれば、短くて広がっている場合もあります。 スリムな値は、サンプリングできる個別の値の数が少ないことを示します。 そして、より広がった曲線は、より広い範囲の値があることを示しています。 このスプレッドは、標準偏差によって定義されます。

標準偏差が大きいほど、データの広がりが大きくなります。 標準偏差は、分散と呼ばれる別のプロパティの数学的な導出であり、データの「変動」を定義します。 そして、分散はデータのすべてであり、分散は情報です。 差異なし、情報なし。 正規分布は、統計において重要な役割を果たします–中心極限定理。

中心傾向の測定

中心傾向の測定は、単一の値を取ることによってデータセットを要約できる方法です。 傾向には主に3つの指標があります。

1.平均:平均は、データ/機能の値の算術平均または平均です。 すべての値の合計を値の数で割ると、平均が得られます。 平均は通常、データの中心を測定する最も一般的な方法ですが、場合によっては誤解を招く可能性があります。 たとえば、外れ値が多い場合、平均は外れ値に向かってシフトし始め、データの中心の悪い尺度になります。

2.中央値:中央値は、データが昇順または降順で並べ替えられたときに正確に中央にあるデータポイントです。 データポイントの数が奇数の場合、中央値が最も中心のポイントとして簡単に選択されます。 データポイントの数が偶数の場合、中央値は2つの中央のデータポイントの平均として計算されます。

3.モード:モードは、データセットに最も頻繁に存在するデータポイントです。 このモードは、最も頻繁なポイントで固定されたままになるため、外れ値に対して最も堅牢なままです。

中心極限定理

統計の中心極限定理は、サンプルサイズが十分に大きい場合、サンプリング分布は、その変数の分布に関係なく、正規分布に近似することを示しています。 上記の内容の本質をわかりやすく説明させていただきます。

データは任意の分布である可能性があります。 それは完全または歪んだ正規分布である可能性があり、指数関数的または(ほぼ)あなたが考える可能性のある任意の分布である可能性があります。 ただし、母集団からサンプルを繰り返し取得し、それらの平均のヒストグラムをプロットし続けると、最終的に、すべての平均のこの新しい分布が正規分布に似ていることがわかります。

本質的に、データがどの分布にあるかは関係ありません。それらの平均の分布は常に正常です。

しかし、CLTを真に保つには、いくつのサンプルが必要ですか? 経験則では、30を超える必要があるとされています。 したがって、いずれかの分布から30以上のサンプルを取得する場合、平均は、基礎となる分布タイプに関係なく、正規分布になります。

標準偏差と標準誤差

標準偏差と標準誤差は、しばしば互いに混同されます。 ご存知かもしれませんが、標準偏差は、分布の両側のデータの変動を説明または定量化します。平均よりも低く、平均よりも大きくなります。 データポイントが広範囲の値に分散している場合、標準偏差は高くなります。

さて、上記で説明したように、中心極限定理により、母集団からのすべてのサンプルの平均をプロットすると、それらの平均の分布は再び正規分布になります。 それで、それはそれ自身の標準偏差を持っているでしょう?

母集団からのすべてのサンプルの平均の標準偏差は、標準誤差と呼ばれます。 平均の標準偏差を計算しているため、標準誤差の値は通常、標準偏差よりも小さくなります。また、平均の値は、集計により個々のデータポイントよりも広がりが少なくなります。

中央値の標準偏差、最頻値、さらには標準偏差の標準偏差を計算することもできます。

行く前に

統計的概念は、データサイエンスとMLの真のコアを形成します。 有効な推論を行い、手元のデータを効果的に理解できるようにするには、このチュートリアルで説明されている統計と確率の概念をしっかりと理解する必要があります。

upGradは、機械学習とAIのエグゼクティブPGプログラムと、機械学習とAI理学修士を提供しており、キャリアの構築につながる可能性があります。 これらのコースでは、機械学習の必要性と、最急降下法から機械学習に至るまでのさまざまな概念をカバーするこのドメインの知識を収集するためのさらなる手順について説明します。

機械学習でうまくいくためには、統計の知識が必須ですか?

統計は非常に広大な分野です。 機械学習では、統計は基本的にデータを深く理解するのに役立ちます。 いくつかの機械学習アルゴリズムでは、確率、データ解釈などのいくつかの統計的概念が必要です。 ただし、機械学習でうまくいくために、統計のすべてのトピックの専門家である必要はありません。 基本的な概念だけを知っていると、効率的に実行できるようになります。

事前にコーディングを知っていると、機械学習に役立ちますか?

コーディングは機械学習の中心であり、コーディング方法をよく理解しているプログラマーは、アルゴリズムがどのように機能するかを深く理解しているため、これらのアルゴリズムをより効果的に監視および最適化できます。 事前の知識は有益ですが、プログラミング言語の専門家である必要はありません。 初心者の場合、Pythonは習得が簡単で、構文が使いやすいため、Pythonが適しています。

日常生活で微積分をどのように使用しますか?

天気予報は、風速、含水量、気温など、微積分を使用してのみ計算できる多くの変数に基づいています。 微積分の使用は、さまざまな方法で航空工学でも見られる可能性があります。 Calculusは、車両の安全性を向上および確保するために、車両業界でも使用されています。 また、クレジットカード会社が支払い目的で使用します。