カイ二乗検定: はじめに、計算方法、いつ使用するか

公開: 2022-11-09

統計では、カイ 2 乗検定を使用して、変数の正規分布コレクションの観測データを分析します。 通常、これには 2 つの数値情報の対比が含まれます。 Karl Pearson は、カテゴリ データを分析および分布するこの方法を最初に提案し、Pearson のカイ 2 乗検定と名付けました。

Pearson によって開発されたカイ 2 乗検定は、分割表で使用され、カイ 2 乗表の 1 つまたは複数のカテゴリで、予測度数と実際の度数の間に有意な統計的差異があるかどうかを評価します。

統計的には、統計学者はカイ 2 乗検定を使用して、モデルがデータにどの程度適合しているかを判断します。 カイ二乗統計には、十分なサイズのランダムで相互に排他的な生の独立変数データ サンプルが必要です。

世界のトップ大学の機械学習コースに登録してください。 マスター、エグゼクティブ PGP、または上級認定プログラムを取得して、キャリアを加速させましょう。

目次

カイ二乗検定の基本用語

カイ二乗検定を計算するための標準的な式は、二乗誤差または偽陽性の合計を標本分散で割ったものです。 カイ二乗検定を使用するときに実装される項がいくつかあります。 これらの用語は次のように定義されています。

p値

p 値は、現在の実験と同等またはそれ以上のカイ 2 乗を達成する可能性であり、データは依然として仮説を支持しています。 この確率はパーセンテージで表されます。 これは、予想される変動がランダムな出来事によって引き起こされる可能性を指します。
p 値が 0.05 以下の場合、考慮された仮説は受け入れられます。 値が 0.05 を超える場合、仮説は棄却されます。

自由度

推定問題には、独立変数の数に等しい自由度があります。 これらの変数の値に厳密な制限はありませんが、データセットを推定パラメーターと一致させたい場合は、他の変数に制限を課します。

「自由度」の 1 つの定義は、論理的に相互に独立しているため変更される可能性がある、データ セット内の値の最大数です。 データ セット内の観測の総数から 1 を差し引くと、自由度が得られます。

自由度の概念が取り上げられる重要なコンテキストの 1 つは、カイ 2 乗のような統計的仮説検定のコンテキストです。

カイ 2 乗統計量の重要性と帰無仮説のロバスト性を理解するには、自由度を正確に計算する必要があります。

分散

乱数サンプルの分散は、その平均に対する分散の尺度です。 これは、標準偏差の値を 2 乗して計算されます。

カイ二乗検定を実行するためのプロパティ

カイ二乗検定には次の特性があります。

  • 平均分布は自由度の数に等しくなります。
  • 分散は、自由度の 2 倍に等しくなければなりません。
  • 自由度が大きくなるにつれて、カイ 2 乗分布曲線は正規分布曲線、つまりベル カーブに似てきます。

最高の機械学習コースとオンライン AI コース

LJMU の機械学習と AI の理学修士号 IIITB の機械学習と AI のエグゼクティブ ポスト大学院プログラム
IIITB の機械学習と NLP の上級認定プログラム IIITB の機械学習と深層学習の上級認定プログラム メリーランド大学のデータサイエンスと機械学習のエグゼクティブポスト大学院プログラム
すべてのコースを調べるには、以下のページにアクセスしてください。
機械学習コース

カイ二乗検定の実行方法は?

分布のカイ 2 乗は、次の式を使用して計算されます。

2 = [(観測値 – 期待値) 2 / 期待値]

カイ二乗統計量を計算するための手順

  1. 観測値と期待値を計算します。
  2. 分布表の観測値から各期待値を引きます。
  3. ステップ 2 で取得した各観測の値を 2 乗します。
  4. これらの二乗値のそれぞれを、対応する期待値で割ります。
  5. ステップ 4 で取得したすべての値を合計すると、カイ 2 乗統計量を定義する値が得られます。
  6. 前述のカイ 2 乗検定の特性満足度をチェックする自由度を計算します。

カイ二乗検定の種類

適合度

母集団のサンプルが全体をどれだけよく表しているかを確認したい場合は、カイ 2 乗適合度検定を適用できます。 サンプル母集団と予測サンプル母集団は、この手法を使用して比較されます。

独立性のテスト

このカイ 2 乗検定は、1 つの母集団の独立性を調べて、2 つのカテゴリ変数間に相関関係があるかどうかを判断します。 独立検定は、単一の観測されたパラメーターを理論上の母集団と比較しないため、適合度検定とは異なります。 代わりに、独立性の検定では、サンプル セット内の 2 つの値が互いに比較されます。

均一性のテスト

独立性検定と同様に、均一性の検定も同じ形式と手順に従います。 この 2 つの重要な違いは、均一性の検定では、変数が多くの母集団にわたって同じ分布を持っているかどうかを調べることです。 対照的に、独立性の検定では、類似した母集団内の 2 つのカテゴリ変数間のリンクの存在を調べます。

カイ二乗検定はいつ使用する必要がありますか?

カイ 2 乗検定は、実際の値が理論上の確率と一致しているかどうかを判断します。 カイ 2 乗は、分析対象のデータがランダム サンプルから取得され、問題の変数がカテゴリカルである場合に使用する最も信頼性の高い検定です。

需要の高い機械学習スキル

人工知能コース Tableau コース
NLPコース 深層学習コース

カイ二乗検定はどこで使用されますか?

マーケティング会社の例を見てみましょう。
あるマーケティング会社は、消費者の地理とブランドの選択の間の相関関係を調べています。 その結果、カイ 2 乗は重要な役割を果たし、統計値の値は、企業が収益を最大化するために地域全体でマーケティング アプローチをどのように適応させることができるかを示します。
データを分析するとき、カイ 2 乗検定は、カテゴリ変数の一貫性または独立性、および検討中の適合度モデルをチェックするのに役立ちます。

同様に、カイ 2 乗統計量は、医療専門職で使用される可能性があります。 カイ二乗検定は、対照群と比較して薬の有効性を判断するのに適しています。

人気の機械学習と人工知能のブログ

IoT: 歴史、現在、未来 機械学習のチュートリアル: ML を学ぶ アルゴリズムとは? シンプル&イージー
インドのロボット工学エンジニアの給与:すべての役割 機械学習エンジニアの 1 日: 彼らは何をしているのか? IoT(モノのインターネット)とは
順列と組み合わせ:順列と組み合わせの違い 人工知能と機械学習のトップ 7 トレンド R による機械学習: 知っておくべきすべてのこと

結論

この記事では、カイ 2 乗統計量とその値の計算方法について学習しました。 カイ二乗はカテゴリ変数で機能するため、調査回答データを調査する学者によってよく使用されます。 この形式の研究は、社会学、心理学、経済学、政治学、マーケティングなど、多くの分野で一般的です。

upGrad で機械学習と AI の理学修士号を取得

最終的に科学の修士号を取得しようとしていますか? upGrad は、IIIT-B およびリバプール ジョン ムーアズ大学と協力して、可能な限り厳選されたコースを提供しています。 機械学習と AI理学修士号を取得すると、自然言語処理、深層学習、強化学習など、ML と AI の分野で必要とされるすべてのスキルを学習できます。

適格基準:

  • 50% の学士号を取得
  • IIT-B による機械学習と AIエグゼクティブ ポスト グラデュエイト プログラムの修了
  • 1年以上の実務経験が望ましい

このコースが提供するもの:

  • 750 時間以上の学習教材
  • 働く専門家向けに設計
  • 15以上の課題とケーススタディ
  • 12 以上のプロジェクト、うち 6 つが絶頂プロジェクト
  • ライブコーディングクラス
  • プロフィール作成ワークショップ
  • キャリアブートキャンプ
  • マンツーマンのハイパフォーマンスコーチング
  • マンツーマンのキャリア指導セッション
  • 独占的な仕事の機会
  • パーソナライズされた業界セッション

p値はカイ二乗検定にどのように関連していますか?

p 値は、検定統計量の値の右側にあるカイ 2 乗密度曲線の下の領域です。 カイ 2 乗検定の統計量が帰無仮説を棄却するのに十分な大きさであるかどうかは、有意性のカイ 2 乗検定の最後のステップです。 この目的で p 値が使用されます。

カイ二乗検定の使用に制限や欠点はありますか?

調査対象のすべての個人は一意でなければなりません。 そうでなければ、結果は無意味になります。 特定の回答者が 2 つの異なるグループに分類される可能性がある場合は、カイ 2 乗検定を使用しないでください。 カイ二乗のさらに別の制​​限は、頻度データにしか使用できないことです。 さらに、すべてのクラスで予測されるすべての人の合計は 5 より大きくなければなりません。

カイ二乗検定の強みは何ですか?

その主な強みの 1 つは、カイ 2 乗をすばやく簡単に計算できることです。 この方法を使用して公称データを利用することもできます。 また、統計的有意性についてカテゴリ変数の 3 つ以上のグループを比較するために使用することもできます。