重回帰分析を実行する方法は?

公開: 2021-11-23

統計分析では、考慮される変数間の関係を開発するために必要な場合は常に回帰モデルが主に使用されます。 この関係は、すべての変数の間に線を引くことによって確立されます。 従属変数の動作を理解するために、回帰モデルが使用されます。 それらは、独立変数の変化に伴って従属変数がどのように変化するかをユーザーに知らせます。

重回帰は、これらの変数、つまり従属変数と独立変数の間の関係を推定するのに役立つそのような手法の1つです。 この記事では、重回帰の手法とその実行方法に焦点を当てます。

目次

重回帰

重回帰は、応答変数の結果を予測するために使用される統計手法の形式です。 この手法の目標の1つは、独立変数と従属変数の間に線形関係を確立することです。 多重線形回帰分析は、複数の形式の観測を含む多変量分析の形式です。

次のことを知りたい場合は、ほとんどの場合、この手法を実行できます。

  • 変数間の関係がどれほど強いかを理解する。 また、独立変数と従属変数の関係を理解し​​たい場合は、そのような場合に、重回帰の手法を使用できます。
  • この手法を使用して、独立変数に対応する従属変数の値を予測できます。

重回帰で考慮される仮定

重回帰の手法では、特定の仮定が考慮されます。 MLRの前提条件は次のとおりです。

1.分散の均一性

等分散性としても知られています。 これは、結果を予測している間、独立変数の値による結果の予測に関連するエラーに大きな変化がないことを意味します。 この方法では、MLRのモデル全体でエラー量が同じであると想定しています。 アナリストは、予測値に対して標準化された残差をプロットする必要があります。 これは、独立変数全体にポイントが公平に分布しているかどうかを判断するのに役立ちます。 散布図は、データのプロットに使用できます。

2.観察の独立性

重回帰で考慮される観測値は、有効な統計手法によって収集されます。 これは、収集された変数間に隠された、または既存の関係がないことを意味します。 この手法では、一部の変数が他の変数と相関しているシナリオが存在する場合があります。 したがって、回帰モデルを開発する前に、これらの相関変数をチェックすることが常に重要です。 モデル開発から変数の1つを削除することは、高い相関を示す変数にとって常に優れています。

3.独立変数間に相関関係はありません

別の言い方をすれば、データに多重共線性があってはならないということです。 多重共線性が存在する場合、分析者は従属変数の分散に寄与する変数を特定するのが難しいことに気付くでしょう。 したがって、仮定をテストするのに最適と考えられる方法の1つは、分散拡大係数の方法です。

4.正常性:

これは、データセットが正規分布に従うことを意味します。

5.直線性

変数間の関係を検索している間、直線が変数間に適合しようとします。 独立変数と従属変数の間には線形関係が存在すると広く考えられています。 線形関係を確認する1つの方法は、散布図を作成してから、散布図を視覚化することです。 これにより、ユーザーは観測に存在する線形性を観測できます。 線形関係がない場合、アナリストは分析を繰り返す必要があります。 MLRの実行には、SPSSなどの統計ソフトウェアを使用できます。

重回帰の数学的表現

多重線形回帰モデルの数学的図を次の式に示します。

上記の式では、

  • Yは出力変数を表し、
  • Xは入力変数を表し、
  • Βは、各項に関連付けられた係数を表します。
  • B0はy切片の値であり、他のすべての予測子が存在しない場合のYの値を意味します。

MLRの方程式は、方程式の項の最後にある項「e」で表される誤差項で構成されている場合があります。

線の最適なものを見つけながら、MLR方程式を使用して次のことを計算します。

  • MLR方程式にわずかな誤差をもたらす回帰係数の計算。
  • モデル全体に​​ついて、方程式はt統計値を計算します。
  • モデルのP値。

通常の最小二乗

重回帰の方法は、通常最小二乗(OLS)としても知られています。 これは、MLRの方法が最小の二乗和を見つけようとするためです。 したがって、OLS法とも呼ばれます。 これらのメソッドを実装するには、プログラミング言語pythonを使用できます。 PythonでOLSメソッドを適用できる2つのメソッドは次のとおりです。

1.SciKitLearn

これは、Pythonプログラミング言語で利用可能なパッケージです。 線形回帰モジュールは、ScikitLearnのパッケージからインポートされます。 次に、モデルにデータが適合されます。 これは簡単な方法であり、広く使用できます。

2.StatsModels

Pythonプログラミング言語で使用される他のメソッドの1つは、Statsmodelsのパッケージです。 このパッケージは、OLS手法の実装に役立ちます。

重回帰の例

MLRの例のいくつかを以下に示します。

  • 多重線形回帰モデルは、作物収量の予測に使用できます。 これは、MLRでは、従属変数と独立変数の間に関連があるためです。 このようなタイプの研究では、気候要因、降雨量、肥料のレベル、気温などの追加の要因を考慮することができます。
  • 実施した研究の時間数とクラスGPAの間に接続を確立する必要がある場合は、MLR法を使用できます。 このような場合、GPAが従属変数になり、学習時間などの他の変数が説明変数になります。
  • MLRの手法は、役員の経験と年齢に基づいて会社の役員の給与を決定するために使用できます。 このような場合、給与は従属変数になり、年齢と経験は独立変数になります。

MLRのワークフロー

回帰モデルに入る前に、データを準備して分析する必要があります。 データは主に、エラー、外れ値、欠落値などの存在について分析されます。ここでは、重回帰手法を実装または適用する方法を示すために、いくつかの手順を示します。

1.変数の選択

MLRには、応答変数と最も関係のある予測値を含むデータセットが必要です。 これは、最小数の変数から最大の情報を抽出する必要があることを意味します。 変数の選択は、以下のプロセスから実行できます。

  • 変数の検索には自動手順を選択できます。 ツールをRおよびPythonのプログラミングパッケージと一緒に使用して、MLR研究に最適な変数を決定できます。
  • 独立変数のサブパートの存在をチェックするために、すべての可能な回帰を選択できます。
  • R2の値は、最良の変数を分析するために考慮することができます。 R2の値が大きい変数は、モデルに最適であると見なされます。 R2の値は、0と1の2つの数値から外すことができます。値0は、独立変数のいずれも従属変数の結果を予測できないことを意味します。 値1は、独立変数によるエラーのない予測を意味します。
  • 予測された二乗和(PRESSp)である別の用語もあります。 MLRのモデルのPRESSpが小さい場合、そのモデルの予測強度は優れていると見なされます。

2.モデルの改良

MLRのモデルは、次の基準を検討することで改善できます。

  • グローバルF検定の値。 これは、独立変数によって従属変数の結果を予測することの重要性をテストするために使用されます。
  • パラメータとサンプルサイズを調整した後、サンプル全体の変動をチェックするためにR2を調整しました。 項の値が大きいほど、変数がデータにより適していることを示します。
  • 二乗平均平方根偏差またはRMSEは、ランダムエラーの標準偏差を推定するために使用されます。
  • 変動係数の値が10%以下の場合、MLRのモデルは正確な予測を提供していると見なされます。

3.モデルの仮定のテスト

考慮される仮定は、線形回帰のモデルでテストされます。 これらの仮定は満たされるべきです。

4.モデルに関連する問題への対処

モデルで考慮されている仮定の一部に違反している場合は、そのような問題を最小限に抑えるための手順を実行する必要があります。

5.モデルの検証

これはMLRモデル生成の最後のステップであり、重要なステップと見なされています。 モデルの生成後、モデルを検証する必要があります。 検証されると、多重線形回帰分析に使用できます

結論

重回帰は、変数間の相関関係を確立するために、あらゆる調査研究で最も広く使用されている手法の1つです。 また、機械学習の世界では重要なアルゴリズムと見なされています。 ただし、回帰分析を初めて使用する場合は、回帰モデルと単純な線形回帰について理解しておくことをお勧めします。

世界のトップ大学から機械学習コースを受講してください。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

機械学習と人工知能でのキャリアを強化する

IIITBのAi-mlでエグゼクティブ認定を今すぐ申請する