例で説明された線形回帰

公開: 2021-10-13

線形回帰は、データセットの変数間の関係を確立するための最も一般的なアルゴリズムの1つです。 数学的モデルは、データサイエンティストが予測分析を実行するために必要なツールです。 このブログでは、基本的な概念について説明し、線形回帰の例についても説明します。

目次

回帰モデルとは何ですか?

回帰モデルは、観測されたデータに線を当てはめることにより、データセット変数間の関係を記述します。 これは、どの変数が影響を及ぼし、最も重要であるかを分類する数学的分析です。 また、関係する要因について私たちがどれだけ確信しているかを決定します。 2種類の変数は次のとおりです。

  • 依存:予測または理解しようとしている要因。
  • 独立:従属変数に影響を与えると思われる要因。

従属変数が量的である場合、回帰モデルが使用されます。 ロジスティック回帰の場合はバイナリである可能性があります。 ただし、このブログでは、主に両方の変数が定量的である線形回帰モデルに焦点を当てます。

過去3年間の月間売上高と平均月間降雨量に関するデータがあるとします。 この情報をチャートにプロットしたとしましょう。 y軸は販売数(従属変数)を表し、x軸は総降雨量を表します。 グラフの各ドットは、特定の月に雨が降った量とそれに対応する販売数を示します。

データをもう一度見ると、パターンに気付くかもしれません。 雨が多かった日は売り上げが増えると思います。 しかし、特定の量、たとえば3〜4インチの雨が降ったときに、通常どれだけ売れるかを見積もるのは難しいでしょう。 グラフ上のすべてのデータポイントの中央に線を引くと、ある程度の確実性を得ることができます。

現在、ExcelやSPSS、R、STATAなどの統計ソフトウェアを使用すると、手元のデータに最適な線を引くことができます。 また、線の傾きを表す式を出力することもできます。

上記の例で次の式を検討してください:Y = 200+3X。 雨がまったく降らなかったとき(つまり、X = 0のとき)に200ユニットを販売したことがわかります。 変数が前進するときに同じままであると仮定すると、雨が1インチ増えるごとに、平均でさらに3ユニットの売上が発生します。 1インチの雨の場合は203ユニット、2インチの雨の場合は206ユニット、3インチの雨の場合は209インチというように販売します。

通常、回帰直線の式には誤差項も含まれます(Y = 200 + 3 X +誤差項)。 独立予測子が必ずしも従属変数の完全な予測子であるとは限らないという現実を考慮に入れています。 そして、この線は、利用可能なデータに基づいた見積もりを提供するだけです。 誤差項が大きいほど、回帰直線の確実性は低くなります。

線形回帰の基本

単純な線形回帰モデルは、直線を使用して2つの量的変数間の関係を推定します。 複数の独立変数がある場合は、代わりに重回帰を使用します。

単純な線形回帰分析は、2つのことに関係しています。 まず、履歴データの従属因子と独立因子の間の関係の強さを示します。 次に、独立変数の特定の値での従属変数の値を示します。

この線形回帰の例を考えてみましょう。 個人の収入が幸福レベルにどのように影響するかを知りたい社会調査員は、単純な回帰分析を実行して、線形関係が発生するかどうかを確認します。 研究者は、特定の地理的位置にいる人々を調査することにより、従属変数(幸福)と独立変数(収入)の定量値を取得します。

たとえば、データには、インドのマハラシュトラ州の500人の収入と幸福度(1から10のスケールでランク付け)が含まれています。 次に、研究者はデータポイントをプロットし、回帰直線を当てはめて、回答者の収入が彼らの幸福にどの程度影響するかを知ります。

線形回帰分析は、データに関するいくつかの仮定に基づいています。 がある:

  • 従属変数と独立変数の間の関係の線形性。つまり、最適な線は直線であり、曲線ではありません。)
  • 分散の均一性、つまり予測の誤差のサイズは、独立変数のさまざまな値間で大幅に変化することはありません。
  • データセット内の観測値の独立性。隠れた関係がないことを示します。
  • 従属変数のデータ分布の正規性。 Rのhist()関数を使用して同じことを確認できます。

線形回帰の背後にある数学

y = c + axは標準方程式であり、yは出力(推定したい)、xは入力変数(わかっている)、aは直線の傾き、cは定数です。

ここで、出力は入力に基づいて線形に変化します。 傾きは、xがyの値にどの程度影響するかを決定します。 定数は、xがnilの場合のyの値です。

別の線形回帰の例を通してこれを理解しましょう。 あなたが自動車会社に雇用されていて、インドの乗用車市場を調査したいとします。 国内総生産が乗用車販売に影響を与えているとしましょう。 ビジネスのためにより良い計画を立てるために、GDPに関して国内で販売された車両の数の線形方程式を見つけたいと思うかもしれません

このためには、年間の乗用車販売のサンプルデータと毎年のGDPの数値が必要になります。 今年のGDPが来年の売上に影響を与えることに気付くかもしれません。GDPがどちらの年よりも少なかったとしても、翌年の自動車の売上は減少しました。

機械学習分析用にこのデータを準備するには、もう少し作業を行う必要があります。

  • 方程式y=c + axから始めてください。ここで、yは1年間に販売された車両の数、xは前年のGDPです。
  • 上記の問題でcとanを見つけるために、Pythonを使用してモデルを作成できます。

ステップバイステップの方法を理解するには、このチュートリアルチェックしてください

Rで単純な線形回帰を実行すると、結果の解釈とレポートがはるかに簡単になります。

同じ線形回帰の例で、方程式をy = B0 + B1x+eに変更してみましょう。 ここでも、yは従属変数であり、xは独立変数または既知の変数です。 B0は定数または切片、B1は回帰係数の傾き、eは推定の誤差です。

Rのような統計ソフトウェアは、データから最適な線を見つけ、モデルの全体的な誤差を最小化するB1を検索できます。

次の手順に従って開始します。

  • 乗用車販売データセットをR環境にロードします。
  • コマンドを実行して、乗用車の売上とGDPの関係を表す線形モデルを生成します。
    • sales.gdp.lm <-lm(gdp〜sales、data = sales.data)
  • summary()関数を使用して、最も重要な線形モデルパラメーターを表形式で表示します。
    • 要約(sales.gdp.lm)

注:出力には、呼び出し、残差、係数などの結果が含まれます。 「呼び出し」テーブルには、使用される式が示されます。 「残差」は、モデルが実際のデータにどの程度適合しているかを示すために、中央値、四分位数、最小値、および最大値の詳細を示します。 「係数」テーブルの最初の行はy切片を推定し、2番目の行は回帰係数を示します。 このテーブルの列には、Estimate、Stdなどのラベルがあります。 エラー、t値、およびp値。

世界のトップ大学から機械学習コース学びましょう。 マスター、エグゼクティブPGP、または高度な証明書プログラムを取得して、キャリアを迅速に追跡します。

  • (切片)値を回帰方程式に接続して、GDP数の範囲全体の売上値を予測します。
  • (推定)列を調べて、効果を確認します。 回帰係数は、GDPの変化に伴って売上がどの程度変化するかを示します。
  • (標準エラー)ラベルから、売上とGDPの関係の推定値の変動を調べます。
  • (t値)の下の検定統計量を見て、結果が偶然に発生したかどうかを確認します。 t値が大きいほど、その可能性は低くなります。
  • Pr(> | t |)列またはp値を調べて、帰無仮説が真である場合の売上に対するGDPの推定効果を確認します。
  • 推定された効果、標準誤差、およびp値を使用して結果を提示し、回帰係数の意味を明確に伝えます。
  • レポートにグラフを含めます。 単純な線形回帰は、回帰直線と関数を含むプロットチャートとして表示できます。
  • 観測されたy値と予測されたy値の距離を測定し、xの各値で距離を二乗し、それらの平均を計算することにより、誤差を計算します。

結論

上記の線形回帰の例では、単純な線形回帰モデルの生成、回帰係数の検出、および推定の誤差の計算の概要を説明しました。 また、予測データ分析と統計におけるPythonとRの関連性についても触れました。 このようなツールの実用的な知識は、今日のデータサイエンスと機械学習のキャリアを追求するために不可欠です。

プログラミングスキルを磨きたい場合は、IITマドラスとupGradによる機械学習の高度な証明書プログラムをご覧ください。 オンラインコースには、トレーニングプロセスに業界志向性をもたらすためのケーススタディ、プロジェクト、専門家によるメンターシップセッションも含まれています。

機械学習と人工知能でのキャリアを強化する

LJMUから機械学習と人工知能の理学修士を申請する