記述統計とは何ですか? 定義、説明されたタイプ
公開: 2021-08-13記述統計は、データセットの特性を整理して要約したものです。 母集団全体またはサンプルからの観測値のコレクションは、データセットと呼ばれます。 データ収集後の最初のステップは、1つの変数の平均や、2つの変数間の関係などの特性の応答を記述することです。 たとえば、年齢と創造性の関係を見つけることで、統計分析が可能になります。
次のステップは、データが仮説に反論するか確認するかを示す推論統計を見つけることです。 また、一般化された人口がそれに影響を与えるかどうかを判断するのにも役立ちます。 最近、研究者はデータサイエンスとビッグデータを非常に重要視しており、このデータは細心の注意を払って処理されています。 ここで記述統計が始まります。
記述統計を分析するための重要なステップの1つは、説明を提供し、データポイントを建設的に示し、洞察に満ちたデータ情報を提供することです。 さらに、データ分散の結論を出し、外れ値を検出し、変数間の類似性を識別できるようにします。
目次
記述統計の種類
頻度分布
度数分布は、サンプルまたはデータセットのさまざまな結果の数または度数を示します。 これは、定性的データと定量的データの両方に使用され、通常はグラフまたは表の形式で表示されます。 グラフまたは表の各エントリには、範囲、間隔、または特定のグループでの値の出現頻度またはカウントが付随しています。
明確にするために、それは排他的なクラスに基づいて分類されたグループ化されたデータの要約または提示です。 また、それぞれのカテゴリでの発生数も示します。 したがって、生データを提示するためのより組織化された構造化された方法を示しています。
度数分布データの例のいくつかは、度数分布で使用されるグラフまたはチャートです。 さらに、円グラフ、棒グラフ、折れ線グラフ、およびヒストグラムも度数分布の指標です。
中心傾向
中心傾向は、一般に、データ分布の中心を反映する単一の値を使用した、記述的データセットの要約を指します。 したがって、中心傾向の測定値は、一般に中心位置の測定値として知られています。 中心傾向の3つのコアな側面は次のとおりです。
平均
平均は、最も人気のある中心傾向であると考えられています。 これは、データセットの平均値または最も一般的な値です。 平均を定義するために、それは2つ以上の数の最も単純な数学的平均です。 平均は、複数の方法で計算できるデータ内の数値のセットによって与えられます。 平均には、算術平均と幾何平均の2種類があります。
たとえば、次のデータセットの平均を見つけるには、 2,3,4,5,6。 次に、このデータの平均は、データセットを追加し、それをデータセット内の値の数で割るだけで4になります。
中央値
中央値は、昇順または降順のデータセットの中間スコアです。 したがって、数値のリストは、平均よりもデータセット内でより説明的です。
たとえば、{3、13、2、34、11、26,47}である奇数のデータセットの場合、最初にデータを配置する必要があります{2,3,11,13,26,34,47 }、ここでは、系列の両側に等しい数があるため、中央値は13です。 一方、{3、13、2、34、11、17、27、47}のデータセットでも、最初にデータを{2,3,11,13、 17,26,34,47}、ここで中央値は、シリーズの中央にある2桁の合計を2で割ったものになります。したがって、中央値は13 + 17/2になり、15になります。
モード
モードは、データで最も頻繁に使用されるスコア値を指します。 データセットには、1つのモード、複数のモードがあり、モードがまったくない場合があります。
たとえば、番号が{3,5,6,6,6,8,9}のデータセットの場合、モードは6になります。データセットに同じ番号がない場合、そのデータにはモードがないと見なされます。 。
変動性
変動性は、サンプルの分散の程度を反映する要約統計量の尺度です。 また、データポイントが中心からどれだけ離れているかを決定する変動性も測定します。
広がり、分散、および変動性は、データ内の分布値の幅と範囲を指します。 標準偏差、分散、および範囲は、スプレッドのさまざまな側面とコンポーネントを表すために使用されます。
値のセットの範囲は、データ内の最小値と最大値の間の分散の程度または理想的な距離を示します。 標準偏差は、データセットの平均分散を確立するために使用されます。 また、データセット内の値の違いまたは距離についての洞察も提供します。 データの平均値も示しています。 最後に、それは広がりの程度を反映しています。
記述統計の重要性
警戒データ
記述統計のために収集されたデータは、高度な客観性を備えている必要があります。 したがって、統計が抽出されたデータのさまざまな特性を示し、それらが傾向と一致しない場合、それは役に立たないため、特に注意する必要があります。
より広範なアプローチ
記述統計は、定量的方法よりも広大であると測定されています。 これは、現象またはイベントの全体像を提供することを目的としています。 これは、単一の数の変数または任意の数の変数を使用して調査を行うことができます。
自然な関係
この統計データは、自然であり、存在する世界を示しているため、情報を収集するためのより良い方法と見なされます。 抽出された傾向の正確性を確保するために、データの実際の動作を調査します。
フレキシブル
記述統計は、研究に物事を学ぶための新しい方法を提供します。 たとえば、研究者は、相関と定性の両方であるケーススタディを使用して、記述統計の現象を説明できます。 ケーススタディを使用して、イベント、人、および機関を説明できます。 これにより、研究者はデータのパターンと動作を理解できるようになります。
世界のトップ大学からオンラインでデータサイエンス認定を取得します。 エグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。
変数と仮説を特定する
記述統計は、実験的および推論的研究を通じてさらに分析できる新しい仮説と変数を特定する際に役立ちます。 さらに、エラーのマージンは比較的小さく、傾向はデータプロパティから直接取得されるため、非常に便利です。
結論として
記述統計は、データの専門家が調査結果を有意義に提示し、技術的および非技術的な利害関係者の両方がそれらを理解できるようにするため、データの視覚化にとって非常に重要です。 記述統計は、適切なグラフィック表現を通じて複雑な定量的データを要約することにより、データ解釈プロセスを簡素化し、企業がデータベースの意思決定を容易に行えるようにします。
データサイエンスで使用されるさまざまな統計の概念と方法について詳しく知りたい場合は、データサイエンスコースのupGradのエグゼクティブPGプログラムを確認してください。 これらのコースは、国内外のトップ大学の教員によって指導され、業界に関連するスキルと知識を身に付けます。