Tanımlayıcı İstatistik Nedir? Tanım, Açıklanan Türler
Yayınlanan: 2021-08-13Tanımlayıcı istatistikler, veri setinin özellikleri düzenlenir ve özetlenir. Tüm popülasyondan veya örneklemden gözlemlerin toplanması, bir veri seti olarak bilinir. Verilerin toplanmasından sonraki ilk adım, bir değişkenin ortalaması veya iki değişken arasındaki ilişki gibi özelliklerin yanıtlarını tanımlamaktır. Örneğin, yaş ve yaratıcılık arasında bir bağlantı bulmak bize istatistiksel analiz sağlar.
Bir sonraki adım, verilerinizin hipotezi doğrulayıp doğrulamadığını gösteren çıkarımsal istatistikleri bulmaktır. Ayrıca, genelleştirilmiş bir popülasyonun onu etkileyip etkilemediğine karar vermemize de yardımcı olur. Bu günlerde araştırmacılar, veri bilimine ve büyük veriye çok önem vermekte ve bu verileri çok dikkatli bir şekilde işliyorlar. Tanımlayıcı istatistiklerin devreye girdiği yer burasıdır.
Tanımlayıcı istatistikleri analiz etmenin temel adımlarından biri, açıklamalar vermesi, yapıcı bir şekilde veri noktalarını göstermesi ve anlayışlı veri bilgileri sağlamasıdır. Ayrıca size veri dağılımının bir sonucunu verir, aykırı değerleri tespit etmenize yardımcı olur ve değişkenler arasındaki benzerlikleri belirlemenizi sağlar.
İçindekiler
Tanımlayıcı İstatistik Türleri
Frekans dağılımı
Frekans dağılımı, bir örneklem veya veri setindeki farklı sonuçların sayısını veya sıklığını gösterir. Hem nitel hem de nicel veriler için kullanılır ve tipik olarak bir grafik veya tablo formatında sunulur. Grafik veya tablodaki her girişe, değerlerin bir aralık, aralık veya belirli bir gruptaki oluşum sıklığı veya sayısı eşlik eder.
Açıklığa kavuşturmak için, özel sınıflara göre kategorize edilmiş gruplandırılmış verilerin bir özeti veya sunumudur. Ayrıca her bir ilgili kategorideki oluşum sayısını da sunar. Böylece, ham verileri sunmanın daha organize ve yapılandırılmış bir yolunu gösterir.
Frekans dağılımı verilerinin bazı örnekleri, frekans sunumunda kullanılan grafikler veya çizelgelerdir. Ayrıca pasta grafikler, çubuk grafikler, çizgi grafikler ve histogramlar da frekans dağılımının bir göstergesidir.
Merkezi Eğilim
Merkezi eğilim genellikle, veri dağıtım merkezini yansıtan tek bir değer kullanan tanımlayıcı veri seti özetini ifade eder. Bu nedenle, merkezi eğilim ölçüleri halk arasında merkezi konum ölçüleri olarak bilinir. Merkezi eğilimin üç temel yönü şunlardır:
Anlamına gelmek
Ortalama, en popüler merkezi eğilim olarak kabul edilir. Veri kümesinin ortalama veya en yaygın değeridir. Ortalamayı tanımlamak için, iki veya daha fazla sayının en basit matematiksel ortalamasıdır. Ortalama, verilerdeki birden fazla yolla hesaplanabilen sayı kümesi tarafından verilir. İki tür ortalama vardır - aritmetik ortalama ve geometrik ortalama.
Örneğin aşağıdaki veri setinin ortalamasını bulmak için; 2,3,4,5,6. Daha sonra, veri kümesini basitçe ekleyerek ve veri kümesindeki değerlerin sayısına bölerek bu verilerin ortalaması dört olur.
Medyan
Medyan, artan veya azalan düzende herhangi bir veri kümesinin orta puanıdır. Bu nedenle, veri kümesindeki sayıların listesi ortalamadan daha açıklayıcıdır.
Örneğin, {3, 13, 2, 34, 11, 26,47} olan tek bir veri kümesi olması durumunda, önce {2,3,11,13,26,34,47 verilerini düzenlemeniz gerekir. }, burada Medyan 13'tür çünkü serinin her iki tarafında da eşit sayılar vardır. Öte yandan, {3, 13, 2, 34, 11, 17, 27, 47} olan veri kümesinin çift olması durumunda, önce verileri {2,3,11,13, 17,26,34,47}, burada Medyan, 2'ye bölünen dizinin ortasındaki iki basamağın toplamı olacaktır. Bu nedenle, Medyan 13+17/2, yani 15'e eşit olacaktır.
mod
Mod, verilerde en sık görülen puan değerini ifade eder. Veri kümesinin bir modu, birden fazla modu olabilir ve hiç modu olmayabilir.
Örneğin, {3,5,6,6,6,8,9} sayılarına sahip veri kümesinin modu 6 olur ve veri kümesinin aynı sayılara sahip olmaması durumunda bu verinin modu olmadığı kabul edilir. .
değişkenlik
Değişkenlik, bir örnekteki dağılım derecesini yansıtan özet istatistiklerin bir ölçüsüdür. Ayrıca, veri noktalarının merkezden ne kadar uzakta göründüğünü belirleyen değişkenliği de ölçer.
Yayılma, dağılım ve değişkenlik, bir verideki dağılım değerlerinin genişliğini ve aralığını ifade eder. Standart sapma, varyans ve aralık, yayılmanın farklı yönlerini ve bileşenlerini göstermek için kullanılır.
Değerler kümesindeki aralık, bir veri içindeki en düşük ve en yüksek değerler arasındaki dağılım derecesini veya ideal bir mesafeyi gösterir. Standart sapma, bir dizi verideki ortalama varyansı belirlemek için kullanılır. Ayrıca, veri kümesindeki değerler arasındaki fark veya uzaklık hakkında bir fikir sağlar. Verilerin ortalama değerini de gösterir. Son olarak, yayılma derecesini yansıtır.
Tanımlayıcı İstatistiklerin Önemi
ihtiyatlı veriler
Tanımlayıcı istatistikler için toplanan veriler yüksek derecede nesnelliğe sahip olmalıdır. Bu nedenle, ekstra uyanık olmak gerekir, çünkü istatistikler çıkarılan verilerin farklı özelliklerini gösteriyorsa ve trendlere uymuyorsa, hiçbir faydası olmayacaktır.
Daha Geniş Yaklaşım
Tanımlayıcı istatistikler, nicel yöntemden daha geniş olarak ölçülür. Olgu veya olayın daha geniş bir resmini sunmayı amaçlar. Bu, araştırma yapmak için tek sayıda değişken veya herhangi bir sayıda değişken kullanabilir.
doğal ilişki
Bu istatistiksel veriler, doğal olduğu ve dünyayı olduğu gibi gösterdiği için bilgi toplamak için daha iyi bir yöntem olarak kabul edilir. Çıkarılan eğilimlerin doğruluğunu sağlamak için verilerin gerçek yaşam davranışını araştırır.
Esnek
Tanımlayıcı istatistikler, çalışmaya bir şeyler öğrenmenin yeni bir yolunu sunar. Örneğin, araştırmacılar, tanımlayıcı istatistik fenomenini tanımlamak için hem korelasyon hem de nitel olan bir vaka çalışmasını kullanabilirler. Olayları, insanları ve kurumları tanımlamak için vaka çalışmaları kullanılabilir. Bu, araştırmacıların veri kalıplarını ve davranışını anlamalarını sağlayacaktır.
Dünyanın en iyi Üniversitelerinden çevrimiçi olarak veri bilimi sertifikası alın . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.
Değişkenleri ve hipotezleri tanımlayın
Tanımlayıcı istatistikler, deneysel ve çıkarımsal çalışmalar yoluyla daha fazla analiz edilebilecek yeni hipotezleri ve değişkenleri tanımlarken kullanışlıdır. Ayrıca, hata payı nispeten küçük olduğundan ve eğilimler doğrudan veri özelliklerinden kaynaklandığından çok kullanışlıdır.
Sonuçlandırmak
Tanımlayıcı istatistikler, veri uzmanlarının bulgularını hem teknik hem de teknik olmayan paydaşların anlayabilmesi için anlamlı bir şekilde sunmasına olanak tanıdığından veri görselleştirme için çok önemlidir. Tanımlayıcı istatistikler, uygun grafik temsiller aracılığıyla karmaşık nicel verileri özetleyerek, veri yorumlama sürecini basitleştirir ve işletmelerin veriye dayalı kararlar vermesini kolaylaştırır.
Veri biliminde kullanılan farklı istatistiksel kavramlar ve yöntemler hakkında daha fazla bilgi edinmek istiyorsanız, upGrad'ın Veri Bilimi kurslarında Yönetici PG Programına göz atmayı unutmayın . En iyi ulusal ve yabancı üniversitelerden öğretim üyeleri tarafından verilen bu kurslar, sizi sektörle ilgili beceri ve bilgilerle donatacaktır.