önce M. AKÇA tarafından yazılmıştır. Regresyon Analizi Nedir? -3

Regresyon Analizi Nedir? -3

Regresyon Analizi hem istatistik için hem de veri analitiği konuları için çok önemli bir konudur. Bu nedenle bu konuyu bir dizi şeklinde işlemeye devam edeceğim. Regresyon Analizinde model kurarken neyi mekrak ettiğimiz çok önemlidir. Gerçek dünyada bir uygulama örneği olması açısından emlakçı örneğini verebiliriz. Eğer bir emlak danışmanlığı ofisiniz varsa, gelen satılık ve kiralık evlerde ya da arsalarda sizden fiyat konusunda destek isteyen insanlar olacaktır.

Çok sayıda kriter söz konusu olduğunda, aynen seçim yapma işleminin(bknz. Analitik Hiyerarşi Prosesi) zor olması gibi fiyatlandırma işlemi de gayet zor olmaktadır. Burada da çok sayıda kriter ve değişken bulunmaktadır. Bu kriterler: dairenin büyüklüğü, oda sayısı, salon büyüklüğü, balkon bulunma durumu, cephe durumu, kat sayısı, komşuların ortalama gelirleri gibi değişkenler olabilir. Emlak fiyatlarının değerlendirilmesi işleminin daha önceden yapılan çok sayıda örneği bulunmasına rağmen, bu değişkenlerin seçiminde tecrübe çok önemlidir.

Bu bilgiler derlendiği zaman değişik ev seçenekleri için satılan evlerdeki ölçümlerin ne kadarının fiyata etki ettiğini gözlemlemek oldukça ilginç bir gözlem oluyor. Örnek vermek gerekirse, fiyat için; belirli bir mahallede oda sayısı, evin öznel olarak çok güzel olmasından (subjective rating) çok daha belirleyici ve iyi tahmin edici (better predictor) bir özellik olabiliyor. Bazen lokasyon ve karakteristik olarak normalde satılması gerekenin dışına çıkan evler bulunabilir. İnsanlar regresyon analizi kullanarak bedelleri adil bir şekilde belirlemek istiyorlar. Emlak örneğinde kriterlerin önem dereceleri belirlenerek evlerin alması gereken değer, başka bir örnekte bir işletmede hangi çalışanın ne kadar ücret alması gerektiği ile ilgili bir hesaplama. Bir pazar araştırması ve anket çalışması ile pazardaki çalışanların ücretlerine etki eden faktörler ve bu faktörlerin önem dereceleri farklı açılardan hesaplanabilir.

Bu bazen Maaş = 0,5 x Soumluluk + 0,8 x Altında çalışan Kişi sayısı

gibi bir formülle bize geri dönebilir. Daha sonra oluşan bu formül ile kendi çalışanlarının verilerini kıyas ederek İK çalışanları hengi çalışanlara yüksek ücret ödediklerini hangi çalışanlarına düşük ücret ödediklerini belirleyebilirler. Ve böylelikle ücret adaletini sağlayabilirler.  Doğa Bilimleri ve Sosyal bilimler konularındaki araştırmalarda regresyon analizi çok yaygın olarak kullanılıyor. Özellikle şu sorunun cevabını regresyon analizi çok iyi veriyor. x olayındaki en öndemli faktör nedir?

Okul başarısındaki en önemli faktör nedir?  Örneğin eğitim bilimciler bu konuyu merak ederken, psikoloji alanında çalışanlar hangi kişilik özelliklerinin sosyal uyumda daha etkili olduğunu öğrenmeye çalışıyorlar. Belki sosyoloji alanında çalışanlar çok sayıda göstergeye bakarak yeni bir göçmen gurubun topluma ayak uydurup uyduramayacağı ile ilgilenebilirler.

Okul başarısına etki eden faktörleri araştıran bir öğretmen olduğumuzu düşünelim. IQ ve Notlar arasında bir ilişki bulmak istiyoruz diyelim.  4’lük düzende notlarla IQ arasında 1+.02*IQ şeklinde bir ilişki bulursak IQ sunu bildiğimiz bir öğrencinin Notunu hesaplamamız çok zor olmayacaktır.

İki boyutlu bir düzlemde sadece iki değişkeni bulunan bir regresyon modelini göstermek kolay olacaktır. Fakat bağımlı değişkene etki eden bağımsız değişken sayısı arttıkça grafikte gösterilemez fakat hesaplanabilir bir hal alacaktır. Örneğin deminki not tahmin modeline IQ’ya ek olarak disiplinize olmak ve motivasyon değişkenlerini de eklersek hesaplanabilir, fakat değişkenler kısmı grafikle gösterilemez bir hal alır.

Y = a + b1*X1 + b2*X2 + … + bp*Xp

Değişken sayısını gerek duyulduğu kadar artırmak mümkün.

regresyon

 

Korelasyon hesaplamalarında sıklıkla kullanılan scatterplot, iki değişken arasındaki ilişkiyi (korelasyonu) görselleştirmek için kullanılmaktadır. IQ ve Not ilişkisi gibi iki değişkenden oluşan diğer uygulamarda da bu görselleştirme işlemi uygulanabilir. Dağılım grafiğinde her bir nokta bir öğrenciyi temsil etmektedir. Lineer Regresyon modelinin amacı ise bu dağılıma uygun bir doğru oluşturmaktır. Bunu gerçekleştirmek için ise matematiksel bir takım yöntemler uygulanmaktadır. Bunlardan bir tanesi de En Küçük Kareler Yöntemi’dir.

Örnek olarak GPA ile IQ arasında yöntem şöyle bir doğru oluşturabilir:

GPA=1+.02*IQ  

Bu nedenle IQ su 130 olan bir öğrencinin GPA’nin (1+0,2*130=3,6) olması beklenir.

 

Regresyonda Güven Aralığı

Doğrusal denklemi çıkarılan verinin dağılımına uygun b0 ve b1 değerlerinin %90, %95 ve %99 unu içerecek şekilde hangi değerler arasında olması gerektiği matematiksel olarak hesaplanabilmektedir. *

regresyonda güven aralıkları

 

Güven aralığının içine aldığı değerleri yukarıdaki animasyonda görebilirsiniz. Fakat gerçek hayatta problemler bu kadar basit değildir. Örneğimizi ele alacak olursak Motivasyon, Disiplin gibi okul başarısına etki eden çok daha fazla değişken bulunmaktadır. Bunlar da modele dahil edildiğinde yine bir lineer regresyon modeli kurulabilir. Fakat bunun adı çok değişkenli lineer regresyon olur.

Y = a + b1*X1 + b2*X2 + … + bp*Xp

Çok değişlenli doğrusal model’in matematiksel gösterimi ise yukardaki denkleme benzeyecektir.

Kaynak: https://www.statsoft.com