önce M. AKÇA tarafından yazılmıştır. Regresyon Analizi Nedir?-2

Regresyon Analizi Nedir?-2

Bir önceki yazımda Basit Regresyon Analizinin nasıl yapıldığını Regresyon Analizi Nedir? konusunda işlemiştim. Bu yazımda biraz daha ayrıntıya inerek model kurma ve kurulan modelin etkililiğini araştırma konuları ile devam edeceğim.

Basit bir Lineer Regresyon modelinde sadece tek bir bağımsız değişken (X) bulunmaktadır. X ve Y arasındaki lineer ilişki, lineer bir fonksiyon ile gösterilmektedir. Y deki değişime X’deki değişimin neden olduğu varsayılmaktadır.

Bu ilişkileri inceleyelim*:

Lineer İlişki Güçlü İlişki ilişki yokilişki yok

 

 

Buradaki ilişkiler genellikle korelasyon katsayısı ile tahmin edilebilir. Bazı istisnai karışık durumlarda ilişkinin tam olarak kestirilemeyeceğini söylemek mümkündür. (Bknz. Anscombe’nin Dötrlüsü)

 

Model Kurmak

Model-1 Suç işleme ile ilgili bir model örneği** 

Bu örnekte suç işlemeye ayrılan zamanı hangi parametreler etkilemektedir. Onu inceleyeceğiz.

y = f(x1, x2, x3, x4, x5, x6, x7)

y: suç işlemeye ayrılan zaman, (saat)

x1: suç islemeye ayrılan zaman başına ücret (ya da getiri)

x2: legal çalışma karşılığı ücret,

x3: suç ve yasal çalışma dışında kalan gelir

x4: yakalanma olasılığı

x5: yakalanma durumunda hüküm giyme olasılığı

x6: hüküm giyme durumunda beklenen ceza

x7: yaş

 

Model-2 Alınan Maaşa Etki Eden Faktörler**

Ücret = f(eğitim, tecrübe, iş eğitimi)

ücret: saat başına ücret (para birimi)

eğitim: eğitim düzeyi (yıl)

tecrübe: iş gücü piyasasındaki tecrübe düzeyi (yıl)

iş eğitimi: iş ile ilgili eğitime ayrılan süre (hafta)

Bu probleme ait lineer regresyon modeli alttaki gibi olacaktır.

ucret = β0 + β1egitim + β2tecrube + β3is egitimi + u

 u Rassal Hata terimidir. Ne kadar mükemmel bir model kurulursa kurulsun, gerçek hayatta bağımlı değişkeni etkileyen tüm faktörler modele dahil edilemez. Bu nedenle her modelde rassal hata terimi bulunmalıdır. Örneğin modelde yer almayan ailenin gelir düzeyi, anne ve babanın eğitim düzeyi ve doğuştan gelen yetenek modelin içerisinde bulunmadığı için u teriminin içerisinde gizlenmiştir.

β0,  β1,  β2, β0 terimleri modelin içinde yer alan ve ilişkinin yönünü ve gücünü gösteren bilinmeyen parametrelerdir.

 

Determinasyon Katsayısı (r²)**

Determinasyon katsayısı Regresyon modelinin gerçeği ne denli yansıtabildiğinin bir ölçütü olarak karşımıza çıkmaktadır. Determinasyon katsayısı aslında korelasyon katsayısı’nın karesi olup yine (0 ile 1) arasında bir değere tekabül etmektedir. Determinasyon katsayısı bize modelin başarısını test etmemiz için bir fırsat tanımaktadır.

(Toplam sapma) = (Açıklanan sapma) + (Açıklanamayan Sapma)

SST = SSR + SSE

Ekran Resmi 2015-07-08 18.53.07

Toplam Sapma               = yi değerlerinin Ortalamadan ayrılışların kareleri toplamıdır.

Açıklanan Sapma           = Tahmin y değerlerinin ortalamadan sapmasıdır.

Açıklanamayan Sapma = Hata Harelerinin toplamıdır.

r²                                       = SSR/SST ile determinasyon katsayısı bulunur.

Regresyon doğrusunun başarı durumu arttıkça determinasyon katsayısı değeri 1’e yaklaşacaktır.

 

 Varyans

Bir istatistiksel işlem hata içeriyorsa orada standart sapmadan bahsetmek mümkündür. Regresyon Analizinde de iki tür hatadan bahsedilebilir. İlki modelin toplam varyandısıdır, ikincisi ise paremetrelerin varyansıdır.

 

Ceteris Paribus

Bu tip modellerin değerlendirilmesinde önemli bir prensip bulunmaktadır. İlgili diğer paremetreler sabit kabul edilir (Ceteris Paribus). Diğer Parametrelerin sabit kabul edilmesi bazen pratikte bir takım problemlere neden olmaktadır.  Bu problemler şunlardır:

– Yeterli sayıda parametrenin sabit tutulması gerekir. Tutulamazsa sağlıklı sonuçlar elde edilemez.

– Model dışında bırakılan, sonuca etkisi olan parametre bulunmaması gerekir.  Örnek olarak Gübre miktarının üretilen buğday üzerine etkisini araştırıyorsak, gübre dışında mahsul etkisini etkiliyen yağmur miktarı, toprak kalitesi, parazitlerin varlığı gibi bir çok faktörü göz ardı edebiliriz. Gübrenin etkinliğinin anlaşılabilmesi için bu faktörlerin sabitlenmesi gerekmektedir.

– Bazı etkileri ayrıştırmak zordur. Yukarıdaki Maaş modeli örneğinde maaşı etkileyen faktörler arasında kişinin eğitim düzeyi ile aldığı maaş üzerinde bir çalışma yapıyor olsak. Doğuştan  yetenekli insanların eğitim almaya istekli olmaları nedeniyle, yetenek düzeyleri yüksek adaylar daha yüksek ücret aldıklarından eğitim düzeyinin ücretler üzerindeki etkisini ceteris paribus etkisini ayrıştırmak zor olur.

– Bir şehirde devriye gezen polis sayısının artırılması suç oranlarını artırır mı sorusu. Eğer bir şehir rassal olarak seçilir de polis sayısı 10 adet artıtılırsa bu şekilde her türlü diğer etkiler sabit tutulup sadece polis sayısının değiştirilmesi suretiyle suç oranları takip edilebilir. Fakat bu soru şu şekilde sorulsaydı durum çok farklı olacaktı: A şehri ve B şehri birbirlerine çok benzeyen şehirler. A şehrindeki polis sayısı B deki polis sayısından 10 adet fazlaysa suç oranları nasıl olur? A şehrinde polis sayısının fazla olması aslında o şehirde kötü bir şeylerin döndüğüne işaret olabilir. Suç oranı dışında suç oranını etkiliyen diğer faktörlerin kötü olan bölgelerde polis sayısının daha fazla olması beklenir. Bu nedenle problem daha da karmaşıktır. Suç oranları mı polis sayısını etkiliyor yoksa polis sayısı mı suç oranlarını etkiliyor iyi karar verilmesi gerekir.

Bu tip içiçe geçmiş durumlar daha önceden Sahte Korelasyonlar yazısında incelenmişti.  Bu tip durumların oluşması nedeniyle araştırmalarda sık sık yanlış yorumlamalar yapılabiliyor:

Örneğin Sigara İçmenin IQ üzerine etkisi , Başarısızlığın örneklendirilmesi postlarını inceleyebilirsiniz.

 

*   Doç. Dr. Hamit AYDIN Bülent Ecevit Üniversitesi Mühendislikte İstatistik Metotlar ders notlarından yararlanılmıştır.

** Doc.Dr. Hüseyin Taştan Yıldız Teknik Üniversitesi, İktisat – J.M. Wooldridge Introductory Econometrics: A Modern Approach (2nd ed.)