önce M. AKÇA tarafından yazılmıştır. Regresyon Analizi Nedir?

Regresyon Analizi Nedir?

Regresyon Analizi, istatistik biliminin çok temel ilgi alanlarından bir tanesidir. Bir rastgele değişkenin davranışının model kullanarak tahminlenmesidir. Değişkenler arasındaki ilişkinin büyüklüğünü ölçmek için kullanılır. Tek bir değişken kullanılırak da çok değişken kullanılarak da Regresyon Analizi yapılabilmektedir. Çok değişkenli durumlarda bağımlı değişkene etki eden diğer değişkenler sabit kabul edilerek (Ceteris Paribus şeklinde) hesaplama yapılmaktadır. Bu değişkenlerin bağımlı değişkeni nasıl etkilediği  bir katsayı ile belirlenmektedir. Bu kaysayıya ise değişkenin regreson katsayısı denir ve bağlılığın derecesini gösterir. Önemli olan etkileyen ile etkilenen arasında bir sebep sonuç ilişkisi bulunmasıdır.

graphic-1

Regresyon analizi ile çalışılan süre ile alınan not arasında, ya da yine eğitimden yola çıkarak örnek vereceksek öğrencinin devamsızlık gün sayısı ile başarı notu arasında bir bağlantı kurulabilir. Ardaki ilişkiyi sayısal olarak ortaya koyduktan sonra, devamsızlığı bilinen bir öğrencinin başarı durumu, ya da başarı durumu bilinen bir öğrencinin devamsızlık durumu tahmin edilebilmektedir. Tabi iki ölçümün de niceliklsel ölçü olma zorunluluğu bulunmaktadır.

Kısaca özetlemek gerekirse Veri tablosuna en uygunfonksiyonu bulma işine Regresyon Analizi deniliyor.

Basit Regresyon Modeli

Regresyon yönteminin en ilkel ve ilk kullanım şekli en küçük kareler yöntemidir. En küçük kareler yöntemi ilk olarak Parisli Matematikçi Adrien Marie Legendre tarafından 1805 yılında ortaya atılmıştır.*

En Küçük Kareler Yöntemi

 

Legendre

Legendre çok önemli eserler veren bir matematikçi fakat önemli çalışmalarının büyük çoğunluğunu nihayete erdirmek başka bilim adamlarına nasip olmuş. En küçük kareler yöntemi 1805 yılında Legendre tarafından kullanıldıktan 4 yıl sonra Gauss aynı yöntemi açıklamıştır. Ancak Gauss aynı yöntemi 1795’ten beri kullandığını iddia etmiştir. Gauss ozaman 18 yaşındaymış. 1801 de Ceres astroidinin yörüngesinin belirlenmesinde kullanılmış bunu da 1809 yılında açıklamıştır. Her ikisi de bu yöntemi astronomik gözlemlerde uyduların güneş üzerindeki konumunu hesaplamak için kullanmışlardı. Yakın zaman diliminde aynı buluşu bulan bir çok bilim adamı gibi Gauss ve Legendre de birbirinden bağımsız bir şekilde aynı yöntemi kullanmış olabilir.

 

Gauss’un Ceres astroitinin yörüngesini hesaplarken kullandığı yöntemleri Berkley universitesinin ders notları arasında yer alan How Gauss Determined the Orbit of Ceres dosyasında bulabilirsiniz.

Ekran Resmi 2015-07-06 21.15.03

Gauss’a ait olduğunu düşündüğümüz en küçük kareler yöntemi cazip bir takım istatistiki özellikleri nedeniyle. regresyon çalışmalarında yaygın olarak kullanılan bir yöntemdir. Yöntem tıp, finans, mühendislik, tıp ve sosyoloji gibi çeşitli bilim dallarında değişkenler arası ilişkilerin belirlenmesinde kullanılır.

Bu yöntem nasıl kullanılıyor diye baktığımızda Regresyon çözümlemesinde

Yi = β0 + β1Xi

ifadesi için amaç Y değerine en yakın sonuçlar üretecek β0 ve β1 katsayı değerlerini üretmektir. Tabi elimizde bağımsız Xi değerleri ve bağımlı gerçek Yi değerleri bulunuyor. Doğru ile üretilen ve alttaki grafikte üzerinde şapka bulunan Y değerleri tahmin edilen değerlerdir.

Print

Yakın sonuç üreten katsayıların eğriden sapması yukarıdaki grafikteki gibi olacaktır. En küçük kareler yönteminde bu sapmaların karesini en küçük yapan doğrunun katsayıları çözüm olarak seçilmektedir. En iyi tahmini yapan denklemin hesaplama detayları ile ilgili En küçük kareler hesaplama yöntemi dosyasını inceleyebilirsiniz***

Hesaplama ile ilgili detayları incelerken Neden Hata Kareleri Minimum yapılmaya çalışılıyor da hata minimum yapılmaya çalışılmıyor?  diye bir soru aklınıza gelebilir.

Aslında En küçük kareler yönteminde amaç hatayı minimum yapan tahmin doğrusunu bulmaktır. Bu hata yukarıdaki resimde r ile gösterilen hatadır. Genel olarak r değerlerini minimize etmek için şu yöntemler uygulanabilir:

1- Hata Toplamlarını Minimize Edebiliriz.

Bu durumda pozitif ve negatif değerler birbirlerini yutacak çok yüksek hata değerlerinde bile toplamda 0 hata gibi anlamsız sonuçlar çıkabilecektir.

Ekran Resmi 2015-07-06 22.20.10

Soldaki grafikte daha az hata payı olmasına rağmen, hata toplamlarını minimize ettiğimizde sağdaki doğrunun daha az hatalı olduğu görülecektir. Bu nedenle bu yöntem uygulamadan uzaktır.

 

2- Mutlak Hataların Minimize Edilmesi 

Bu durumda da alttaki gibi bir durumla karşılaşılır. Burda da ikinci grafik sanki birinci grafikten daha iyi bir tahmin sağlamış gibi görünüyor. Mutlak hataya göre işlem yapsaydık sağdaki grafiği seçmek durumunda kalacaktık.

Ekran Resmi 2015-07-06 22.24.52

 

 

3- Hata Kareler Toplamı Minimize Edilebilir

Bu yöntem işte En Küçük Kareler yöntemi olarak adlandırılır. Yöntemin avantajları şunlardır:

– Hataların kare toplamlarının alınması işaret problemini ortadan kaldırmaktadır.

– Karesi alındığı için hatası büyük olanlar iki kez çarpılarak vurgunun önemi artırılmaktadır.

– Tüm noktalara ve hatalara önem verilmektedir.

Yukarıdaki grafikte En Küçük Kareler yöntemine göre işlem yapılmış olsaydı sol taraftaki grafik seçilecekti.

 

Regresyon Analizi Her Zaman Uygun Bir Çözüm Vermeyebilir

Regresyon Analizinden verimli sonuçlar alabilmek için modelin çok karmaşık olduğu ya da çok sayıda değişken kullanıldığı sapmalarda grafik yardımına başvurmak anlamlı olabilir. İki değişken arasındaki ilişkiyi göstermek için scatter plot kullanılabilir. Bazen çok farklı değerlere sahip değişkenler aynı regresyon denklemine sahip olabilir. Bu konu daha önce Anscombe’nin Dötrlüsü postunda işlenmişti.

Anscombe Ekran Resmi 2014-12-01 19.31.29

Yukarıdaki dört serinin de ortalaması (7,5), standart sapması 4,12 korelasyon katsayısı 0,81 ve regresyondoğrusu y=3+0,5x ‘tir.

Regresyon analizi her nekadar değişkenler arasındaki bağımlılığın ölçüsü ile uğraşsa da nedensellik anlamı taşınması zorunlu değildir. Kendal ile Stuart’ın ifadesiyle “İstatistiksel bir ilişki, ne denli güçlü, ne denli anlamlı olursa olsun, hiç bir zaman nedensel bir ilişki olamaz; sonuçta bizim nedensellik düşüncelerimiz istatistik dışından, şu ya da bu şekilde bir kuramdan gelmelidir.” Yani bir nedensellikten bahsedebilmek için Kuramsal düşüncelere başvurmak gerekecektir.

 

 

*     A.M. Legendre (1805), Nouvelles méthodeş pour la détermination des orbites des comètes. “Sur la Méthode des moindres quarrés”

**   How Gauss Determined the Orbit of Ceres

*** Prof.Dr. Afet GOLAYOĞLU Ders Notları  

http://tr.wikipedia.org/wiki/Regresyon_analizi

  • Elif My

    iki değişken arasında nedensellik var ama regresyon düşük çıkıyor bunun nedeni ne olabilir? diğer bir ifade ile kısa ve uzun dönem ilişki var ama r kare 0,11???