Merkezi Limit Teoreminin Mucizesi

Merhaba Arkadaşlar,
Bugün yazının bir bölümüne geldiğinizde “Nasıl olur böyle bir şey?” diyeceğiniz bir konu üzerinde konuşacağız. Nereden mi biliyorum? Çünkü bu konuyu araştırdığımda benim verdiğim tepki tam olarak buydu. 🙂 Yeterince ilginizi çekebildiysem sadece matematik ile uğraşarak pek çok alana inanılmaz katkılar sağlayan Carl Friedrich Gauss’a bir kez daha hayran kalmamızı sağlayacak “Merkezi Limit Teoremini” (Central Limit Theorem) incelemeye başlayalım.

Merkezi limit teoremi, basit olarak bize olasılık dağılımları ne şekilde olursa olsun birbirinden bağımsız rastgele değişkenlerin toplamının normal (Gauss) dağılımına yakınsadığı söylemektedir. Çok da basit olmadı sanki. 🙂 O zaman olasılık dağılımının ne olduğunu öğrenerek işe başlayalım.

Olasılık dağılımı genel olarak bir olayın ortaya çıkaracağı değerlerin olasılıklarını tanımlayan fonksiyonlar olarak düşünülebilir. Örnek verecek olursak zar atma olayımızda ortaya 1’den 6’ya kadar sayılar çıkmaktadır. Eğer zar hilesiz ise her sayının ortaya çıkma olasılığı 1/6’dır. Yani hilesiz bir zar ile yapılan zar atma olayı  Şekil 1’de görülen düzgün dağılıma sahiptir. 

Şekil 1. Zar atma deneyinin olasılık dağılımı

Bu şekilde olayların olasılıklarının modellendiği pek çok dağılım bulunmaktadır. Şimdi merkezi limit teoremini daha iyi anlayabilmek için bir örnek üzerinden ilerleyelim. Örneğimizin otobüs durağında bekleme süremiz ile ilgili olsun. Sizce herhangi bir gün ve saatte otobüs durağında bekleme süremiz nasıl bir olasılık dağılımına sahiptir. Biz şimdilik dağılımın Şekil 2’de verildiği gibi olduğunu varsayalım.

Şekil 2. Üstel olasılık dağılım fonksiyonu

Bu olasılık dağılımını yorumlayacak olursak. Otobüs geldiği zaman durakta 2 dakika beklemiş olma olasılığımız yüksekken, 18 dakika beklemiş olma olasılığımız düşüktür. Otobüs 20 dakikada bir geldiğinden dolayı da 20 dakikadan daha fazla bekleme olasılığımız yoktur. Kısacası oldukça şanslı olduğumuzu söyleyebiliriz. 🙂 Şimdi “İnsanların bir yılda ortalama durakta bekleme süresinin olasılık dağılımı nasıldır?” sorusunun cevabını merak ediyoruz. Bu cevabı bulabilmek için adımları aşağıdaki gibi olan bir deney tasarladığımızı düşünelim.

  • Şehirde farklı otobüs hatlarını farklı saatlerde kullanan 10000 adet gönüllü seçilir.
  • Gönüllülerden her gün otobüs gelene kadar durakta kaç dakika beklediklerini kaydetmeleri istenir.
  • Bu işlem bir yıl boyunca her gün gerçekleştirilir.
  • Son olarak tüm kişilerin bir yılda ortalama durakta bekleme süreleri hesaplanarak oluşan verilerin dağılımına bakılır.

Tabii ki biz bu işlemleri anket ile yapmak yerine deneyi Matlab ortamında gerçekleştireceğiz. Aslına bakarsanız aşağıda verdiğim 25 satırlık program ile bu deneyin simülasyonunun basitçe yapabiliyoruz.

clear; clc; 
M=10000;      % Kişi sayısı 
N=365;        % Gün Sayısı 
A=zeros(M,N); % Anket Değişkeni 

for i=1:M 
    A(i,:)=random('exp',4,[1,N]);      % Üstel Dağılım 
%    A(i,:)=random('unif',0,20,[1,N]); % Düzgün Dağılım 
%    A(i,:)=random('gam',2,2,[1,N]);   % Gamma Dağılımı 
%    A(i,:)=random('beta',2,2,[1,N]);  % Beta Dağılımı 
end 

X = A(1,:);    % Bir numaralı kişinin bekleme süreleri 
Y = mean(A,2); % Tüm kişileri ortalama bekleme süreleri 

figure; subplot(2,1,1); 
histogram(X,'Normalization','probability'); 
xlabel('Bekleme Süresi [dk]'); ylabel('Olasılık'); 
subplot(2,1,2); 
histogram(Y,'Normalization','probability'); 
xlabel('Bekleme Süresi [dk]'); ylabel('Olasılık');

Kodu açıklamak gerekirse. Öncelikle “M” ve “N” değişkenlerinde sırasıyla deneye katılacak kişi sayısı ve deneyin gerçekleştirileceği gün sayısı tanımlanmıştır. Oluşturulan “A” matrisinde ise kişilerin tuttuğu kayıtlar yer almaktadır. Yani “A” matrisinin birinci satırı bir numaralı gönüllünün verilerini içermektedir. For döngüsü yardımıyla “A” matrisi belirlenen olasılık dağılım fonksiyonlarına göre doldurulur. Son olarak “X” dizisi bir numaralı gönüllünün ölçüm verilerini gösterirken, “Y” dizisi ise insanların bir yıl boyunca durakta ortalama bekleme sürelerini saklamaktadır. Programın son bölümünde ise elde edilen veriler görselleştirilmiştir. Programın çıktısı üstel olasılık dağılım fonksiyonu için Şekil 3’de verildiği gibi olmaktadır.

Şekil 3. Bir numaralı kişinin durakta bekleme süresi dağılımı (üstte), tüm kişilerin bir yılda ortalama bekleme süresi (altta)

Burada görüldüğü gibi oldukça ilginç bir sonuç çıktı. Her bir kişinin durakta bekleme süresi üstel olarak azalan bir dağılıma sahipken, insanların durakta ortalama bekleme süresi Gauss dağılımına sahip olmaktadır. Evet meşhur Gauss dağılımı ile tanışmış olduk. 🙂 Şimdi “ne var yani denk gelmiştir.” veya “belki üstel dağılım ile Gauss arasında bir ilişki vardır.” gibi yorumlar yapabilirsiniz. O zaman insanların bekleme sürelerinin dağılımlarını değiştirerek simülasyonları tekrarlayalım. Ayrıca dağılımların daha net görülmesi için de gün sayısını “5000” olarak değiştirelim. Buna göre kişilerin bekleme süresi düzgün dağılıma sahip olduğunda elde edilen program çıktısı Şekil 4’de verilmiştir.

Şekil 4. Bir numaralı kişinin durakta bekleme süresi dağılımı (üstte), tüm kişilerin bir yılda ortalama bekleme süresi (altta)

Burada sonucun tam olarak düzgün dağılım çıkmamasının nedeni alınan örneklere göre olasılık dağılımının çıkartılmasıdır. Yani süre kaydı yapılan gün sayısı ne kadar çok arttırılırsa her bir kişinin bekleme süresinin dağılımı düzgün dağılıma daha çok yaklaşacaktır. Ancak buna rağmen görüldüğü gibi ortalama bekleme süresinin dağılımı yine Gauss dağılımına yakınsamıştır. Hala inanmayanlar için son olarak Gamma dağılımı ile sonucun değişip değişmeyeceğine bakalım.

Şekil 5. Bir numaralı kişinin durakta bekleme süresi dağılımı (üstte), tüm kişilerin bir yılda ortalama bekleme süresi (altta)

Evet burada da görüldüğü gibi bütün olasılık dağılımları mucizevi bir şekilde Gauss dağılımına dönüşüyor. Gerçekten etkileyici bir durum. Peki “hocam bunuz biz günlük hayatta nerede kullanacağız?” diye soracak olursanız. Günlük hayat değil ama üniversite hayatınızla ilgili bir örnek verebilirim. Tüm üniversitelerde olmasa da bazılarında “Çan Sistemi” denilen bir notlandırma yöntemi uygulanmaktadır. Buna göre öğrencilerin harf notları sınıfın başarısına göre belirlenmektedir.

Şimdi neden çan sistemi kullanıldığını düşünelim. Sınıftaki her öğrencinin sınavdan alacağı notun dağılımının Şekil 4’de ki gibi düzgün olduğunu varsayalım. Bu durumda eğer yeterince çok sınav yaparsak öğrencilerin sınav ortalamalarının dağılımı yukarıda gösterdiğimiz gibi Gauss eğrisine yakınsayacaktır. Gauss dağılımının diğer adı da çan eğrisi olduğu için bu şekilde adlandırılır. İşte bu çan eğrisinin belirli bölgelerine harf notları verilere öğrencilerin sınav ortalamalarına göre başarı harfleri belirlenir. Ancak burada ufak bir problemimiz var. bu sonuca ulaşabilmek için tüm öğrencilerin alacağı not dağılımının aynı olduğunu varsaydık. Bu varsayım tabii ki doğru değil çünkü çok çalışan bir öğrencinin yüksek not alma olasılığı fazlayken, az çalışan öğrencinin düşük not alma olasılığı fazladır. Yani her öğrencinin sınavdan alacağı notun dağılımı, o derse çalışma miktarına göre farklılık göstermektedir. Bu kısımda bir problem var gibi? Çan sisteminde açık mı bulduk yoksa? 🙂

Aslına bakarsanız bu sorunun cevabını tam olarak bilmiyorum. Ancak tahminime göre her ne kadar tüm öğrenciler aynı dağılıma sahip olmasa da, çoğunluğun aynı miktarda çalıştığını ve benzer dağılımlara sahip olduğunu söyleyebiliriz. Bu durumda öğrencilerin not ortalamalarının dağılımı yine Gauss eğrisine yakınsayacaktır ve herkes mutlu olacaktır. Çan eğrisinin sol bölümünde kalanlar hariç herkes diyelim. 🙂

Evet uzun zamandır yazmak istediğim bir konunun sonuna geldik. Umarım hoşunuza gitmiştir. Son kısımda konuştuğumuz öğrencilerin çoğunluğunun benzer dağılıma sahip olması durumunda yine Gauss eğrisi elde edip edemediğimizi, verdiğim programı bir miktar düzenleyerek kontrol edebilirsiniz. Bir sonraki yazıda yine bu teorem ile ilgili özellikle haberleşme mühendisliğinde oldukça kullanılan bir konu üzerinde konuşacağız. O zamana kadar kendinize iyi bakın efendim.

“Merkezi Limit Teoreminin Mucizesi” için bir yanıt

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir