
Merhaba Arkadaşlar,
Sayısal dünyada neden her şeyin 2’nin kuvvetleri şeklinde olduğunu hiç düşündünüz mü? Bu soruya hemen “sayısal dünya bitlerden (0 ve 1) oluştuğu için bu şekildedir.” cevabını verebiliriz. Konunun arkasındaki matematiği merak etmeyenler bu yazıyı okumayabilir. Ancak 8-PSK, 16QAM, 256 seviyeli kuantalama, … ve daha birçoğunun neden 2’nin kuvvetleri şeklinde olduğunda en iyi sistemin elde edildiğini matematiksel olarak görmek isteyen siz değerli dostlarımız için devam edelim. 🙂
İlk olarak veri ile bilgi arasındaki farkın ne olduğunu anlamaya çalışalım. Devam etmeden önce aşağıdaki soruları birkaç saniye düşünmenizi istiyorum.
- Bilgi nedir, değeri nasıl ölçülür ve mutlak bir değeri var mıdır?
- Bilgi kitaplarda yazılan kelime toplulukları mıdır?
- Öyle olduğunu var sayarsak kitaptaki sayfa sayısı kitabın içerdiği bilgi ile ilişkili midir?
Her soyut kavramda olduğu gibi bilgiyi tanımlamak da oldukça zordur. Bu soruna bilgi kuramının kurucusu Claude Shannon oldukça basit ve etkileyici bir çözüm getirmiştir. Shannon’a göre bilgi belirsizlik içeren durumlar veya bizi şaşırtan şeyler olarak tanımlanabilir. Peki ne demek oluyor belirsizlik içeren durum? Yazı tura deneyi örneğinden gidecek olursak. Bu deneyde yazı ve tura olmak üzere iki adet durum söz konusudur. Arkadaşınız madeni parayı havaya atıyor ve yere düştükten sonra sonucu görmemeniz için üstünü kapatıyor. İşte burada sizin için bir belirsizlik söz konusu. Para yazı mı geldi yoksa tura mı? Arkadaşınız sonucu görmenizi sağladığında ise paradan yansıyan ışık gözünüze ulaşıyor, gözünüzdeki fotoreseptör hücreleri ışığı algılıyor, beyniniz alınan sinyalleri yorumluyor ve deney sonucunda oluşan bilgi size aktarılmış oluyor. İşte bu basit mantık tüm haberleşme sistemlerinin temelini oluşturduğunu söyleyebilirim. Biz de bir noktada ürettiğimiz bir bilgiyi farklı şekillerde başka bir noktaya iletmeye çalışıyoruz. Şimdi bilgi miktarının nasıl hesaplanacağı konusuna gelelim. Dahi profesörümüz Shannon bilgi tanımını yaptıktan sonra bilgi miktarının aşağıdaki bağıntı ile hesaplanabileceğini söylemiştir.
\small I_k=log_2\left(1/p_k \right)
Bu tanımlamaya göre bilginin birimi \small bit olur ve \small p_k durumun ortaya çıkma olasılığını yani bizi şaşırtma miktarını temsil eder. Şimdi bu bağıntıya göre yazı tura deneyinin bize ne kadar bilgi aktardığını hesaplayabiliriz. Hilesiz bir para olduğunu varsayarsak yazı ve tura gelme olasılığı birbirine eşit ve \small 0,5 olur. Bu durumda bize aktarılan bilgi miktarı \small 1\:bit olarak hesaplanır. Peki hileli bir para kullanılarak yazı tura olasılıklarının eşit olmadığı durumda bilgi miktarı nasıl değişirdi?
Bu durumu farklı bir örnek üzerinden anlatmak istiyorum. Diyelim ki astronomi alanında çalışan bir bilim insanısınız ve Mars’ta su olup olmadığı üzerinde çalışmalar yapıyorsunuz. Dünyadan yaptığınız gözlemler ve ölçümler sonucunda Mars’ta su olma olasılığını %20 olarak hesaplıyorsunuz. Daha sonra bir yerlerden destek alarak araştırma için Mars’a küçük bir uydu gönderiyorsunuz. Şimdi bu uydunun su var veya su yok mesajı gönderdiğinde aktarılan bilgi miktarını yine aynı bağıntıyı kullanarak hesaplayabiliriz.
- Su olması durumunda: \small 2,322\:bit
- Su olmaması durumunda: \small 0,322\:bit
Görüldüğü gibi gerçekleşme olasılığı düşük olan yani bizi daha fazla şaşırtan mesaj çok daha fazla bilgi içermektedir. Veri konusuna gelecek olursak. Bilgiyi taşıyan sembolleri veri olarak tanımlayabiliriz. Örneğin araştırma uydumuz bize Mars’ta su olması durumu “a”, olmaması durumu “b” sembolü göndersin. Bu semboller Mars’ta su olup olmadığı bilgisini taşıyan veriler olmuş olur. Ancak bilgi ile karşılaştırılması açısından veriyi bitler kullanarak oluşturmamız daha uygun olacaktır. Yani su olması durumu “1”, olmaması durumu “0” ile temsil edilsin. Bu durumda iki mesaj da \small 1\:bit veri ile kodlanır. Böylelikle su olması mesajı \small 1\:bit veri ile temsil edilmesine rağmen \small 2,322\:bit bilgi içerir, olmaması durum ise yine \small 1\:bit veri ile temsil edilmesine rağmen sadece \small 0,322\:bit veri içermektedir.
Şimdi burada bir problem var. Suyun var olması mesajını içerdiği bilgiye göre daha düşük bir veri ile temsil ettik. Bu iyi bir şey, ancak diğer mesajı içerdiği bilgiye göre daha çok veri ile temsil ettik. Burada verimsiz bir durum söz konusu. Peki bu mesajları en iyi şekilde mi kodladık? Daha iyi bir kodlama yapabilir miydik? İşte tam olarak burada entropi kavramına giriş yapabiliriz. Entropi ortada bulunan belirsizliğin içerdiği ortalama bilgi miktarı olarak tanımlanabilir. Yani mesajların içerdiği bilgilerin ağırlıklı ortalamasını almamız gerekmektedir. Buna göre entropi aşağıdaki gibi hesaplanır.
\small H[X] = \sum_k p_k log_2\left(1/p_k \right)
Mars örneğimizde ortadaki belirsizliğin entropisini hesaplarsak \small 0,722\:bit sonucuna ulaşırız. Bunun ispatını daha sonra anlatacağım ama şimdiden ön bilgi verebiliriz. Hesapladığımız bu entropi değeri kayıpsız sıkıştırma için her bir mesajın optimum kod uzunluğunu yani kaç bit ile temsil edilmesi gerektiğini gösterir. Ancak maalesef bu örnekte olduğu gibi sonuç her zaman tam sayı çıkmaz ve bu durumlarda verimli bir kodlama yapamamış oluruz. Peki verimli şekilde kodlama yapmak için ne yapmamız gerekir?
Öncelikle mesajların ortaya çıkma olasılıklarını eşit yapmamız gerekiyor. Madeni para örneğinde yazı ve tura durumlarının \small 1\:bit bilgi içerdiğinin hesaplamıştık. Bu deneyin entropisini hesapladığımızda sonuç yine \small 1\:bit çıkar. Böylelikle yazı durumun “1” ve tura durumunu “0” ile temsil etmem optimum çözüm olur. Ancak tüm durumların eşit olasılıkta olması yeterli değildir. Mesaj veya durum sayısının da 2’nin kuvveti olması gereklidir. Örnek üzerinden ilerleyecek olursak. Zar atma deneyinde altı yüzün de gelme olasılığı eşit olsun. Bu durumda zar atma deneyinin içerdiği ortalama bilgi \small 2,585\:bit olarak hesaplanır. Zarın sekiz yüzü olsaydı entropi \small 3\:bit olarak hesaplanacaktı ve her bir mesaj maksimum düzeyde bilgi taşıyacak şekilde kodlanmış olacaktı.
İşte sayısal sistemlerde sürekli 2’nin kuvvetleri şeklinde kodlama ve sembol sayısı tercih edilmesinin nedeni her bir sembolün maksimum sayıda bilgi içermesinin sağlamaktır. Peki sembollerin eşit olasılıkta olması nasıl sağlanıyor diye soracak olursanız. Bunun için “randomizer” olarak adlandırılan bir yapı kullanılabiliyor. Merak eden araştırabilir. 🙂 Aslına bakarsanız oldukça karmaşık bir konu olduğunu itiraf etmeliyim. Olabildiğince ispatlara girmeden basit bir şekilde anlatmaya çalıştım. Umarım bu konuda çalışmak isteyenleri korkutup kaçırmamışımdır. 🙂 Bu günlük de bu kadar o zaman efendim. Sonraki yazılarda görüşmek üzere kendinize iyi bakın.
Bir post’unda da bilgi ile ilim arasındaki farkı örneklerle anlatabilirsen sevinirim Mehmet Ali. 🙂
Değerli hocam öncelikle konuyu sadelikten ödün vermeden verilen misallerle de gayet net bir şekilde aktardığınızı düşünüyorum. Emeğinize sağlık.
Ancak kafama takılan bir soru oldu.
Maksimum bilgi için 2’nin kuvvetleri şeklinde kodlama ve sembol sayısının tercih edildiğini belirttiniz. Bunu da sadece 0 ve 1′ lerden oluşan ikili bir sistemde Shannon bağıntısına dayandırarak açıkladınız. Sizce bu durum sayısallaştırma için gerçekten (hakikaten) olabilecek en iyi sistem midir? Yoksa eldeki imkanlardan ötürü ulaşılabilmiş en iyi sonuç mudur ? İleride bir gün bu ikili sisteme dayalı sayısal dünyayı değiştirecek bir gelişme olursa ve artık sadece 0 ve 1′ lere mahkum değil sayısal dünya denirse iddianız hala geçerliliğini koruyabilecek mi? Ya da Shannon aslında genel bir ilişkiyi mi ortaya koymuş , bu yazı bunun sadece ikili sistem için bir örneği midir?. Hakikati merak etme noktasında cahilliğimin verdiği bir merakla sordum, bilgilendirmeler için sonsuz teşekkür ederim.
Hocam değerli yorumunuz için çok teşekkür ederim. Sorunuz oldukça düşündürücü ve konuya farklı bir açıdan bakmamı sağladı. Açıkçası sorunuzun cevabını tam olarak bilmemekle birlikte bağıntılardan yorum yaparak bir cevap vermeye çalışacağım. Yazıda belirtildiği gibi bir durumun taşıdığı bilgi ortaya çıkma olasılığının tersi ile ilişkilendirilmiş. Yani ortaya çıkma olasılığı 0.25 olan bir durum 1/(0.25) hesabı ile 4 birimlik bilgi içermektedir. Ancak burada bir olasılık ifadesi olduğu için bir birim söz konusu değildir. Bu nedenle tanım gereği Shannon log2 tabanında ölçekleme yaparak bilgi miktarını sayısal olarak bilgi taşıyabilecek en küçük birim ile yani bit ile ifade etmiştir. Yani bu sayısal dünyanın ikili sınırlamalarına göre oluşturulmuş bir teorem değil olasılıksal olarak ulaşılabilecek maksimum sınırı gösteren ancak bunu gösterirken de birim olarak bitleri kullanan bir teorem olarak değerlendirebiliriz. Yorumunuz ile bu konu hakkında daha derin düşünmemizi sağladığınız için teşekkür ederim.