önce M. AKÇA tarafından yazılmıştır. Big Data Nedir?

Big Data Nedir?

Üzerinde yaşadığımız dijital çağda internet üzerinde üretilen aktivitelerin bir sonucu olarak, devasa miktarlarda yapısal ve yapısal olmayan veri yığınları oluşmuştur. Ortalama bir insanın anlayamayacağı düzeyde veri oluşuyor. Algılamakta zorluk çekeceğimiz düzeyde gelişen veriye Büyük Veri deniliyor. Bu verilerin kaynağı olarak; yeni teknoloji ile oluşturulan internete bağlı cihazların oluşturduğu verileri, milyarlarca hatta tirilyonlarca sosyal medya güncellemelerini, yazıları, tarihleri, numaraları sıralayabiliriz. Şimdilik!

 

Makro Ölçekte Big Data 

Bu verilerin büyüklüğünü sayılarla anlamak çok zor, fakat bir saniye gibi kısa bir sürede dünya üzerinde twitter, facebook, youtube gibi internet ortamlarında neler olup bittiğini alttaki internet sitesindeki animasyonlar vasıtası ile biraz daha kolay bir şekilde anlayabiliriz.

http://onesecond.designly.com/

10 Yıl önce Skype, Facebook, YouTube, Reddit, Twitter, Tumblr, Dropbox, ve Instagram’ın olmadığını;

20 Yıl önce Dünya üzerinde sadece 130 kadar internet sitesi olduğunu,

30 Yıl önce internet olmadığını,

Düşündüğümüzde, veri kaynaklarının veriyi nasıl bir ivmeyle ortaya çıkardığını az biraz algılayabiliriz. Bir saniyede internet üzerinde tirilyonlarca hareket yaşanıyor. Milyonlarca terabyte veri alışverişi yaşanıyor. Aynı zamanda gelişen sensör teknolojisi, son zamanlarda çok büyük veri üretiyor. Bilgisayarların işlemci kapasitelerinin gelişmesi ve sensör teknolojilerinin son zamanlarda ilerlemesi bu patlamayı daha da körüklüyor. Özellikle gelecek ile ilgili tahminlerde “Herşeyin İnterneti” nden bahsediliyor. Neredeyse tüm nesnelerin internete bağlı olması konuşuluyor.

IDC firması 2006 yılında dijital evren ile ilgili tahmini 0.18 zettabyte iken 2011 yılında bu tahminini 10 misli büyüterek 1.8 zettabyte yampıştı. 1 zettabyte’ın yaklaşık olarak 1 milyar terabyte’a eşit olduğunu düşünün. 2013 Yılına gelindiğinde bu tahmin 4.4 zeta byte olarak güncellendi. Yeni tahmine göre ise 2020 yılında 44 Zeta Byte ‘lık bir dijital evren bizi bekliyor. Yani günümüzdekinin neredeyse 10 katı büyüklükte bir evren.

dijital evren

Dijital evren herkes tarafından her an oluşturulabiliyor. Nerdeyse herkes ceptelefonu kullanıyor ve herkesin kamerası var. İnsanlar işlerini online yapıyorlar, ve milyonlarca sensör internet vasıtası ile veri alışverişinde bulunuyor. Oscar töreninde Ellen DeGeneres’ın “celeb selfie” tweeti 12 saat içersinde 26 milyonun üzerinde görüntüleme aldı.

ellen-degeneres-tweet

Türkiye’ye çok yeni giriş yapan Netflix firması her ay bir milyar saatin üzerinde film izleniyor. Devasa gaz tirübünlerinden veri toplanıyor ve analiz ediliyor. Böylelikle elektrik daha ucuza kullanılıyor. Avusturyada ASKAP (Australian Square Kilometer Array Pathfinder )projesi kapsamında radyo teleskop saniyede 2.8 GB veri topluyor.

ASKAP

Fiziksel Evrenden farklı olarak Dijital Evren, bir insan yapımı ve yazılımlar vasıtasıyla üretiliyor.

Big Data’dan bahsedilidiği zaman aslında hızla genişleyen bu Dijital Evrenden bahsediliyor. Dijital evrenin genişlemesi yeni iş sahaları oluşturuyor. Dünya online a geçtikçe girişimciler ve müşteriler için yeni biçimlerde yeni imkanlar ortaya çıkıyor. Müşterileri daha iyi anlamak, iş döngüsünü hızlandırıyor, organizasyonel yapıları düzenliyor, kurumları müşteri isteklerine göre düzenliyor.

IDC firmasının araştırmasına göre, bu gelişi güzel verileri işlemek ayrı bir iş. 2013 yılında gelişi güzel verilerin %22 ‘si işlenebiliyor iken, 2020 yılında bu oranın %37 olması beklenmektedir. Tüm kurumlar ellerindeki verilerin ne kadarının işlenmiş olduğuna bakmalı ve bunu bir Anahtar Performans göstergesi haline getirmelidir.

Opportunity for Big Data

 

Sloan Dijital Gökyüzü Araştırma Programı, ile 2000 yılından 2010 yılına kadar  toplanan verinin büyüklüğü 140 tera byte iken, 2016 yılında devreye alınması planlanan the Large Synoptic Telescope ile bu büyüklükteki verinin bir kaç haftada toplanması bekleniyor. Eski teknoloji ile 10 yılda toplanan veri yeni teknolji ile 1 haftada toplanabiliyor. Tüm bu devasa veri aslında kendi üzerinde bir anlam taşıyor. Bu anlam ancak veriler filtrelendikten; tablo ve grafik şekilde organize edilip analiz edildikten sonra anlam kazanıyor. Anlam kazanan verilerle bir takım kararlar alınıyor ve bu kararla kurumların rekabet ortamlarında ayakta kalmalarını sağlıyor. İşletmeler bu verileri işleyerek anlamlı aksiyon planları oluşturuyor. Veri’den Para’ya yaşam döngüleri oluşturuluyor. Jaime Fitzgerald big data’yı inovasyon ekonomisinin yeni benzini olarak tanımlıyor.

2003 yılında insanlık bir yılda, tüm insanlık tarihi boyunca üretilen veri kadar veri üretti. Çok yakında dünyadaki tüm verilerin yaklaşık yarısının online ve birbiri ile bağlantılı verilerden oluşacağı tahmin edilmekte. Dünya önümüzdeki günlerde veriyle gelişen teknolojiler nedeniyle bambaşka bir dünya olacak. Big Data kavramı tüm bu gerçekleri kapsıyor.

 

Mikro Ölçekte Big Data 

Big Data’nın geniş bakış açısı ile ifade ettiği şeyler dışında bir de veri tabanına bakan mikro yönü var. Yukarıda bahsi geçen dijital evrende, geleneksel veri tabanı yönetimi araçları ile yönetilemeyecek büyüklükte ve karmaşıklıkta olan veri anlamına gelen “Big Data”yı işlemek ve yönetmek için geleneksel yöntem ve big data yaklaşımı olmak üzere iki farklı yaklaşım bulunmakta olup alttaki listede bu yaklaşımlar özetlenmiştir.Big Data

Tabloya göz attığımızda Büyük Veri kavramından söz edebilmek için gerekli olan durumun sadece data büyüklüğü olmadığı görülür. 80 GB büyüklüğünde veri Big Data olarak tanımlanabilirken, 800 GB büyüklüğündeki veri ile Geleneksel Veri Tabanı yöntemi ile çalışılabilir. Bu farklılığı oluşturan etmenlere bakacak olursak şunları görürüz:

– Geleneksel Veri Tabanları merkezi iken Büyük Veri dağıtık bir biçimdedir ve ilişkisel bir bağlılık yoktur.

– Geleneksel Veri Tabanlarında SQL sorguları kullanılırken, Büyük Veri’de Google tarafından 2004 yılında duyrulan ve yine Google tarafından kullanılan. Programlama dünyasında bilinen (map ve reduce) iki algoritmanın birlikte kullanımında oluşan ve verinin kolay elde edilmesini sağlayan MepReduce (Eşle-İndirge) yöntemi kullanılır.

– Analiz yöntemi olarak, Geleneksel Veri Tabanı’nda merkezi ve standart analitik yöntemler kullanılırken, Büyük Veri’de dağıtık ve kişiye göre değişen analiz yöntemleri kullanılır.

–  Geleneksel Veri Tabanı sistemlerine SQL Server ve Büyük Veri’ye Hadoop ya da Spark programları örnek verilebilir.

Big Data ve Big Data’yı çevreleyen konularda önümüzdeki günlerde daha çok paylaşım yapmayı düşünüyorum.