arama

Big Data (Büyük Veri) Nedir?

Big data; verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş halidir. Gelin bunu daha detaylı inceleyelim.
Big Data (Büyük Veri) Nedir?
  • paylaş
  • paylaş
  • paylaş
  • paylaş
  • paylaş
  • Dr. Onur Sevli Dr. Onur Sevli

⌛ Reading time: 8 minutes

Yayınlanma Tarihi: 20 Haziran 2019 15:20

📝 Yazar: Dr. Onur Sevli ✅ Editör: Aysuda Ceylan

Teknolojinin gelişmesi ve yaygınlaşması ile birlikte veri üretimi de hızla artmış ve hatta son yıllarda o ana kadar üretilen verilerin toplamını ikiye, üçe katlayarak günümüze kadar gelmiştir. İnternet kullanımının artması ve sosyal medya devrimi gibi nedenlerle dijital ortamda üretilen veri miktarı da hızla büyümeye devam etmiştir. Bu artış sadece veri miktarında değil aynı zamanda veri çeşitliliğinde de meydana gelmiştir. Bloglar, ağ günlükleri, görüntü ve ses dosyaları, GPS verileri, sensör verileri, log dosyaları gibi değişik kaynaklardan gelen farklı formattaki verilerin hızla büyümesi sonucu dijital ortamda “bilgi çöplüğü” olarak tabir edilen bir yığılma ortaya çıkmıştır.

Dünya üzerinde pek çok kişi ve kuruluş tüm işlerini dijital ortamda ve internet üzerinden gerçekleştirmektedir. Uluslararası Telekomünikasyon Birliği verilerine göre 2014 yılı sonundaki bağımsız internet kullanıcı sayısı 3 milyar, mobil cihazlar üzerinden geniş bant internet kullananların sayısı da 2.3 milyar dolayındadır. Şahısların ve şirketlerin kullandıkları pek çok veri internet üzerinden akmakta ve internetteki kaynaklar üzerinde depolanmaktadır. Yalnız 2011 yılı içerisinde 1.8 zettabayt (1.8 trilyon gigabayt) veri üretilmiş ve yedeklenmiştir. Bu oran her iki yılda bir ikiye katlanarak büyümektedir. 2013 yılında 4.4 zettabayt veri üretimi meydana gelmiştir.

2020 yılında depolanan veri miktarının 44 zettabayt olması beklenmektedir.

Yapısal ve Yapısal Olmayan Veri

Yapısal ya da yapılandırılmış veri (structured data) bir dosya içerisinde, önceden tanımlanmış bir şemaya uygun olarak sabit sütunlar altında kayıtlar şeklinde tutulan ve terim olarak işlenebilen verileri ifade eder. Elektronik işlem tabloları ve ilişkisel veri tabanları içerisinde yer alan veriler bu türdendir.

Yapısal veri için ilk olarak bir veri modeli oluşturulur. Veri modeli oluşturulurken önce varlıklar tespit edilir, bu varlıklar için hangi özelliklerin saklanacağı ve bu özelliklerin hangi veri türünde tutulacağı belirlenir. Özelliklere ait kısıtlamalar var ise bunlar tanımlanır. Bu şekilde saklanacak olan veriler için bir şema oluşturulmuş olur. Saklanacak olan veriler bu şema içerisindeki uygun alanlar altına, tanımlanan kısıtlamalar dâhilinde kaydedilir.

Yapısal veri formunda hangi bilginin nerede ve hangi biçimde yer aldığı bellidir. Dolayısıyla veri yığını içerisinde herhangi bir bilgi elde edilmek istendiğinde rahatlıkla sorgulanabilir. Veri yığını üzerinde özetleme işlemleri ve raporlamalar kolaylıkla gerçekleştirilebilir. Yapısal verileri sorgulamak için, yaygın olarak, yapısal sorgu dili (Structured Query Language-SQL) kullanılır.

Yapısal veri belli bir forma ve kısıtlamalara sahiptir. Oysa teknolojik hayatta karşımıza çıkan verilerin hepsi belirli bir şemaya sahip olmayıp, kısıtlamalarla sınırlandırılması da verinin doğasını bozmaktadır.

Yapısal olmayan veri (unstructured data), önceden tanımlı bir veri modeline sahip olmayan ya da önceden tanımlı bir modele uyarlanamayan verileri ifade etmek için kullanılır.  Genellikle metin ağırlıklı olmakla birlikte içerisinde tarih, sayı, koordinat verisi gibi farklı türlerde veriler de içerebilir.

Günümüzde, farklı türde teknolojik cihazlar farklı formlarda veriler üretmektedir. Bu verilerin bir araya gelmesi ve miktarının büyümesi sonucu yapısal olmayan veri yığınları oluşmaktadır. Veri üretimi ve çeşitliliğindeki artış günümüzde yapısal olmayan verinin daha çok gündeme gelmesine neden olmaktadır.

Yapısal olmayan verinin düzensizlik ve karmaşıklığı, mantıksal olarak işaretlenmiş dokümanlar ve veri tabanlarındaki gibi geleneksel program mantığı ile ve kolaylıkla işlenmesine olanak tanımamaktadır. Veri madenciliği, doğal dil işleme, metin analizi ve son zamanda popülerliği artan büyük veri analiz teknikleri yapısal olmayan veriyi işlemek için yeni imkânlar sunmaktadır.

Büyük Veri (Big Data)

Son yüzyılın başlarına kadar bilişim alanında yapısal olmayan verinin değersiz olduğuna yönelik bir anlayış mevcuttu. Yapısal olmayan veri yığınları “veri çöplüğü” olarak değerlendirilmekte, yığın içerisinde değerli bilgilerin var olabileceği ya da bu verilerin işe yarar hale getirilebileceği göz ardı edilmekteydi. Teknolojik gelişmelerin daha yavaş olduğu bu dönemlerde üretilen veri miktarı ve çeşitliliği sınırlıydı. 2010 yılına gelene kadar dünyada depolanan bilginin yalnız dörtte biri dijitaldi. Çeşitlilik ve miktarın büyük olmayışının da etkisiyle verilerin yapılandırılarak depo edilmesi mümkündü.

Zaman içerisinde üretilen ve depolanan veri miktarı ve çeşidi hızla artmıştır. RFID, GSM, GPS ve sensör verileri, milyarlarca otomobilin sürüşe ilişkin tuttuğu çok çeşitli istatistiki veriler, finansal veriler, medikal veriler ve benzeri pek çok alanda geniş miktarda veri ortaya çıkmaya başlamıştır. 2013 yılına gelindiğinde dünya üzerinde depolanan verinin dijital olmayan kısmı %2’ye düşmüştür. Ortaya çıkan bu karmaşık dijital veri yığınını yönetebilmek geleneksel yöntemlerin kontrolünden çıkmıştır.

Çok çeşitli kaynaklardan toplanan büyük miktarda verinin işlenebilir ve anlamlı hale dönüştürülmesine yönelik olarak yazılım şirketlerinin yapmış oldukları araştırma ve geliştirme çalışmaları sonucunda “büyük veri (big data)” kavramı ortaya çıktı. Büyük veri yalnızca diskte çok miktarda yer kaplayan veriyi değil aynı zamanda karmaşıklığı ile ayıklanması, muhafaza edilmesi, yönetilmesi, analiz edilmesi de zor olan veriyi ifade etmektedir. Kısaca geleneksel veri işleme yöntemlerini yetersiz bırakan veri yığını büyük veri olarak anılır. Büyük veri içerisinde hem yapısal hem de yapısal olmayan veri kümeleri yer alabilir ancak büyük verinin çoğunluğunu yapısal olmayan veriler oluşturur. Büyük veri %80 oranında değersiz olarak görülen yapısal olmayan verileri işlenebilir ve işe yarar hale getirecek yöntemleri ortaya koymaktadır.

Büyük veriyi tanımlayan beş temel özellik bulunmaktadır ve bunlar İngilizce isimlerinin baş harflerinden yola çıkılarak 5V olarak anılmaktadır:

  • Hacim (Volume): Büyük veri son derece geniş bir hacimdeki bilgi yığınını ifade eder. Bazen bu yığının boyutu terabayt mertebesindeyken bazen petabayt boyutuna çıkmaktadır (Özdoğan, 2013). Her geçen gün üretilen ve depolanan veri miktarı artmakta olup Uluslararası Veri Kurumu’nun araştırmalarına göre 2020 yılındaki veri miktarı, 2009 yılının 44 katı olacaktır (International Data Corporation, 2014).
  • Hız (Velocity): Büyük veri, hızla büyüyen bir veri kümesidir. Veri üretiminin hızlı oluşu, veri işleme mekanizmalarının da hızlı olmasını gerektirmektedir.
  • Çeşitlilik (Variety): Kişisel bilgisayarlar, akıllı telefonlar, sensörler, RFID modülleri gibi çok çeşitli cihazlar farklı türde veriler üretmektedir.
  • Doğrulama (Verification): Büyük bir veri yığını içerisinde yer alan verilerin doğruluğunun sağlanması gereklidir. Bilgi yoğunluğu içerisinde verinin akışı da doğrulanmalıdır.
  • Değer (Value): Büyük verinin işlenmesinin ardından elde edilen sonuç veriyi analiz eden kişi ya da kuruluşa bir katkı sağlamalıdır. Değer, daha önce bahsi geçen 4V bileşeninin ürünü olarak elde edilen çıkarımı ifade eder. Verilerden yeni değerler ve sonuçlar üretmek büyük veri analiz çalışmalarının gayesidir.

Büyük verinin temelini teşkil eden teknolojileri 2004 yılında Google şirketi uygulamaya başlamıştır. Google her ay 90 milyarın üzerinde aramayı sağlamak için 600 petabayt veriyi işler. Bu işi başarılı bir şekilde gerçekleştirmek için klasik yöntemleri kullanmayarak kendi geliştirdiği teknikleri uygular.

Google tarafından başlatılan büyük veri işleme sürecini Youtube, Facebook gibi geniş ölçekte verisi olan firmalar ve özel kuruluşlar takip etmiştir. Yakın bir zamana kadar yalnız büyük firmaların kullanageldiği büyük veri tabirini bugün küçük işletmeler ve şahıslar da konuşur hale gelmiştir.

Bilimle kalın.