önce M. AKÇA tarafından yazılmıştır. ETL Nedir?

ETL Nedir?

ETL;  Extract, Transform ve Load kelimelerinin baş harflerinden oluşmaktadır. ETL genel anlamda verilerin seçilmesi ve işe yarar bir şekilde uygun başka bir yerde depolanması sistematiğidir.

Günümüzde çok sayıda dağıtık kaynaklardan gelen verilerin tek bir şablonda, kurallara uygun olarak biriktirilmesi önem arz etmektedir. Bir data science uzmanının çok iyi ETL bilgisine sahip olması beklenir. Eğer veriyi alınması gerektiği yerden alınması gereken formatta alıp, yapılması gerektiği şekliyle yeniden depolanması sağlanamazsa, verinin analizi de sağlıklı gelişemiyecektir.

ETL kaynak olarak Excel, text dosyası, Oracle, SQL, DB2 ya da herhangi bir veritabanı kullanabilir. İşletmelerde veri çok sayıda değişik kaynakta bulunabilir ve bu kaynakları bir bütün olarak biraraya getirmek veri analizi ile ilgili bir çok sorunun çözümünde çok önemli bir rol oynamaktadır.

Extract: Verinin bir veri kaynağından elde edilmesi anlamına gelmektedir. Bir çok ETL aracı kendi içersinde bu işlem için driverlar barındırmaktadır. Bu sayede verinin hangi formatta tutulduğuna bakılmaksızın, veri üzerinde işlem yapılabilir.

Transform: Veriyi veri kaynaklarından çektikten sonra, sistem uyumunu sağlamak için standart bir formata dönüştürmek gerekecektir. Bu işlem sırasında bir takım veri arındırma işlemleri de yapılacaktır.

Load: Verinin hedef sisteme yüklenmesi işlemine verilen addır.