Big Data.Çoxumuza tanış və eyni zamanda bir o qədər də yad olan bir konsept.Nəyə görə həm də “yad”, çünki adətən Big Data anlayışını “çoxlu data” anlayışı ilə səhv salırıq.Bu məqalədə bu fərqə qısaca göz atmağa və Big Data anlayaşının dəqiq rəsmini beyninizdə canlandırmağınıza yardımçı olmaya çalışacağıq.
Problem yoxsa texnologiya ?
İlk öncə onu qeyd edim ki , Big Data bir problemdir. Problemlər isə öz növbəsində onu aradan qaldırmaq üçün müvafiq həllər tələb edir. Bu həlləri biz Big Data texnologiyaları adlandırıq. “Big Data nə kimi bir problem ola bilərki ?” dediyinizi duyar kimiyəm. Elə isə aşağıda qeyd etdiyimiz bir neçə fakta nəzər yetirərək fikrimizi əsaslandıraq.
• “Google”da hər saniyədə 40000 , gündə 3.46 milyon və ildə 1.2 trilyon axtarış həyata keçirilir.
• Hər dəqiqə Facebookda təxminən 31.25 milyon mesajlaşma və 2.77 milyon video izlənməsi həyat keçirilir.
• “Youtube”a hər dəqiqə təxminən 300 saatlıq video yerləşdirilir.
• 2020-ci ildə dünyada smartfon istifadəçilərinin sayının 6.1 milyard olacağı gözlənilir.
Yuxarıdakı siyahını istədiyimiz qədər uzatmaq mümkündür. Problemimizin məğzi də məhz burada ortaya çıxır. Statistikalardan da göründüyü kimi biz artıq böyük həcmdə, müxtəliflikdə və sürətdə data axınına məruz qalmaqdayıq və gələcəkdə bu artım eksponensial olaraq davam edəcək.
3V
Yuxarıda göstərilən faktlara bir daha diqqət etsəniz, görə bilərsiniz ki , heç birində sizi təəccübləndirə biləcək “petabaytlar” və “zetabaytlar”dan ibarət nümunələr göstərmədim. Səbəb Big Datanın sadəcə böyük miqdarda data olduğu izləminini verməməkdir. Belə ki, hər hansı bir verilənə Big Data deyə bilmək üçün onun 3V (4V, 5V, 7V olaraqda qarşınıza çıxa bilər) konsepsiyasına uyğun gəlməsi tələb olunur. 3V qaydasına görə Big Data ən azından aşağıdakı 3 xüsusiyyətə malik olmalıdır :
• Volume – Son illərdə Süni intellekt, Cloud və IoT texnologiyalarının inkişafı və geniş yayılması ilə 2013-cü ildə müxtəlif mənbələrdən təxminən 4.4 zettabayt data generasiya olundu. Hətta 2020-ci ildə bu rəqəmin 10 dəfə artacağı gözlənilir. Maraqlı bir sual ortaya çıxır. Bəs bizim sistemlərimiz bu dataları saxlamaq üçün uyğun inkişaf tempi göstərə bilir mi?Cavab, xeyr. Məhz bu məqamda biz ənənəvi üsullardan deyil , Big Data texnologiyalarından danışmalıyıq. Yəni datanın həcminin olması onu Big Data olaraq adlandırmaq üçün əsas kriteriyalardan biridir.
• Velocity – Sizcə, Google saniyədə 40000 axtarış aparılmasına necə imkan yarada bilir? Təbii ki, Big Data texnologiyaları ilə. Big Data prosesleri adətən saniyələr içərisində həyata keçirilir və mütəxəssislər bu prosesləri ümumi ifadə olaraq “Discover and Analyze” adlandırırlar. Yəni Big Data texnologiyaları sürətli formada datanı qəbul etməli, bu data üzərində görə biləcəyi işləri müəyyənləşdirib analiz etməlidir. Əsasən Big Datada proseslər real-time (anında), near real-time, batch(müəyyən bloklar) şəklində aparılır.
• Variety – Datalar artıq müxtəlif növlərdə qarşımıza çıxır və hər keçən gün onları əvvəlcədən təxmin etmək çox uzaq bir ehtimala çevrilməkdədir. Təsəvvür edin ki, uzaqdan idarə olunan bir avtomobilimiz var və o sizə davamlı olaraq datalar göndərir. İşıqforun hansı işığı olduğu, qarşıdakı avtomobillərin sürəti , kənarda olan yol nişanları, GPS və s. bu kimi məlumatları özündə əks etdirən bu dataların üzərində proseslər aparmaq üçün sizə müxtəlif yanaşmalar lazım gələckdir. Burada dataların müxtəlifliyi anlayışı ortaya çıxır.
Aşağıdakı şəkildə bildirdiyimiz fikirlərin əyani sürətdə təsviri verilmişdir.
A lot of data?
Bu sahə ilə yeni tanış olan insanlar, həmçinin mənim də ilk əvvəl yanaşdığım kimi “hərfi tərcümə üsulu” ilə belə qənaətə gəlirlər ki, əgər datamızın həcmi çox böyükdürsə, deməli, bu Big Datadır . Az öncə sadaladığımız 3V qaydasını da nəzərə alaraq, datanın çox olmasının onun Big Data olmasına zəmanət vermədiyi qənaətinə gəlirik.Sadə bir misal verək. New York birjasında saniyədə milyonlarla tranzaksiya baş verir.
Amma biz bu “datacenter”dəki dataları Big Data adlandıra bilmirik. Çünki datamızın Big Data standartlarına uyğun sürəti və həcmi var, lakin müxtəlifliyi yoxdur. New York birjası nümunəsində gələn verilənlər eyni formatda olduğu üçün əvvəlcədən qurulmuş bir model davamlı olaraq nəticə verməyə kifayət edir.
Və sonda bildirmək istərdim ki, bugünki məqalə bu səpkidə yazdığımız ilk məqalə olduğundan və daha çox ümumi anlayış ehtiva etdiyindən, Big Data prosesleri və texnologiyaları haqqında ətraflı məlumat verməyə və dərindən analiz etməyə üstünlük vermədik. Yetərli istək və eyni zamanda dəstək olduğu halda Big Data haqqında mövzuları geniş formada ələ almağı planlaşdırırıq.