Kaj so veliki podatki?

Veliki podatki so meritve podatkov, ki so tako narasli, da običajne baze podatkov ne morejo vsebovati in delati z ogromno količino informacij. Podatki so na voljo v treh velikostih: majhni, srednji in veliki; nobena od teh meritev ni stroga; namesto tega je vsak bolj odvisen od enostavne uporabe in vrste stroja, ki lahko obdela informacije. Za velike podatke so potrebni posebni stroji, veliko večji in zapleteni od tistih, ki se uporabljajo za običajne baze podatkov. Te vrste podatkov običajno najdemo v vladnih in znanstvenih agencijah, vendar nekatere zelo velike spletne strani vsebujejo tudi to veliko količino informacij.

Podatki so na voljo v treh standardnih, vendar ne strogih velikostih. Majhni podatki se lahko prilegajo enemu računalniku ali napravi, kot je prenosnik. Srednji podatki se lahko prilegajo diskovnemu polju in jih najbolje upravlja baza podatkov. Baze podatkov, ne glede na to, kako velike, niso sposobne delati z velikimi podatki, zato se namesto tega uporabljajo posebni sistemi. Čeprav ni strogih smernic za to, kaj so veliki podatki, se običajno začnejo na ravni terabajtov (TB) in segajo do ravni petabajtov (PB).

Poskus dela z velikimi podatki v zbirki podatkov, ki ni specializirana za to količino podatkov, bo povzročil več resnih težav. Baza podatkov ne more obdelati količine informacij, zato je treba nekatere podatke izbrisati. To je tako, kot da bi poskušali namestiti 100 gigabajtov (GB) v računalnik s samo 50 GB prostora na trdem disku; tega ni mogoče storiti. Preostale podatke bo težko tako nadzirati kot upravljati, ker bi katera koli funkcija trajala dolgo, da bi bila dokončana, baza podatkov pa je treba zapreti za nove predložitve.

Čeprav je mogoče še naprej kupovati stroje in dodajati nove podatke v baze podatkov, to ustvarja okoren problem. To je zato, ker je programska oprema baze podatkov narejena samo za delo z nosilnimi podatki. Večji nabori podatkov vodijo do napak in administrativnih težav, saj se programska oprema preprosto ne more premikati ali delati z velikimi podatki, ne da bi naletela na težave.

Večina organizacij ali spletnih mest se ne srečuje z velikimi podatki. Obrambne in vojaške agencije uporabljajo to količino informacij za ustvarjanje modelov in shranjevanje rezultatov testov, številne velike znanstvene agencije pa potrebujejo te specializirane stroje iz podobnih razlogov. Nekatera zelo velika spletna mesta potrebujejo velike podatkovne stroje, vendar spletna mesta na tem trgu niso tako pogosta kot agencije. Te organizacije morajo hraniti vse svoje podatke, ker pomagajo bolje analizirati prihodnje podatke in predvidevati.