Kaj je redundanca podatkov?

Redundanca podatkov je situacija, ki se pojavi v sistemih baz podatkov in vključuje nenamerno ustvarjanje podvojenih podatkov, ki niso potrebni za delovanje baze podatkov. Čeprav je redundanca v nekaterih situacijah pogosto zaželena lastnost, to ne drži, ko gre za funkcijo baze podatkov. Prisotnost podvojenih podatkov lahko pogosto negativno vpliva na delovanje sistema, kar ima za posledico vračanje informacij kot odgovor na sistemske poizvedbe, ki so manj koristne. Ena od ključnih funkcij upravljanja s podatki je identifikacija podvojenih podatkov in njihova odstranitev.

Potencial za redundanco podatkov najdemo v skoraj vseh vrstah programa za bazo podatkov. Programi, ki veljajo za ploščate, kot so preglednice in se zanašajo na ročni vnos podatkov, so še posebej dovzetni za podvajanje informacij, kar lahko povzroči zaplete pri pridobivanju želenih informacij. Baze podatkov v relacijskem slogu, kot so baze podatkov o prodajnih kontaktih, pogosto vključujejo procese, ki pomagajo zmanjšati možnosti nenamernega podvajanja, kot je ustvarjanje dveh različnih kontaktnih datotek za isti stik, povezan z istim podjetjem. Tudi z uporabo sistemskih preverjanj, ki pomagajo zmanjšati pojavnost redundance podatkov, še vedno obstaja možnost, da se pojavijo težave, zaradi česar je treba redno izvajati nalogo čiščenja podatkov v bazi podatkov.

V najboljšem primeru redundantnost podatkov pomeni, da je baza podatkov polna informacij, ki niso bistvene, vendar ne predstavljajo resnične nevarnosti za zmožnost iskanja podatkov, kadar in po potrebi. V najslabšem primeru prisotnost podvojenih podatkov upočasni bistvene funkcije baze podatkov in lahko zaplete postopek uporabe baze podatkov za upravljanje določenih nalog. Na primer, uporaba baze podatkov strank, ki je zamašena z odvečnimi informacijami za ustvarjanje poštnih nalepk, bi povzročila ustvarjanje številnih podvojenih nivojev, zaradi česar bi bilo treba dvojnike razvrstiti in odstraniti, preden bi se nalepke lahko uporabile, ali vzeti čas za čiščenje baze podatkov, preden poskusite ustvariti oznake.

Na srečo je spremljanje in popravljanje redundance podatkov nekaj, kar lahko številni sistemi za upravljanje podatkov dosežejo z relativno lahkoto. Nekateri sistemi bodo označili vnos podvojenih podatkov, kar olajša pregled zaznanega podvajanja in se odloči, ali ga izbriše ali dovoli, da ostane. Obstajajo celo programi, ki jih je mogoče uporabiti za skeniranje obstoječe baze podatkov glede podvojitev in samodejno odstraniti odvečne vnose z relativno lahkoto.