Kaj je ujemanje sheme?

Ujemanje shem je tehnika, ki se uporablja za spajanje dveh ali več zapletenih baz podatkov ali nizov informacij drug v drugega. Ker uporaba podatkovnih baz in elektronskega shranjevanja informacij postaja vse večja in bolj zapletena prek interneta, je treba opredeliti metode za združevanje nizov podatkov iz ene baze podatkov v drugo in ujemanje shem je ena takih tehnik. Koncept je preprost, vendar je realnost združevanja podatkov precej zapletena.

Izraz “ujemanje sheme” se uporablja kot sinonim za “preslikavanje sheme”, ker uporabniki dejansko preslikavajo podatke, ne pa jih ujemajo. Dve ali več baz podatkov sta preslikanih skupaj in podobni vidiki vsake baze podatkov so preslikani drug v drugega. Najpogostejši način združevanja podatkov je uporaba natančnih referenc. Primer tega sloga združevanja je združevanje stolpca z imenom ene baze podatkov s stolpcem z imenom druge baze podatkov.

Združevanje običajno ni tako preprosto za ljudi ali računalnike. Ker je treba filtrirati, združiti in uporabiti toliko podatkov, je nujno imeti eno bazo podatkov in ne več baz podatkov. Preslikava shem se osredotoča na to, da postane ta dolgočasen postopek avtomatiziran in učinkovitejši. Primer, kjer je potrebno ujemanje sheme, je lahko, če ima ena baza podatkov polje »študentovo področje«, druga baza podatkov pa polje »študentovo študijsko področje«. Gre za iste informacije, vendar nekoliko drugačni naslovi otežujejo prizadevanja za njihovo mešanje.

Ujemanje shem razbije ta zapleten postopek združevanja baz podatkov v štiri korake: predintegracijo, primerjavo, usklajevanje in spajanje. Preden je mogoče združiti več baz podatkov, jih je treba analizirati glede podobnosti in razlik. Na področju ujemanja shem je to znano kot predintegracija. Računalnik začne določati najučinkovitejšo metodo integracije.

Nato računalnik oceni sheme tako, da jih primerja med seboj na bolj podrobni ravni. V primerjalnem koraku računalnik pogleda vsak vnos baze podatkov in ugotovi, kje lahko pride do konfliktov. Primer tega je, ko je v polju »zanimanje študenta« naveden »zdravnik«, druga zbirka podatkov pa ga navede kot »zdravnik«. Oseba bi verjetno prepoznala informacije kot enake, vendar sta za orodja baze podatkov dve ločeni entiteti.

Ko računalnik ugotovi vse morebitne konflikte, lahko nadaljuje s poskusom reševanja težav. To je lahko tako preprosto kot zamenjava vseh primerov »zdravnik« v »zdravnik«. Dejansko je postopek bistveno bolj zapleten.
Ko so vsi konflikti odpravljeni, lahko računalnik nadaljuje z združevanjem podatkov v postopku ujemanja shem. Na tej stopnji se dve ali več baz podatkov združita v eno veliko bazo podatkov. Če bo vse v redu, med integracijo in prihodnjim dostopom do baze podatkov ne bo prišlo do konfliktov ali napak.