Kaj je zaporedno rudarjenje?

Zaporedno rudarjenje je vrsta strukturiranega rudarjenja podatkov, pri katerem baza podatkov in skrbnik iščeta zaporedja ali trende v podatkih. To rudarjenje podatkov je razdeljeno na dve področji. Rudarjenje zaporedja elementov se običajno uporablja v trženju, rudarjenje zaporedja nizov pa se uporablja v bioloških raziskavah. Zaporedno rudarjenje se razlikuje od običajnega rudarjenja trendov, ker so podatki bolj specifični, kar otežuje gradnjo učinkovite baze podatkov za oblikovalce baz podatkov, včasih pa se lahko pokvari, če se zaporedje kaj razlikuje od običajnega zaporedja.

Na eni ali drugi točki se vse baze podatkov uporabljajo za pridobivanje podatkov. To rudarjenje pomaga podjetjem in raziskovalnim skupinam najti nekaj, kar potrebujejo. Običajno iščejo nekakšen trend, toda kakšen je ta trend in kako specifične so informacije, bo odvisno od zasnove baze podatkov. Pri rudarjenju zaporedja je baza podatkov zgrajena za iskanje zelo specifičnih zaporedij z malo ali brez variacij. To je edinstvena oblika strukturiranega rudarjenja podatkov, pri kateri baza podatkov preišče strukturirane podatke za podobnosti.

Zaporedno rudarjenje lahko razdelimo v dve kategoriji. Rudarjenje predmetov se uporablja v trženju in poslovanju za iskanje posebnih trendov v prodajnih številkah, vrstah izdelkov, umestitvi izdelkov v trgovini in uporabi izdelka. Te številke so vzete in uporabljene v marketinških algoritmih za pomoč pri načrtovanju trženjskega projekta in krepitvi prodaje. Informacije o izdelku in njegovem delovanju so običajno vzete iz baze podatkov, vendar je odločilni vidik rudarjenja zaporedja nabora elementov ta, da je zaporedje vzeto iz celic baze podatkov z več simboli.

Rudarjenje nizov je nasprotje rudarjenja naborov elementov, ker gleda na vsak simbol posebej in ne kot gručo. Pri rudarjenju nizov je lahko baza podatkov nastavljena tako, da najde zaporedje iz vira beljakovin ali vzorcev genov. To pomaga pri primerjavi številnih genskih vzorcev, da ugotovimo, ali so enaki, ali razčlenimo velike sekvence in ugotovimo, katera zaporedja vsebujejo. Večinoma to uporabljajo biološke in medicinske raziskovalne skupine.

Ustvarjanje baze podatkov za rudarjenje zaporedja je lahko težavno, ker se za razliko od rudarjenja trendov in drugega strukturiranega podatkovnega rudarjenja zaporedja med seboj posebej ujemajo. To vodi tudi do problema rudarjenja zaporedij. Če je zaporedje drugačno, ne bo prepoznano, kar bi lahko otežilo rudarjenje nabora elementov. Od tega običajno koristi rudarjenje nizov, saj bi lahko že najmanjša razlika v vzorcu tkiva povzročila, da se organizem – ali karkoli že raziskovalna skupina raziskuje – popolnoma razlikuje od drugih vzorcev.