Podatkovno rudarjenje je Koncept, analiza algoritma, namen in uporaba

Kazalo:

Podatkovno rudarjenje je Koncept, analiza algoritma, namen in uporaba
Podatkovno rudarjenje je Koncept, analiza algoritma, namen in uporaba
Anonim

Razvoj informacijske tehnologije prinaša praktične rezultate. Toda takšne naloge, kot so iskanje, analiza in uporaba informacij, še niso prejele učinkovitega visokokakovostnega orodja. Obstajajo analitika in kvantitativna orodja, res delujejo. Toda kvalitativne revolucije v uporabi informacij še ni prišlo.

Že dolgo pred pojavom računalniške tehnologije je moral človek obdelati velike količine informacij in se s tem spoprijel po svojih najboljših izkušnjah in razpoložljivih tehničnih zmožnostih.

Razvoj znanja in veščin je vedno ustrezal realnim potrebam in ustrezal trenutnim nalogam. Podatkovno rudarjenje je zbirno ime, ki se uporablja za označevanje nabora metod za odkrivanje prej neznanih, netrivialnih, praktično uporabnih in dostopnih znanj v podatkih, potrebnih za sprejemanje odločitev na različnih področjih človekove dejavnosti.

Človek, inteligenca, programiranje

Človek vedno ve, kako ravnati v vsaki situaciji. Nevednost ali neznana situacija mu ne preprečujeta odločitve. Objektivnost in razumnost vsake človeške odločitve je lahko vprašljiva, vendar bo sprejeta.

Inteligenca temelji na: dednem "mehanizmu", pridobljenem, aktivnem znanju. Znanje se uporablja za reševanje problemov, ki se pojavijo pred osebo.

  1. Inteligenca je edinstven nabor znanj in veščin: priložnosti in temelj za človeško življenje in delo.
  2. Inteligenca se nenehno razvija in človeška dejanja vplivajo na druge ljudi.

Programiranje je prvi poskus formalizacije predstavitve podatkov in procesa ustvarjanja algoritmov.

Človek, inteligenca, programiranje
Človek, inteligenca, programiranje

Umetna inteligenca (AI) je izguba časa in sredstev, vendar so rezultati neuspešnih poskusov prejšnjega stoletja na področju AI ostali v spominu, bili uporabljeni v različnih strokovnih (inteligentnih) sistemih in se preoblikovali, zlasti v algoritme (pravila) in matematično (logično) analizo podatkov ter podatkovno rudarjenje.

Informacije in običajno iskanje rešitve

Navadna knjižnica je skladišče znanja, tiskana beseda in grafika pa še nista prepustila dlani računalniški tehnologiji. Knjige o fiziki, kemiji, teoretični mehaniki, oblikovanju, naravoslovju, filozofiji, naravoslovju, botaniki, učbeniki, monografije, dela znanstvenikov, konferenčna gradiva, poročila o razvojnem delu itd. so vedno aktualne in zanesljive.

Knjižnica je veliko različnih virov, ki se razlikujejooblika predstavitve materiala, izvora, strukture, vsebine, sloga predstavitve itd.

Knjižnica: knjige, revije in drugi tiskovni izdelki
Knjižnica: knjige, revije in drugi tiskovni izdelki

Navzven je vse vidno (berljivo, dostopno) za razumevanje in uporabo. Lahko rešite kateri koli problem, pravilno postavite nalogo, utemeljite rešitev, napišete esej ali seminarsko nalogo, izberete gradivo za diplomsko delo, analizirate vire na temo disertacije ali znanstvenega in analitičnega poročila.

Vsak problem z informacijami je mogoče rešiti. Z ustrezno vztrajnostjo in spretnostjo bo dosežen natančen in zanesljiv rezultat. V tem kontekstu je podatkovno rudarjenje popolnoma drugačen pristop.

Poleg rezultata prejme oseba "aktivne povezave" do vsega, kar si je ogledal v procesu doseganja cilja. Na vire, ki jih je uporabil pri reševanju problema, je mogoče sklicevati in nihče ne bo oporekal dejstvu obstoja vira. To ni zagotovilo za pristnost, je pa zanesljivo pričevanje, komu je odgovornost za pristnost »odjavljena«. S tega vidika podatkovno rudarjenje pomeni velike dvome o zanesljivosti in nobenih "aktivnih" povezav.

Z reševanjem več problemov človek doseže rezultate in razširi svoj intelektualni potencial na številne "aktivne povezave". Če nova naloga »aktivira« že obstoječo povezavo, bo oseba vedela, kako jo rešiti: ni treba ničesar znova iskati.

"Aktivna povezava" je fiksna povezava: kako in kaj storiti v posameznem primeru. Človeški možgani si samodejno zapomnijo vse, kar se jim zdi potencialno zanimivo, uporabno.ali bo verjetno potrebna v prihodnosti. V mnogih pogledih se to zgodi na podzavestni ravni, a takoj, ko se pojavi naloga, ki jo je mogoče povezati z "aktivno povezavo", se v trenutku pojavi v mislih in rešitev bo pridobljena brez dodatnega iskanja informacij. Podatkovno rudarjenje je vedno ponovitev iskalnega algoritma in ta algoritem se ne spremeni.

Redno iskanje: "umetniške" težave

Knjižnica matematike in iskanje informacij v njej je razmeroma šibka naloga. Iskanje takšnega ali drugačnega načina za reševanje integrala, sestavljanje matrike ali izvajanje operacije seštevanja dveh namišljenih števil je naporno, a preprosto. Prebrati morate številne knjige, od katerih so mnoge napisane v določenem jeziku, najti pravo besedilo, ga preučiti in dobiti zahtevano rešitev.

Sčasoma se bo naštevanje poznalo, zbrane izkušnje pa vam bodo omogočile krmarjenje po knjižničnih informacijah in drugih matematičnih težavah. To je omejen informacijski prostor vprašanj in odgovorov. Značilna lastnost: takšno iskanje informacij kopiči znanje za reševanje podobnih problemov. Človekovo iskanje informacij pušča sledi (»aktivne povezave«) v njegovem spominu o možnih rešitvah drugih problemov.

V leposlovju poiščite odgovor na vprašanje: "Kako so ljudje živeli januarja 1248?" zelo težko. Še težje je odgovoriti na vprašanje, kaj je bilo na policah trgovin in kako je bila organizirana trgovina s hrano. Tudi če bi kakšen pisatelj v svojem romanu o tem jasno in neposredno zapisal, če bi se dalo najti ime tega pisatelja, potem dvomi ozanesljivost prejetih podatkov bo ostala. Zanesljivost je kritična značilnost katere koli količine informacij. Pomemben je vir, avtor in dokazi, ki izključujejo napačnost rezultata.

Objektivne okoliščine določene situacije

Človek vidi, sliši, čuti. Nekateri strokovnjaki tekoče govorijo o edinstvenem občutku – intuiciji. Postavitev problema zahteva informacije, proces reševanja problema najpogosteje spremlja izpopolnjevanje izjave problema. To je manjša težava, ki jo prinaša premikanje informacij v drobovje računalniškega sistema.

Informacije v virtualnem prostoru
Informacije v virtualnem prostoru

Knjižnica in sodelavci so posredni udeleženci v procesu odločanja. Zasnova knjige (vir), grafika v besedilu, značilnosti razdeljevanja informacij na naslove, opombe po besednih zvezah, predmetno kazalo, seznam primarnih virov - vse v človeku vzbuja asociacije, ki posredno vplivajo na proces reševanja. problem.

Bistveni sta čas in kraj reševanja problema. Človek je tako urejen, da je v procesu reševanja problema nehote pozoren na vse, kar ga obdaja. Lahko je moteče ali pa stimulativno. Podatkovno rudarjenje nikoli ne bo "razumelo".

Informacije v virtualnem prostoru

Človeka so vedno zanimale le zanesljive informacije o dogodku, pojavu, predmetu, algoritmu za reševanje problema. Človek si je vedno natančno predstavljal, kako lahko doseže želeni cilj.

Pojav računalnikov in informacijskih sistemov bi moral človeku olajšati življenje, a se je vse skupaj le še bolj zapletlo. Informacije so se selile v drobovje računalniških sistemov in izginile izpred oči. Če želite izbrati potrebne podatke, morate ustvariti pravilen algoritem ali oblikovati poizvedbo v bazi podatkov.

Podatki znotraj informacijskega sistema
Podatki znotraj informacijskega sistema

Vprašanje mora biti pravilno. Šele takrat lahko dobite odgovor. Toda dvomi o pristnosti ostajajo. V tem smislu je Data Mining v resnici »izkopavanja«, je »izvlečenje informacij«. Tako je modno prevesti ta stavek. Ruska različica je data mining ali data mining tehnologija.

V delih avtoritativnih strokovnjakov so naloge podatkovnega rudarjenja označene na naslednji način:

  • razvrstitev;
  • crustering;
  • združenje;
  • zaporedje;
  • napovedovanje.

Z vidika prakse, ki vodi človeka pri ročni obdelavi informacij, so vsa ta stališča sporna. V vsakem primeru oseba samodejno obdeluje informacije in ne razmišlja o razvrščanju podatkov, sestavljanju tematskih skupin predmetov (clustering), iskanju časovnih vzorcev (zaporedja) ali napovedovanju rezultata.

Vse te položaje v človekovem umu predstavlja aktivno znanje, ki pokriva več pozicij in dinamično uporablja logiko obdelave začetnih podatkov. Človekova podzavest igra pomembno vlogo, še posebej, če je specialist za določeno področje znanja.

Primer: veleprodaja računalniške opreme

Naloga je preprosta. Obstaja večna desetine dobaviteljev računalniške opreme in zunanjih naprav. Vsak ima cenik v formatu xls (datoteka Excel), ki ga lahko prenesete z uradne spletne strani dobavitelja. Potrebno je ustvariti spletni vir, ki bere Excelove datoteke, jih pretvori v tabele baze podatkov in strankam omogoča izbiro želenih izdelkov po najnižjih cenah.

Težave se pojavijo takoj. Vsak dobavitelj ponuja svojo različico strukture in vsebine datoteke xls. Datoteko lahko dobite tako, da jo prenesete s spletne strani dobavitelja, jo naročite po e-pošti ali dobite povezavo za prenos prek osebnega računa, torej z uradno registracijo pri dobavitelju.

Virtualna računalniška trgovina
Virtualna računalniška trgovina

Rešitev problema (na samem začetku) je tehnološko preprosta. Pri nalaganju datotek (začetnih podatkov) se za vsakega dobavitelja napiše algoritem za prepoznavanje datotek in podatki se umestijo v eno veliko tabelo začetnih podatkov. Po prejetju vseh podatkov, potem ko je vzpostavljen mehanizem neprekinjenega menjavanja (dnevno, tedensko ali ob spremembi) svežih podatkov:

  • spremeni asortiman;
  • spremembe cene;
  • pojasnitev količine na zalogi;
  • prilagoditev garancijskih pogojev, specifikacij itd.

Tu se začnejo prave težave. Stvar je v tem, da lahko dobavitelj napiše:

  • prenosni računalnik Acer;
  • prenosni računalnik Asus;
  • Prenosni računalnik Dell.

Govorimo o istem izdelku, vendar različnih proizvajalcev. Kako uskladiti prenosnik=prenosnik ali kako odstraniti Acer, Asus in Dell iz linije izdelkov?

Začlovek ni problem, a kako bo algoritem "razumel", da so Acer, Asus, Dell, Samsung, LG, HP, Sony blagovne znamke ali dobavitelji? Kako povezati "tiskalnik" in tiskalnik, "skener" in "MFP", "kopirni stroj" in "MFP", "slušalke" s "slušalke", "dodatke" z "dodatki"?

Izdelava drevesa kategorij na podlagi izvornih podatkov (izvornih datotek) je že težava, ko morate vse nastaviti na samodejno.

Vzorčenje podatkov: izkopavanja "sveže nalitih"

Naloga izdelave baze dobaviteljev računalniške opreme je rešena. Zgrajeno je drevo kategorij, deluje skupna tabela s ponudbami vseh dobaviteljev.

Tipične naloge rudarjenja podatkov v kontekstu tega primera:

  • poiščite izdelek po najnižji ceni;
  • izberite artikel z najnižjimi stroški pošiljanja in ceno;
  • analiza izdelka: značilnosti in cene po kriterijih.

Pri resničnem delu menedžerja, ki uporablja podatke več deset dobaviteljev, bo teh opravil veliko različic in še več resničnih situacij.

Na primer, obstaja dobavitelj "A", ki prodaja ASUS VivoBook S15: predplačilo, dostava 5 dni po dejanskem prejemu denarja. Obstaja dobavitelj "B" istega izdelka istega modela: plačilo ob prevzemu, dostava po sklenitvi pogodbe v enem dnevu, cena je poldrugakrat višja.

Začne se rudarjenje podatkov - "izkopavanja". Figurativni izrazi: "izkopavanja" ali "podatkovno rudarjenje" sta sinonima. Gre za to, kako dobiti razlog za odločitev.

Dobavitelja "A" in "B" imata zgodovino dobav. Ocenapredplačilo v prvem primeru proti plačilu ob prevzemu v drugem primeru, ob upoštevanju, da je neuspeh dostave v drugem primeru 65% višji. Tveganje kazni s strani stranke je večje/nižje. Kako in kaj določiti in kakšno odločitev sprejeti?

Po drugi strani: bazo podatkov sta ustvarila programer in menedžer. Če sta se spremenila programer in upravitelj, kako ugotoviti trenutno stanje baze podatkov in se naučiti, kako jo pravilno uporabljati? Prav tako boste morali narediti podatkovno rudarjenje. Podatkovno rudarjenje ponuja različne matematične in logične metode, ki jim ni vseeno, kakšni podatki se raziskujejo. To daje pravilno rešitev v nekaterih primerih, vendar ne v vseh.

Premikanje v virtualnost in iskanje smisla

Metode podatkovnega rudarjenja postanejo smiselne takoj, ko so informacije zapisane v bazo podatkov in izginejo iz »vidnega polja«. Trgovanje z računalniško opremo je zanimiva naloga, vendar je le posel. Kako dobro je organiziran v podjetju, je odvisno od njegove uspešnosti.

Podnebne spremembe na planetu in vreme v določenem mestu zanimajo vse, ne le poklicne strokovnjake za podnebje. Na tisoče senzorjev odčitava veter, vlažnost, tlak, podatke iz umetnih zemeljskih satelitov, podatki pa so zgodovini že leta in stoletja.

Vremenski podatki ne pomenijo samo odločitve, ali boste na delo prinesli dežnik ali ne. Tehnologije podatkovnega rudarjenja so varen let letalskega prevoznika, stabilno delovanje avtoceste in zanesljiva oskrba z naftnimi derivati po morju.

"Neobdelani" podatki se pošljejo informacijisistem. Naloge podatkovnega rudarjenja so, da jih pretvori v sistematiziran sistem tabel, vzpostavi povezave, poudari skupine homogenih podatkov in odkrije vzorce.

Podnebje, vreme in neobdelani podatki
Podnebje, vreme in neobdelani podatki

Matematične in logične metode že od časov kvantitativne analitike OLAP (On-line Analytical Processing) so pokazale svojo praktičnost. Tu vam tehnologija omogoča, da najdete smisel in ga ne izgubite, kot je v primeru prodaje računalniške opreme.

Poleg tega v globalnih opravilih:

  • transnacionalno poslovanje;
  • upravljanje letalskega prometa;
  • preučevanje črevesja zemlje ali družbenih problemov (na državni ravni);
  • študija vpliva zdravil na živi organizem;
  • napovedovanje posledic izgradnje industrijskega podjetja itd.

Tehnologije podatkovnega rudnika in pretvarjanje "nesmiselnih" podatkov v resnične podatke, ki vam omogočajo sprejemanje objektivnih odločitev, je edina možnost.

Človeške možnosti se končajo tam, kjer je velika količina neobdelanih informacij. Sistemi za rudarjenje podatkov izgubijo svojo uporabnost tam, kjer je potrebno videti, razumeti in občutiti informacije.

Razumna porazdelitev funkcij in objektivnost

Človek in računalnik naj se dopolnjujeta - to je aksiom. Pisanje diplomske naloge je za človeka prioriteta, informacijski sistem pa v pomoč. Tu so podatki, ki jih ima tehnologija Data Mining, hevristika, pravila, algoritmi.

Priprava tedenske vremenske napovedi je prioriteta informacijskega sistema. Človek upravlja s podatki, vendar svoje odločitve temelji na rezultatih sistemskih izračunov. Združuje metode Data Mining, specializirano klasifikacijo podatkov, ročni nadzor uporabe algoritmov, samodejno primerjavo preteklih podatkov, matematično napovedovanje ter veliko znanja in veščin resničnih ljudi, ki sodelujejo pri uporabi informacijskega sistema.

Človek in računalnik
Človek in računalnik

Teorija verjetnosti in matematična statistika nista najbolj »najljubša« in razumljiva področja znanja. Mnogi strokovnjaki so zelo daleč od njih, vendar metode, razvite na teh področjih, dajejo skoraj 100% pravilne rezultate. Z uporabo sistemov, ki temeljijo na idejah, metodah in algoritmih podatkovnega rudarjenja, je mogoče objektivno in zanesljivo pridobiti rešitve. Sicer je preprosto nemogoče dobiti rešitev.

Faraoni in skrivnosti preteklih stoletij

Zgodovina je bila občasno prepisana:

  • države - zaradi svojih strateških interesov;
  • avtoritativni znanstveniki - zaradi svojih subjektivnih prepričanj.

Težko je reči, kaj je res in kaj ne. Uporaba podatkovnega rudarjenja nam omogoča rešitev tega problema. Na primer, tehnologijo gradnje piramid so opisali kronisti in znanstveniki preučevali v različnih stoletjih. Vsi materiali niso na voljo na internetu, tukaj ni vse edinstveno in mnogi podatki morda nimajo:

  • opisana točka v času;
  • čas pisanja opisa;
  • datumi, na katerih temelji opis;
  • avtor(i), mnenja (povezave) upoštevana;
  • potrditev objektivnosti.

Bknjižnice, templji in "nepričakovana mesta" lahko najdete rokopise iz različnih stoletij in materialne dokaze preteklosti.

Zanimiv cilj: združiti vse in odkriti »resnico«. Značilnost problema: informacije je mogoče pridobiti od prvega opisa kronista, v času življenja faraonov, do sedanjega stoletja, v katerem ta problem rešujejo s sodobnimi metodami številni znanstveniki.

Utemeljitev uporabe podatkovnega rudarjenja: ročno delo ni mogoče. Preveč količin:

  • viri informacij;
  • predstavitveni jeziki;
  • raziskovalci, ki opisujejo isto stvar na različne načine;
  • datumi, dogodki in pogoji;
  • težave s korelacijo izrazov;
  • analiza statistike po skupinah podatkov se lahko sčasoma razlikuje, itd.

Ob koncu prejšnjega stoletja, ko je postal še en fiasko ideje o umetni inteligenci očiten ne le laikom, ampak tudi prefinjenemu strokovnjaku, se je pojavila ideja: "poustvariti osebnost."

Na primer, po delih Puškina, Gogolja, Čehova se oblikuje določen sistem pravil, logike vedenja in ustvarja informacijski sistem, ki lahko odgovori na določena vprašanja, kot bi človek odgovoril: Puškin, Gogol ali Čehov. Teoretično je takšna naloga zanimiva, v praksi pa jo je izjemno težko izvesti.

Vendar ideja takšne naloge nakazuje zelo praktično idejo: "kako ustvariti inteligentno iskanje informacij." Internet je veliko virov za razvoj, ogromna baza podatkov in to je odlična priložnost za uporabo podatkovnega rudarjenja v kombinaciji s človekomlogika v obliki skupnega razvoja.

Stroj in človek skupaj
Stroj in človek skupaj

Aparat in človek v paru je odlična naloga in nedvomni uspeh na področju "informacijske arheologije", visokokakovostnih izkopavanj v podatkih in rezultatih, ki bodo nekaj postavili v dvom, a vam bodo brez dvoma omogočili pridobiti nova znanja in bodo v družbi povpraševani.

Priporočena: