Data Mining je Koncept, analiza algoritma, svrha i primjena

Sadržaj:

Data Mining je Koncept, analiza algoritma, svrha i primjena
Data Mining je Koncept, analiza algoritma, svrha i primjena
Anonim

Razvoj informacijske tehnologije donosi praktične rezultate. Ali takvi zadaci kao što su pronalaženje, analiza i korištenje informacija još nisu dobili učinkovit, visokokvalitetan alat. Postoje analitika i kvantitativni alati, oni stvarno rade. Ali kvalitativna revolucija u korištenju informacija još se nije dogodila.

Davno prije pojave računalne tehnologije, osoba je trebala obraditi velike količine informacija i s tim se nosila najbolje od svog iskustva i raspoloživih tehničkih mogućnosti.

Razvoj znanja i vještina uvijek je zadovoljavao stvarne potrebe i odgovarao trenutnim zadaćama. Data mining je skupni naziv koji se koristi za označavanje skupa metoda za otkrivanje dosad nepoznatih, netrivijalnih, praktički korisnih i dostupnih znanja u podacima, potrebnih za donošenje odluka u različitim područjima ljudske aktivnosti.

Ljudstvo, inteligencija, programiranje

Čovjek uvijek zna kako se ponašati u svakoj situaciji. Neznanje ili nepoznata situacija ga ne sprječava da donese odluku. Objektivnost i razumnost svake ljudske odluke može se dovesti u pitanje, ali će biti prihvaćena.

Inteligencija se temelji na: nasljednom "mehanizmu", stečenom, aktivnom znanju. Znanje se primjenjuje za rješavanje problema koji se pojavljuju pred osobom.

  1. Inteligencija je jedinstven skup znanja i vještina: mogućnosti i temelj za ljudski život i rad.
  2. Inteligencija se neprestano razvija, a ljudska djela utječu na druge ljude.

Programiranje je prvi pokušaj formaliziranja prikaza podataka i procesa stvaranja algoritama.

Čovjek, inteligencija, programiranje
Čovjek, inteligencija, programiranje

Umjetna inteligencija (AI) je gubljenje vremena i resursa, ali su rezultati neuspješnih pokušaja prošlog stoljeća u području AI ostali u pamćenju, korišteni u raznim stručnim (inteligentnim) sustavima i transformirani, posebno u algoritme (pravila) i matematičku (logičku) analizu podataka i Data Mining.

Informacije i uobičajeno traženje rješenja

Obična knjižnica je repozitorij znanja, a tiskana riječ i grafika još nisu ustupili dlan računalne tehnologije. Knjige o fizici, kemiji, teorijskoj mehanici, dizajnu, prirodoslovlju, filozofiji, prirodnim znanostima, botanici, udžbenici, monografije, radovi znanstvenika, materijali za konferencije, izvještaji o razvojnom radu, itd. uvijek su relevantni i pouzdani.

Knjižnica je puno različitih izvora koji se razlikujuoblik prezentacije materijala, porijekla, strukture, sadržaja, stila prezentacije itd.

Knjižnica: knjige, časopisi i ostali tiskani materijali
Knjižnica: knjige, časopisi i ostali tiskani materijali

Izvana je sve vidljivo (čitljivo, dostupno) za razumijevanje i korištenje. Možete riješiti bilo koji problem, ispravno postaviti zadatak, obrazložiti rješenje, napisati esej ili seminarski rad, odabrati materijal za diplomu, analizirati izvore na temu disertacije ili znanstveno-analitičkog izvješća.

Svaki problem s informacijama može se riješiti. Uz dužnu upornost i vještinu, dobit će se točan i pouzdan rezultat. U ovom kontekstu, Data Mining je potpuno drugačiji pristup.

Osim rezultata, osoba dobiva "aktivne poveznice" na sve što je pogledano u procesu postizanja cilja. Na izvore koje je koristio u rješavanju problema može se pozvati i nitko neće osporiti činjenicu postojanja izvora. Ovo nije jamstvo autentičnosti, ali je sigurno svjedočanstvo kome je "otpisana" odgovornost za autentičnost. S ove točke gledišta, Data Mining znači velike sumnje u pouzdanost i nema "aktivnih" veza.

Rješavajući nekoliko problema, osoba postiže rezultate i proširuje svoj intelektualni potencijal na mnoge "aktivne veze". Ako novi zadatak "aktivira" već postojeću vezu, osoba će znati kako to riješiti: nema potrebe ponovno tražiti ništa.

"Aktivna veza" je fiksna asocijacija: kako i što učiniti u određenom slučaju. Ljudski mozak automatski pamti sve što mu se čini potencijalno zanimljivim, korisnim.ili će vjerojatno biti potrebni u budućnosti. Na mnogo načina to se događa na podsvjesnoj razini, ali čim se pojavi zadatak koji se može povezati s "aktivnom vezom", on se odmah pojavljuje u umu i rješenje će se dobiti bez dodatne potrage za informacijama. Data Mining je uvijek ponavljanje algoritma pretraživanja i ovaj se algoritam ne mijenja.

Redovno pretraživanje: "umjetnički" problemi

Matematička biblioteka i traženje informacija u njoj relativno je slab zadatak. Pronalaženje jednog ili drugog načina rješavanja integrala, izgradnje matrice ili izvođenja operacije zbrajanja dva imaginarna broja je naporno, ali jednostavno. Morate sortirati niz knjiga, od kojih su mnoge napisane na određenom jeziku, pronaći pravi tekst, proučiti ga i dobiti traženo rješenje.

S vremenom će vam nabrajanje postati poznato, a akumulirano iskustvo omogućit će vam da se krećete kroz informacije knjižnice i druge matematičke probleme. Ovo je ograničen informacijski prostor pitanja i odgovora. Karakteristična značajka: takvo traženje informacija akumulira znanje za rješavanje sličnih problema. Čovjekova potraga za informacijama ostavlja tragove ("aktivne veze") u njegovom sjećanju na moguća rješenja drugih problema.

U fikciji pronađite odgovor na pitanje: "Kako su ljudi živjeli u siječnju 1248.?" vrlo teško. Još je teže odgovoriti na pitanje što je bilo na policama trgovina i kako je organizirana trgovina hranom. Čak i da je neki pisac o tome jasno i izravno napisao u svom romanu, ako bi se moglo pronaći ime tog pisca, onda sumnja uostat će pouzdanost primljenih podataka. Pouzdanost je kritična karakteristika bilo koje količine informacija. Važan je izvor, autor i dokaz koji isključuje netočnost rezultata.

Objektivne okolnosti određene situacije

Čovjek vidi, čuje, osjeća. Neki stručnjaci tečno govore jedinstvenim osjećajem - intuicijom. Konstatacija problema zahtijeva informaciju, proces rješavanja problema najčešće je popraćen doradom iskaza problema. Ovo je manji problem koji dolazi s premještanjem informacija u utrobu računalnog sustava.

Informacije u virtualnom prostoru
Informacije u virtualnom prostoru

Knjižnica i radni kolege neizravni su sudionici u procesu odlučivanja. Dizajn knjige (izvora), grafika u tekstu, značajke podjele informacija u naslove, fusnote po frazama, predmetno kazalo, popis primarnih izvora – sve u čovjeku izaziva asocijacije koje posredno utječu na proces rješavanja problem.

Vrijeme i mjesto rješavanja problema je bitno. Osoba je tako uređena da nehotice obraća pažnju na sve što ga okružuje u procesu rješavanja problema. To može ometati, ili može biti stimulativno. Data Mining nikada neće "razumjeti".

Informacije u virtualnom prostoru

Čovjeka su oduvijek zanimale samo pouzdane informacije o događaju, pojavi, objektu, algoritmu za rješavanje problema. Čovjek je oduvijek točno zamišljao kako može postići željeni cilj.

Pojava računala i informacijskih sustava trebala je čovjeku olakšati život, ali sve se samo zakompliciralo. Informacije su migrirale u utrobu računalnih sustava i nestale iz vida. Da biste odabrali potrebne podatke, trebate stvoriti ispravan algoritam ili formulirati upit bazi podataka.

Podaci unutar informacijskog sustava
Podaci unutar informacijskog sustava

Pitanje mora biti točno. Tek tada možete dobiti odgovor. No sumnje u autentičnost ostaju. U tom smislu, Data Mining je zapravo "iskapanja", to je "vađenje informacija". Ovako je moderno prevesti ovaj izraz. Ruska verzija je data mining ili data mining tehnologija.

U djelima autoritativnih stručnjaka, zadaci Data Mininga navedeni su na sljedeći način:

  • klasifikacija;
  • clustering;
  • udruga;
  • sekvenca;
  • prognoza.

Sa stajališta prakse koja vodi osobu u ručnoj obradi informacija, sva su ta stajališta diskutabilna. U svakom slučaju, osoba automatski obrađuje informacije i ne razmišlja o razvrstavanju podataka, sastavljanju tematskih skupina objekata (clustering), traženju vremenskih obrazaca (sekvence) ili predviđanju rezultata.

Sve ove pozicije u ljudskom umu predstavljene su aktivnim znanjem, koje pokriva više pozicija i dinamički koristi logiku obrade početnih podataka. Čovjekova podsvijest igra važnu ulogu, posebno kada je stručnjak za određeno područje znanja.

Primjer: veleprodaja računalne opreme

Zadatak je jednostavan. Ima ih nekolikodeseci dobavljača računalne opreme i perifernih uređaja. Svaki ima cjenik u xls formatu (Excel datoteka), koji se može preuzeti sa službene web stranice dobavljača. Potrebno je izraditi web resurs koji čita Excel datoteke, pretvara ih u tablice baze podataka i omogućuje korisnicima odabir željenih proizvoda po najnižim cijenama.

Problemi nastaju odmah. Svaki dobavljač nudi vlastitu verziju strukture i sadržaja xls datoteke. Datoteku možete dobiti preuzimanjem s web-mjesta dobavljača, naručivanjem putem e-pošte ili preuzimanjem veze za preuzimanje putem svog osobnog računa, odnosno službenom registracijom kod dobavljača.

Virtualna trgovina računala
Virtualna trgovina računala

Rješenje problema (na samom početku) je tehnološki jednostavno. Učitavanjem datoteka (početni podaci), algoritam za prepoznavanje datoteka ispisuje se za svakog dobavljača i podaci se stavljaju u jednu veliku tablicu početnih podataka. Nakon što su svi podaci primljeni, nakon što je uspostavljen mehanizam kontinuirane zamjene (dnevno, tjedno ili po promjeni) svježih podataka:

  • promijeni asortiman;
  • promjene cijene;
  • pojašnjenje količine na zalihama;
  • prilagodba uvjeta jamstva, specifikacija, itd.

Ovdje počinju pravi problemi. Stvar je u tome što dobavljač može napisati:

  • prijenosno računalo Acer;
  • bilježnica Asus;
  • Dell laptop.

Govorimo o istom proizvodu, ali različitih proizvođača. Kako uskladiti prijenosno računalo=prijenosno računalo ili kako ukloniti Acer, Asus i Dell iz linije proizvoda?

Zaljudski nije problem, ali kako će algoritam "shvatiti" da su Acer, Asus, Dell, Samsung, LG, HP, Sony zaštitni znakovi ili dobavljači? Kako uskladiti "pisač" i pisač, "skener" i "MFP", "kopirni uređaj" i "MFP", "slušalice" sa "slušalice", "pribor" s "dodatkom"?

Izgradnja stabla kategorija na temelju izvornih podataka (izvornih datoteka) već je problem kada trebate sve postaviti na automatski.

Uzorkovanje podataka: iskopavanja "svježe izlivenog"

Zadatak izrade baze podataka dobavljača računalne opreme je riješen. Izgrađeno je stablo kategorija, funkcionira zajednička tablica s ponudama svih dobavljača.

Tipični zadaci rudarenja podataka u kontekstu ovog primjera:

  • pronađi proizvod po najnižoj cijeni;
  • odaberite artikl s najnižom cijenom i cijenom dostave;
  • analiza proizvoda: karakteristike i cijene prema kriterijima.

U stvarnom radu menadžera koji koristi podatke od nekoliko desetaka dobavljača, bit će mnogo varijacija ovih zadataka, pa čak i više stvarnih situacija.

Na primjer, postoji dobavljač "A" koji prodaje ASUS VivoBook S15: plaćanje unaprijed, isporuka 5 dana nakon stvarnog primitka novca. Postoji dobavljač "B" istog proizvoda istog modela: plaćanje po primitku, dostava nakon sklapanja ugovora u roku od jednog dana, cijena je jedan i pol puta veća.

Počinje rudarenje podataka - "iskopavanja". Slikativni izrazi: "iskopavanja" ili "data mining" su sinonimi. Radi se o tome kako dobiti razlog za donošenje odluke.

Dobavljači "A" i "B" imaju povijest isporuka. Razredpredujam u prvom slučaju uz plaćanje po primitku u drugom slučaju, s obzirom da je neuspjeh isporuke u drugom slučaju 65% veći. Rizik od kazna od strane klijenta je veći/niži. Kako i što odrediti i kakvu odluku donijeti?

S druge strane: bazu podataka kreirali su programer i menadžer. Ako su se promijenili programer i upravitelj, kako odrediti trenutno stanje baze podataka i naučiti je pravilno koristiti? Također ćete morati raditi rudarenje podataka. Data Mining nudi razne matematičke i logičke metode kojima nije važno kakvi se podaci istražuju. Ovo daje ispravno rješenje u nekim slučajevima, ali ne u svim.

Prelazak u virtualnost i pronalaženje smisla

Metode rudarenja podataka postaju smislene čim se informacija upiše u bazu podataka i nestane iz “vidnog polja”. Trgovina računalnom opremom zanimljiv je zadatak, ali to je samo posao. Koliko je dobro organiziran u tvrtki ovisi o njenom uspjehu.

Klimatske promjene na planeti i vrijeme u pojedinom gradu zanimaju sve, a ne samo profesionalne stručnjake za klimu. Tisuće senzora očitaju vjetar, vlažnost, tlak, podatke s umjetnih Zemljinih satelita i postoji povijest podataka godinama i stoljećima.

Vremenski podaci ne odnose se samo na odluku hoćete li ponijeti kišobran na posao ili ne. Data Mining tehnologije su siguran let zrakoplova, stabilan rad autoceste i pouzdana opskrba naftnim derivatima morem.

"Sirovi" podaci se šalju informacijisustav. Zadaci Data Mininga su pretvoriti ih u sistematizirani sustav tablica, uspostaviti veze, istaknuti grupe homogenih podataka i otkriti obrasce.

Klima, vrijeme i neobrađeni podaci
Klima, vrijeme i neobrađeni podaci

Matematičke i logičke metode od vremena kvantitativne analitike OLAP (On-line Analytical Processing) pokazale su svoju praktičnost. Ovdje tehnologija omogućuje da pronađete smisao, a ne da ga izgubite, kao u primjeru prodaje računalne opreme.

Štoviše, u globalnim zadacima:

  • transnacionalno poslovanje;
  • upravljanje zračnim prijevozom;
  • proučavanje utrobe zemlje ili društvenih problema (na državnoj razini);
  • proučavanje djelovanja lijekova na živi organizam;
  • predviđanje posljedica izgradnje industrijskog poduzeća, itd.

Tehnologije rudnika podataka i pretvaranje "besmislenih" podataka u stvarne podatke koji vam omogućuju donošenje objektivnih odluka je jedina opcija.

Ljudske mogućnosti završavaju tamo gdje postoji velika količina sirovih informacija. Sustavi za rudarenje podataka gube svoju korisnost tamo gdje je potrebno vidjeti, razumjeti i osjetiti informacije.

Razumna raspodjela funkcija i objektivnost

Čovjek i računalo trebaju se nadopunjavati - to je aksiom. Čovjeku je pisanje disertacije prioritet, a informacijski sustav pomoć. Ovdje su podaci kojima raspolaže tehnologija Data Mining heuristika, pravila, algoritmi.

Izrada tjedne vremenske prognoze prioritet je informacijskog sustava. Čovjek upravlja podacima, ali svoje odluke temelji na rezultatima proračuna sustava. Kombinira metode Data Mininga, specijalističke klasifikacije podataka, ručnu kontrolu primjene algoritama, automatsku usporedbu prošlih podataka, matematičko predviđanje i puno znanja i vještina stvarnih ljudi uključenih u primjenu informacijskog sustava.

Čovjek i računalo
Čovjek i računalo

Teorija vjerojatnosti i matematička statistika nisu "najomiljenija" i najrazumljivija područja znanja. Mnogi stručnjaci su jako daleko od njih, ali metode razvijene u tim područjima daju gotovo 100% točne rezultate. Primjenom sustava temeljenih na idejama, metodama i algoritmima Data Mininga, rješenja se mogu dobiti objektivno i pouzdano. Inače je jednostavno nemoguće dobiti rješenje.

Faraoni i misterije prošlih stoljeća

Povijest je povremeno prepisivana:

  • države - radi svojih strateških interesa;
  • autoritativni znanstvenici - zbog svojih subjektivnih uvjerenja.

Teško je reći što je istina, a što laž. Korištenje Data Mininga omogućuje nam da riješimo ovaj problem. Na primjer, tehnologiju izgradnje piramida opisali su kroničari, a proučavali su je znanstvenici u različitim stoljećima. Nisu svi materijali dospjeli na internet, ovdje nije sve jedinstveno, a mnogi podaci možda nemaju:

  • opisano vrijeme;
  • vrijeme pisanja opisa;
  • datumi na kojima se temelji opis;
  • autor(i), mišljenja (linkovi) uzeti u obzir;
  • potvrda objektivnosti.

Bknjižnicama, hramovima i "neočekivanim mjestima" možete pronaći rukopise iz različitih stoljeća i materijalne dokaze prošlosti.

Zanimljiv cilj: spojiti sve i otkriti "istinu". Značajka problema: informacije se mogu dobiti od prvog opisa kroničara, za vrijeme života faraona, do sadašnjeg stoljeća, u kojem su ovaj problem modernim metodama rješavali mnogi znanstvenici.

Obrazloženje za korištenje Data Mininga: ručni rad nije moguć. Previše količina:

  • izvori informacija;
  • jezici za predstavljanje;
  • istraživači koji opisuju istu stvar na različite načine;
  • datumi, događaji i uvjeti;
  • problemi korelacije pojmova;
  • analiza statistike po grupama podataka tijekom vremena može se razlikovati, itd.

Krajem prošlog stoljeća, kada je još jedan fijasko ideje umjetne inteligencije postao očigledan ne samo laiku, već i sofisticiranom stručnjaku, pojavila se ideja: "rekreirati osobnost".

Na primjer, prema djelima Puškina, Gogolja, Čehova, formira se određeni sustav pravila, logike ponašanja i stvara se informacijski sustav koji može odgovoriti na određena pitanja kao što bi čovjek odgovorio: Puškin, Gogolj ili Čehov. Teoretski je takav zadatak zanimljiv, ali u praksi ga je iznimno teško provesti.

Međutim, ideja takvog zadatka sugerira vrlo praktičnu ideju: "kako stvoriti inteligentno pretraživanje informacija." Internet je puno razvojnih resursa, ogromna baza podataka i ovo je izvrsna prilika za primjenu Data Mininga u kombinaciji s ljudskimlogika u formatu zajedničkog razvoja.

Stroj i čovjek zajedno
Stroj i čovjek zajedno

Upareni stroj i čovjek izvrstan je zadatak i nedvojbeni uspjeh na području "informacijske arheologije", visokokvalitetnih iskapanja podataka i rezultata koji će nešto dovesti u sumnju, ali će vam bez sumnje omogućiti steći nova znanja i bit će traženi u društvu.

Preporučeni: