Ce inseamna data mining Concept si aplicatii

Ce inseamna data mining? Concept si aplicatii

0 Shares
0
0
0

Exploatarea datelor este un proces de extragere si descoperire a modelelor in seturi mari de date care implica metode aflate la intersectia sistemelor de invatare automata, statistici si baze de date. Exploatarea datelor este un subdomeniu interdisciplinar al informaticii si statisticii, cu scopul general de a extrage informatii (cu metode inteligente) dintr-un set de date si de a transforma informatiile intr-o structura inteligibila pentru utilizare ulterioara.

Exploatarea datelor este etapa de analiza a procesului „descoperirea cunostintelor in baze de date” sau KDD. In afara de pasul analizei brute, acesta implica, de asemenea, aspecte ale bazelor de date si de gestionare a datelor, pre-procesare a datelor, considerente de model si inferenta, valori, considerente de complexitate, post-procesare a structurilor descoperite, vizualizare si actualizare online.

Termenul „extragere de date” este un termen gresit, deoarece scopul este extragerea de tipare si cunostinte din cantitati mari de date, nu extragerea de date in sine. De asemenea, este un cuvant cheie  si se aplica frecvent oricarei forme de prelucrare a datelor sau informatiilor la scara larga (colectare, extractie, depozitare, analiza si statistici), precum si oricarei aplicatii a sistemului de asistenta decizionala pe computer, inclusiv a inteligentei artificiale ( de exemplu, invatarea automata) si business intelligence.

Cartea “Data mining: Instrumente si tehnici practice de invatare automata cu Java” (care acopera in principal materialele de invatare automata) a fost numita initial “Practical machine learning”, iar termenul “minerit de date” a fost adaugat doar din motive de marketing. Adesea termenii mai generali (la scara larga) analiza datelor – sau, atunci cand se refera la metode reale – inteligenta artificiala si invatarea automata – sunt mai potriviti.

Sarcina reala de extragere a datelor este analiza semi-automata sau automata a unor cantitati mari de date pentru a extrage modele interesante necunoscute anterior, cum ar fi grupuri de inregistrari de date (analiza cluster), inregistrari neobisnuite (detectarea anomaliilor) si dependente (extragerea regulilor de asociere, exploatarea secventiala a modelelor). Aceasta implica de obicei utilizarea tehnicilor bazei de date, cum ar fi indicii spatiali.

Aceste tipare pot fi apoi vazute ca un fel de rezumat al datelor de intrare si pot fi utilizate in analize suplimentare sau, de exemplu, in invatarea automata si analiza predictiva. De exemplu, pasul de extragere a datelor ar putea identifica mai multe grupuri din date, care pot fi apoi utilizate pentru a obtine rezultate de predictie mai precise de catre un sistem de sprijinire a deciziilor.

Nici culegerea datelor, pregatirea datelor, nici interpretarea si raportarea rezultatelor nu fac parte din etapa de extragere a datelor, dar apartin procesului general KDD, ca etape suplimentare.

Diferenta dintre analiza datelor si extragerea datelor este ca analiza datelor este utilizata pentru a testa modele si ipoteze asupra setului de date, de exemplu, analizand eficacitatea unei campanii de marketing, indiferent de cantitatea de date; in schimb, exploatarea datelor foloseste invatarea automata si modele statistice pentru a descoperi modele clandestine sau ascunse, intr-un volum mare de date.

Termenii asociati – dragare de date, pescuitul de date si detectarea datelor, se refera la utilizarea metodelor de extragere a datelor pentru a preleva probe sau parti dintr-un set de date mai mare, care sunt (sau pot fi) prea mici luate individual, pentru a se putea face inferente statistice fiabile despre validitatea tiparelor descoperite. Aceste metode pot fi, totusi, folosite in crearea de noi ipoteze pentru testare.

Etimologie

In anii 1960, statisticienii si economistii au folosit termeni precum pescuitul datelor sau dragarea datelor pentru a se referi la ceea ce au considerat a fi o practica proasta a analizei datelor fara o ipoteza a-priori.

Termenul „minerit de date” a fost folosit intr-un mod similar si critic de catre economistul Michael Lovell intr-un articol publicat in Revista de studii economice in 1983. Lovell indica faptul ca practica „se mascheaza sub o varietate de pseudonime”, variind de la„ experimentare ”(pozitiva) la„ pescuit ”sau„ spionaj ”.

Termenul minerit de date a aparut in jurul anului 1990 in comunitatea bazelor de date, in general cu conotatii pozitive. Pentru o scurta perioada de timp in anii 1980, a fost folosita o expresie „extragere a bazelor de date”, din moment ce a fost inregistrata de HNC – o companie din San Diego, pentru a lansa statia de lucru pentru exploatarea bazei de date; Alti termeni folositi includ arheologia datelor, recoltarea informatiilor, descoperirea informatiilor, extragerea cunostintelor etc.

Gregory Piatetsky-Shapiro a inventat termenul „descoperirea cunostintelor in baze de date” pentru primul atelier pe acelasi subiect (KDD-1989) si acest termen a devenit mai popular in comunitatea AI si de invatare automata. Cu toate acestea, termenul de extragere a datelor a devenit mai popular in comunitatile de afaceri si de presa. In prezent, termenii minerit de date si descoperirea cunostintelor sunt folositi in mod interschimbabil.

In comunitatea academica, principalele forumuri de cercetare au aparut in 1995, cand a fost lansata la Montreal, sub sponsorizarea AAAI, Prima Conferinta Internationala privind mineritul datelor si descoperirea cunostintelor (KDD-95). A fost co-prezidata de Usama Fayyad si Ramasamy Uthurusamy. Un an mai tarziu, in 1996, Usama Fayyad a lansat revista Kluwer, numita Data Mining and Knowledge Discovery, ca redactor-sef fondator.

Mai tarziu a aparut buletinul informativ Explorari SIGKDD.  Conferinta internationala KDD a devenit prima conferinta de cea mai inalta calitate in minerit de date, cu o rata de acceptare a trimiterilor de lucrari de cercetare sub 18%. Revista Data Mining and Knowledge Discovery este jurnalul principal de cercetare din domeniu.

Fundal

Extragerea manuala a modelelor din date a avut loc de secole. Metodele timpurii de identificare a modelelor in date includ teorema lui Bayes (anii 1700) si analiza de regresie (anii 1800). Proliferarea, omniprezenta si puterea crescanda a tehnologiei informatice au crescut dramatic capacitatea de colectare, stocare si manipulare a datelor.

Pe masura ce seturile de date au crescut ca dimensiune si complexitate, analiza directa „practica” a datelor a fost crescuta din ce in ce mai mult cu prelucrarea indirecta si automatizata a datelor, ajutata de alte descoperiri in informatica, in special in domeniul invatarii automate, cum ar fi retelele neuronale, analiza clusterelor, algoritmi genetici (anii 1950), arborii de decizie si regulile de decizie (anii 1960) si masinile vectoriale de sprijin (anii 1990).

Exploatarea datelor este procesul de aplicare a acestor metode cu intentia de a descoperi tipare ascunse in seturi mari de date.

Acopera decalajul de la statistici aplicate si inteligenta artificiala (care ofera de obicei fundalul matematic) la gestionarea bazelor de date prin exploatarea modului in care datele sunt stocate si indexate in baze de date pentru a executa algoritmii de invatare si descoperire efectivi mai eficient, permitand astfel de metode sa fie aplicate la seturi de date tot mai mari.

Proces

Procesul de descoperire a cunostintelor in bazele de date (KDD) este de obicei definit cu etapele:

  • Selectie
  • Pre-procesare
  • Transformare
  • Exploatarea datelor
  • Interpretare / evaluare

man-with-holographic-tablet

Exista, totusi, multe variante pe aceasta tema, cum ar fi procesul standard pentru industria miniera (CRISP-DM) care defineste sase etape:

  • Intelegerea afacerii
  • Intelegerea datelor
  • Pregatirea datelor
  • Modelare
  • Evaluare
  • Implementare

Pre-procesare

Inainte de a putea utiliza algoritmi de extragere a datelor, trebuie asamblat un set de date tinta. Intrucat extragerea datelor poate descoperi doar tiparele prezente in date, setul de date tinta trebuie sa fie suficient de mare pentru a contine aceste tipare, ramanand in acelasi timp suficient de concis pentru a fi exploatat intr-un termen acceptabil.

O sursa obisnuita pentru date este data mart sau data warehouse. Preprocesarea este esentiala pentru a analiza seturile de date multivariate inainte de extragerea datelor. Setul tinta este apoi curatat. Curatarea datelor elimina observatiile care contin zgomot si pe cele cu date lipsa.

Exploatarea datelor

Exploatarea datelor implica sase clase comune de sarcini:

  • Detectarea anomaliilor (depasire / detectare modificari / devieri) – Identificarea inregistrarilor de date neobisnuite, care ar putea fi interesante sau erori de date care necesita investigatii suplimentare.
  • Invatarea regulilor de asociere (modelarea dependentei) – Cautari de relatii intre variabile. De exemplu, un supermarket ar putea aduna date despre obiceiurile de cumparare ale clientilor. Folosind invatarea regulilor de asociere, supermarketul poate determina ce produse sunt cumparate frecvent impreuna si poate utiliza aceste informatii in scopuri de marketing. Aceasta este uneori denumita analiza cosului de piata.
  • Clustering – este sarcina de a descoperi grupuri si structuri in date care sunt intr-un fel sau altul „similare”, fara a utiliza structuri cunoscute in date.
  • Clasificare – este sarcina de a generaliza structura cunoscuta pentru a se aplica noilor date. De exemplu, un program de e-mail poate incerca sa clasifice un e-mail ca „legitim” sau ca „spam”.
  • Regresie – incearca sa gaseasca o functie care modeleaza datele cu cea mai mica eroare, pentru estimarea relatiilor dintre date sau seturi de date.
  • Rezumare – ofera o reprezentare mai compacta a setului de date, inclusiv vizualizarea si generarea de rapoarte.

Exploatarea datelor poate fi utilizata in mod gresit (neintentionat) si poate produce rezultate care par a fi semnificative dar care nu prezic de fapt un comportament viitor si nu pot fi reproduse pe un nou esantion de date. Adesea, acest lucru rezulta din investigarea prea multor ipoteze si efectuarea necorespunzatoare a testarii statistice a ipotezelor.

O versiune simpla a acestei probleme in invatarea automata este cunoscuta sub denumirea de overfitting, dar aceeasi problema poate aparea in diferite faze ale procesului si, prin urmare, o impartire tren / test – cand este cazul, poate sa nu fie suficienta pentru a preveni acest lucru. Ultimul pas al descoperirii cunostintelor din date este verificarea faptului ca tiparele produse de algoritmii de extragere a datelor, apar in setul de date mai larg.

Nu toate tiparele gasite de algoritmii de extragere a datelor sunt neaparat valide. Este obisnuit ca algoritmii de extragere a datelor sa gaseasca modele in setul de instruire, care nu sunt prezente in setul general de date.

Aceasta se numeste supradezionare. Pentru a depasi acest lucru, evaluarea utilizeaza un set de date de testare pe care algoritmul de extragere a datelor nu a fost instruit. Modelele invatate sunt aplicate acestui set de testare, iar rezultatul relevat este comparat cu rezultatul dorit. De exemplu, un algoritm de extragere a datelor care incearca sa distinga „spam” de e-mailurile „legitime” ar fi instruit pe un set de instruire de e-mailuri esantion.

Mai multe metode statistice pot fi utilizate pentru a evalua algoritmul, cum ar fi curbele ROC. Daca tiparele invatate nu indeplinesc standardele dorite, ulterior este necesar sa reevaluam si sa modificam etapele de pre-procesare si extragere a datelor. Daca tiparele invatate indeplinesc standardele dorite, atunci ultimul pas este interpretarea tiparelor invatate si transformarea lor in cunostinte.

0 Shares
You May Also Like