BIG DATA KLASTER ANALIZA
Abstract
U ovom radu smo se fokusirali na analizu grupisanja podataka kao najčešće korišćene tehnike
za grupisanje različitih objekata. Grupisanjem podataka, možemo izdvojiti grupe sličnih
objekata iz različitih kolekcija. Prvo smo definisali Big data i klastering kako bismo pratili
dalji sadržaj rada. Predstavili smo najpopularnije tehnike grupisanja podataka, uključujući
particionisanje, hijerarhijsko grupisanje, grupisanje na osnovu gustine i grupisanje zasnovano
na mreži podataka. Big Data opisuje velike količine podataka. Visoka preciznost velikih
podataka može doprineti samopouzdanju u donošenju odluka, a bolje procene mogu pomoći u
povećanju efikasnosti, smanjenju troškova i rizika. Za obradu podataka koriste se različite
metode i pristupi, uključujući grupisanje, klasifikaciju, regresiju, veštačku inteligenciju,
neuronske mreže, pravila asocijacije, stabla odlučivanja, genetske algoritme i metod najbližeg
suseda. Klaster predstavlja skup objekata iz iste klase, što znači da se slični objekti grupišu
zajedno, a različiti objekti grupišu odvojeno. Opisali smo K-means algoritam, hijerarhijsko
grupisanje, grupisanje zasnovano na gustini - DBSCAN algoritam i STING algoritam za mrežu
podataka.