Sie sind auf Seite 1von 5

POSLOVANJE

Aktuelno

Big Data
u farmaciji
i medicini
BIG DATA ANALITIKA PREDSTAVLJA POJAM KOJI SE ODNOSI NA PRIMENU NAPREDNIH TEHNIKA ANALIZE VELIKIH KOLIINA PODATAKA IJE GENERISANJE SE SVE VIE UBRZAVA. SVOJU PRIMENU NALAZI
U MNOGIM OBLASTIMA POSLOVANJA, A NAROITO U OBLASTI MEDICINE. UKOLIKO SE PRAVILNO UPOTREBI, BIG DATA ANALITIKA MOE STVORITI USLOVE ZA IZGRADNJU ODRIVE KONKURENTSKE
PREDNOSTI NA TRITU, TO JE OD POSEBNOG ZNAAJA ZA FARMACEUTSKE KOMPANIJE.

AUTOR: IGOR LAZAREVI, AVENTIN PARTNERS

 Pojam Big Data

Dve osnovne karakteristike savremenih uslova poslovanja u farmaciji su rastua dinaminost i rastua kompleksnost. Rastua dinaminost se ogleda u procesu stalnih promena u okruenju, koje su duboke,
sveobuhvatne i vrlo intenzivne, dok se rastua kompleksnost ogleda u rastu broja
elemenata koji utiu na poslovanje, kao i
rastu njihovih meusobnih veza. Jedan od
faktora koji doprinose rastuoj kompleksnosti poslovanja jeste i eksponencijalni
rast koliine dostupnih podataka, koji pre
svega predstavlja rezultat razvoja informacionih tehnologija i Interneta, odnosno hardverskih (kapaciteti za skladitenje i obradu podataka) i softverskih kapaciteta (razvoj novih aplikacija). Prema reima Erika
mita, predsednika kompanije Google,
od nastanka civilizacije do 2003. godine
kreirano je ukupno 5 egzabajta1 podataka,
to predstavlja koliinu podataka koja se da-


Prema podacima iz kompanije Cisco Systems, poetkom 2015. godine u svetu je
bilo preko 25 milijardi elektronskih ureaja koji se
mogu povezati na Internet,
to znai da je prosean broj
ureaja po oveku bio 3,5. To
otvara nesluene mogunosti povezivanja i generisanja
novih podataka.

nas kreira u roku od dva dana. Ovaj enormni rast dostupnih podataka karakteristian
je za skoro sve oblasti ivota i poslovanja,
od ishrane, sporta i razonode, preko trgo-

vine, finansija, medicine i telekomunikacija, pa sve do upravljanja bezbednosnim


sistemom i zatite ivotne sredine. Ova hiperprodukcija podataka zahteva nove pristupe u njihovoj obradi koji su bazirani na
upotrebi informacionih tehnologija tehnologija koje prevazilaze ogranienja u pogledu analitikih kapaciteta ljudi. To je dovelo do razvoja potpuno nove dimenzije u
analizi podataka koja se naziva Big Data
Analytics ili analitika velikih koliina podataka.
ta ustvari predstavlja pojam Big Data? Najkrae reeno, Big Data predstavlja
onu koliinu podataka koja prevazilazi
mogunosti uobiajeno korienih raunarskih tehnika za njihovo skladitenje i
obradu. Ili jednostavno reeno, Big Data
predstavlja sve ono to prevazilazi kapacitete programa Excel i Access. Prema definiciji kompanije META Group, Big Data
predstavlja informacioni resurs koji se

Inae, merne jedinice za kapacitete skladitenja podataka obuhvataju bajt (B), kilobajt (kB), megabajt (MB), gigabajt (GB), terabajt (TB), petabajt (PB), egzabajt (EB), zetabajt (ZB) i
jotabajt (YB). O kolikim veliinama je ovde re najbolje govori podatak da 1 egzabajt obuhvata 1 milijardu gigabajta, odnosno da je ukupna koliina podataka na Internetu na kraju 2013.
godine iznosila 4 zetabajta, odnosno 4 miliona egzabajta, odnosno da ljudski rod jo uvek nije dostigao iznos od 1 jotabajta skladitenih podataka na jednom mestu.

38

BB-INFORMATOR / JUL 2015. / 242

sastoji od podataka velike koliine, velike


brzine i velike raznovrsnosti koji zahteva
nove i inovativne metode obrade i optimizacije tih podataka, to rezultira u boljem
uvidu u sadraj tih podataka i unapreenju procesa donoenja odluka2. Prema
definiciji autora sa Bliskog Istoka, Big Data predstavlja skup tehnika i tehnologija koje su bazirane na novim formama integracije velikih koliina sloenih i raznovrsnih
podataka, a koje imaju kapacitet da otkriju skrivene vrednosti koje su sadrane u tim
podacima3. Na osnovu toga, moe se rei
da definicija Big Data obuhvata etiri
osnovna elementa: (1) kompleksnost podataka, u smislu generisanja veoma velikih koliina raznovrsnih podataka koje se
vri veoma velikom brzinom, (2) inovativne metode obrade podataka, u smislu potrebe primene inovativnih metoda skladitenja i obrade tako generisanih podataka,
koje su bazirane na upotrebi savremenih
informacionih tehnologija i naprednih
tehnika statistike, (3) pronalaenje skrivenih vrednosti na bazi upotrebe savremenih informacionih tehnologija i naprednih
tehnika statistike, i (4) bre i bolje odluivanje, koje je bazirano na otkrivanju skrivenih vrednosti sadranih u velikim serijama kompleksnih podataka. Kao to je ukazano u definiciji kompanije META Group,
koncept Big Data je baziran na tri osnovne
dimenzije, koje ine 3V koncept Big
Data. To su koliina, brzina i raznovrsnost.
Koliina podataka (Volume ili Data
at Rest) predstavlja prvu i najvaniju dimenziju Big Data koncepta. Prema podacima iz kompanije IBM, 90% podataka koji danas postoje kreirano je u poslednje dve

godine. S druge strane, prema podacima


McKinsey Global Institute, oekuje se da e
koliina generisanih podataka na globalnom nivou da raste po prosenoj godinjoj
stopi od 41% i da e u periodu od 2008. do
2020. godine ta koliina biti uveana 44 puta, sa 0,8 zetabajta u 2008. godini na 35 zetabajta u 2020. godini. O kojoj koliini podataka se govori najbolje govori podatak
da se dnevno na Fejsbuku generie 10, a na
Tviteru 7 terabajta podataka.
Brzina generisanja podataka (Velocity ili Data in Motion) predstavlja drugu
dimenziju Big Data koncepta. Primera radi, u okviru jednog minuta u svetu se
obavi preko 3.500 transakcija na berzama,
potroi se preko 3 miliona dolara na onlajn
kupovinu, poalje se preko 200 miliona
imejlova, obavi se preko 2 miliona pretraga na Guglu (3,5 milijarde dnevno), postavi se preko 700.000 novih sadraja na Fejsbuku i preko 400.000 na Tviteru, postavi
se preko 600 novih video sadraja na Jutjub, obavi se preko 400.000 minuta razgovara preko Skajpa i napie se preko
1.500 blog postova.
Raznovrsnost podataka (Variety ili
Data in Many Form) predstavlja treu dimenziju Big Data koncepta. Preko 80% podataka koji se danas generie su nestrukturirani podaci. To su podaci koji su heterogenog karaktera i sa kojima se ne mogu
vriti klasine aritmetike operacije. Pojavljuju se u raznim formama, kao to su audio fajlovi, video fajlovi, tekstualni fajlovi
itd. Oko 10% podataka koji se danas generie su polustrukturirani podaci. To su
uglavnom podaci koji se lako mogu transformisati u formu pogodnu za vrenje

klasinih aritmetikih operacija, kao to su


npr. podaci koji se dobijaju putem Web analitike. Konano, samo 10% podataka predstavljaju strukturirane podatke. To su podaci koji nastaju upotrebom raznih analitikih sredstava kao to su poslovne analitike, baze podataka itd.
Pojedini autori na ove tri dimenzije dodaju i druge dimenzije, inei tako proireni Big Data koncept. S jedne strane,
pojedini autori dodaju i dimenziju pouzdanosti podataka (Veracity), inei tako 4V
koncept, dok s druge strane, pojedini autori dodaju jo i dimenzije vrednosti (Value) i delotvornosti (Viscosity), inei tako
proireni 6V koncept.

Big Data i poslovna analitika


Vano je imati u vidu da pojam Big Data ne treba poistoveivati samo sa velikim
koliinama raznovrsnih podataka, ve i sa
tehnikama koje se koriste u obradi tih podataka i naina donoenja zakljuaka i
vanih poslovnih odluka na bazi toga.
Zbog toga se ee koristi pojam Big Data
Analytics ili analitika velikih koliina podataka, ija je svrha pronalaenje skrivenih obrazaca u podacima i generisanje informacija za donoenje vanih poslovnih
odluka, to se postie primenom naprednih tehnologija i naprednih statistikih tehnika.
Big Data je transformisao pojmove
analitike i poslovne inteligencije (Business Intelligence). Analitika kakvu poznajemo (Traditional Approach), koja je bila bazirana na analizi parcijalnih podataka na
bazi upotrebe standardnih alata i tehnika
i koja se uglavnom vrila Ex-Post sa cilje-

Parametar

Tradicionalna analitika

Big Data analitika

Obuhvat podataka

Analiza dela podataka (Partial Data)

Analiza svih podataka (All Data)

Izvori podataka

Mali broj homogenih izvora podataka

Veliki broj heterogenih izvora podataka

Tehnike obrade podataka

Standardni alati i tehnike (klasini softveri,


klasine statistike tehnike )

Napredni alati i tehnike (napredni softveri, napredne


statistike tehnike)

Vreme obrade podataka

Nakon generisanja podataka (Ex-Post)

U toku generisanja podataka (Real-Time)

Intenzitet obrade podataka Povremena obrada podataka (Ad-Hoc)

Kontinuirana obrada podataka

Ciljevi obrade podataka

Dijagnoza i opis dogaaja

Analiza ponaanja i predvianje dogaaja

Vrste izvetaja

Standardni jednoobrazni izvetaji

Sloeni kompleksni izvetaji

Ovu definiciju je dao Daglas Lani u okviru istraivanja koje je 2001. godine sproveo u ime kompanije META Group (danas Gartner Inc). Izvor: Laney, Douglas (2001), Application Delivery
Strategies 3D Data Management: Controlling Data Volume, Velocity and Variety, META Group
3
Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015), The Rise of Big Data on Cloud Computing: Review and
Open Research Issues, Information Systems, Vol. 47, str. 98-115

BB-INFORMATOR / JUL 2015. / 242

39

POSLOVANJE

Aktuelno

Male serije podataka

Velike serije podataka

Napredna analitika

Big Data analitika

Male serije podataka

Velike serije podataka

Tradicionalna analitika

Tradicionalna analitika

Srednja

Visoka

serija sadanjih i prolih podataka kako bi


se predvideli budui dogaaji na bazi identifikovanih obrazaca ponaanja. U osnovi
prediktivne analitike, i inae Big Data analitike, je upotreba savremenih informacionih tehnologija, kao to su Hadoop i MATLAB softverska reenja, i naprednih tehnika statistike, kao to su napredne tehnike
regresione analize i napredne tehnike ma-

Niska

Brzina, kompleksnost i tanost podataka

vima dijagnostikovanja i deskripcije, sve vie ustupa mesto naprednoj analitici (Big Data Approach), koja je bazirana na analizi celokupnih podataka na bazi upotrebe savremenih informacionih tehnologija i naprednih metoda statistike obrade podataka, koja se vri u realnom vremenu
(Real-Time) sa ciljem predvianja buduih
dogaaja.
Moe se rei da je koncept poslovne
analitike ili poslovne inteligencije evoluirao u etiri faze. U prvoj fazi, koja se naziva fazom dijagnostike analitike (Diagnostic Analytics) akcenat je na dijagnostikovanju problema i pronalaenju naknadnih
naina za njihovo reavanje. U drugoj fazi, koja se naziva fazom deskriptivne
analitike (Descriptive Analytics) akcenat
je na dijagnostikovanju problema, ali i na
opisu uzroka i posledica nastalih problema, kao i iznalaenju naina za njihovo reavanje. U treoj fazi, koja se naziva fazom
prediktivne analitike (Predictive Analytics) akcenat je na predvianju buduih
problema na bazi prethodnih iskustava,
kao i na merama prevencije posledica. U
etvrtoj fazi, koja se naziva fazom preskriptivne analitike (Prescriptive Analytics)
akcenat je na kompleksnoj analizi ponaanja koje dovodi do nastanka buduih
problema, te stoga i na razvoju metoda i
pristupa koji utiu na eljeno ponaanje
ciljnih subjekata.
Prediktivna analitika (Predictive Analytics) inae predstavlja skup naprednih alata i tehnika koje se koriste u analizi velikih

Big Data i vizualizacija podataka


Gigabajti

Terabajti

Petabajti

Veliina podataka

40

inskog uenja.
Ono to je vano znati je da je glavni pokreta Big Data analitike vrednost podataka. Prema Piteru Sondergardu iz kompanije Gartner Research, informacija je nafta XXI veka, a analitika je parna maina budunosti. Kompanije sve vie prepoznaju
podatke kao resurs (Data as an Asset) koji im omoguava da primenjuju superiorne strategije i grade odrivu konkurentsku
prednost na bazi upravljanja informacijama. Zbog toga, dolazi do rapidnog rasta Big
Data trita u svetu. Prema podacima
McKinsey Global Institute, globalno Big Data trite raste po prosenoj stopi od 46%
godinje. Ovo trite je u 2011. godini vredelo 5,5 milijardi dolara, u 2012. godini 8,5
milijardi dolara, a u 2015. godini 25 milijardi dolara. Oekuje se da bi vrednost Big Data trita do 2020. godine mogla da iznosi preko 200 milijardi dolara.

Zetabajti

esto se kae da je vizualizacija podataka (Data Visualization) najbolji prijatelj


Big Data analitike. Razlog je taj to su rezultati analize velikih serija podataka najeBB-INFORMATOR / JUL 2015. / 242

nike distribucije frekvencije, (6) tehnike korelacije, (7) tehnike nominalnog poreenja
i (8) tehnike geografskog ili geo-prostornog
poreenja. Kao rezultat primene ovih tehnika, rezultati analize velikih serija podataka se najee prikazuju u formi stubova (Bars), histograma (Histograms), dvodimenzionalnih i trodimenzionalnih takastih dijagrama (Scatterplots i 3D Scatterplots), mrenih dijagrama (Networks), grafikona tokova (Streamgraphs), mape grananja (Treemap), gantograma (Gantt
Charts), ali i u formi raznih infografika (Infographics), koji su sve popularniji u poslednje vreme.

Big Data ekosistem

e veoma kompleksni, te stoga zahtevaju primenu naprednih tehnika prezentovanja. Vizualizacija podataka omoguava
korisnicima brzo i lako razumevanje informacija i meusobnih uzrono-posledinih
veza. Vizualizacija podataka je i nauka i
umetnost. Nauka je zbog toga to je bazirana tzv. naunom procesu obrade informacija (Data Science Process), koji je baziran na prediktivnoj analitici i upotrebi naprednih informacionih i statistikih tehnika. Umetnost je zbog toga to je bazirana na kreativnosti i dizajnerskim sposobnostima analitiara koji konstantno iznalaze nove perceptivno prihvatljive naine za prezentovanje podataka. Obzirom da
je proces vizuelne percepcije povezan sa
modanim aktivnostima i karakteristikama linosti, vizualizacija podataka je usko
povezana sa psihologijom i neurologijom.
Prema Stivenu Fjuu, postoji osam tehnika vizualizacije kvantitativnih podataka
koje se koriste u prediktivnoj analitici. To
su: (1) tehnike vremenskih serija, (2) tehnike rangiranja, (3) tehnike uporeivanja
delova i celine, (4) tehnike devijacije, (5) tehBB-INFORMATOR / JUL 2015. / 242

U strunoj literaturi esto se moe


naii na termin Big Data ekosistem. Ovaj
termin se koristi da bi se fenomen Big Data opisao tako da obuhvati sve njegove elemente i njegove najvanije aspekte. Postoji nekoliko naina za prikazivanje Big Data ekosistema, ali je najjednostavniji onaj
koji posmatra njegova tri osnovna gradivna bloka (Building Blocks), odnosno
podsistema proizvodnje, procesuiranja i
konzumiranja podataka.
Proizvodnja podataka (Big Data Production) obuhvata procese generisanja
velikih serija podataka u svakodnevnom
ivotu i poslovanju kroz upotrebu razliitih tehnolokih reenja. Proizvodnja podataka je proces koji je baziran na velikom broju heterogenih izvora podataka. to se tie izvora podataka, oni praktino obuhva-

taju sve oblasti ivota i poslovanja, meu


kojima se posebno istiu informatika (podaci iz pretraivaa, podaci sa drutvenih
mrea, podaci o logovima, podaci sa servera, podaci sa Web sajtova i imejlova itd), telekomunikacije (podaci o razgovorima,
podaci o SMS porukama, podaci o korienju Interneta itd), prodaja (podaci sa POS
terminala, podaci o reklamacijama itd),
marketing (baze podataka o potroaima,
podaci o navikama potroaa itd), finansije (podaci o novanim transakcijama, podaci o berzanskim transakcijama, razni aktuarski podaci itd), medicina (medicinska
istraivanja, medicinska dijagnostika, klinika ispitivanja, istraivanja genoma itd),
sistem bezbednosti (podaci o uznemiravanju, podaci o terorizmu itd), geolokacijski
izvori (GPS podaci itd), senzorski izvori (podaci dobijeni iz senzorskih ureaja itd), razni inenjerski i nauni podaci (seizmoloki podaci, hidroloki podaci, klimatski podaci, fiziki podaci, astronomski podaci itd).
to se tie formata podataka, oni se pojavljuju u video formatu, audio formatu, tekstualnom formatu, binarnom formatu i u
drugim formatima.
Procesuiranje podataka (Big Data Processing) obuhvata sve tehnike i tehnologije uz pomo kojih se vri upravljanje dobijenim podacima. Procesuiranje podataka
obuhvata dva osnovna elementa. Prvi element je skladitenje podataka (Data Warehousing), koje obuhvata prikupljanje podataka (Data Gathering), uvanje podataka (Data Storage), izvlaenje podataka (Da-

41

POSLOVANJE

Aktuelno

Proizvodnja podataka
(Big Data Production)

Izvori podataka:
Audio fajlovi
Video fajlovi
Tekstualni fajlovi
Internet pretraivai
Internet sajtovi
Drutvene mree
Podaci o logovima
Telekomunikacije
POS terminali
Baze potroaa
Novane transakcije
Berzanske transakcije
Medicinska istraivanja
Medicinska dijagnostika
Fraud podaci
GPS podaci
Senzorski podaci
Seizmoloki podaci
Klimatski podaci itd.

Izvorni podaci

ta Mining) i bezbednost podataka (Data Security). Drugi element je obrada podataka


(Data Processing), koja je bazirana na primeni savremenih metoda prediktivne
analitike.
Konzumiranje podataka (Big Data
Consumption) obuhvata mehanizme prezentovanja dobijenih rezultata i naina upotrebe Big Data u cilju unapreenja poslovanja. Konzumiranje podataka ima dva
osnovna elementa. Prvi element je nain
prezentovanja podataka i odnosi se na kompleksne metode vizualizacije podataka.
Drugi element je upotreba podataka i odnosi se na upotrebu dobijenih informacija u svrhu unapreenja ivota i poslovanja.
Konzumenti Big Data analitike su brojni
od kompanija, preko drava i naunih
ustanova, pa sve do pojedinaca.

Big Data tehnologije


Konano, vano je ukazati i na znaaj
Big Data tehnologija i tehnolokih reenja,
koje predstavljaju osnovu savremene prediktivne (Big Data) analitike. Kada se govori o Big Data tehnologijama vano je imati u vidu da one obuhvataju dva aspekta.
S jedne strane, to su tehnologije, koje se
odnose na razna softverska reenja koja su
bazirana na savremenim informacionim

42

Procesuiranje podataka
(Big Data Processing)

Konzumiranje podataka
(Big Data Consumption)

Prikupljanje podataka
(Data Gathering)

Vizualizacija podataka
(Data Visualization)

Skladitenje podataka
(Data Warehousing)

Poslovna primena
Marketing

Iskopavanje podataka
(Data Mining)

Prodaja
Medicina

Procesuiranje podataka
(Data Processing)

Informatika
Telekomunikacije
Bezbednost

Bezbednost podataka
(Data Security)

Obraeni podaci

tehnologijama. S druge strane, to su tehnike, koje se odnose na kompleksne i napredne tehnike statistike i matematike
obrade podataka. Praktino, Big Data tehnologije predstavljaju simbiozu tehnologija (softvera) i tehnika (statistikih alata) i na tritu se pojavljuju u obliku zaokruenih softverskih reenja koja integriu ova dva parametra.
to se tie tehnika (statistiki alati),
najee se koriste tehnike napredne regresione analize, tehnike mainskog uenja
(Machine Learning), tehnike analize vremenskih serija (Time Series Analysis), tehnike genetikih algoritama (Genetic Algorithms), tehnike fuzije i integracije podataka (Data Fusion and Integration), NLP tehnike, razne ekonometrijske simulacije
(npr. Monte-Carlo simulacija) itd.
to se tie tehnologija (softvera), u ponudi postoji veliki broj softverskih reenja
za Big Data analitiku. Sva ta reenja se mogu grupisati u tri osnovne kategorije. Prva kategorija obuhvata Apache Hadoop
platformu, koja predstavlja Open-Source
reenje koje se najee koristi u Big Data
analitici i koje je uraeno na Java platformi u cilju procesuiranja velikih koliina podataka putem tehnologije kompjuterskih klastera. Druga kategorija obuhvata

Zatita ivotne sredine

Komercijalizovani podaci

tzv. Non-Hadoop platforme, meu kojima najveu upotrebu imaju platforme


kao to su MapReduce, MATLAB, Revolution R, Apache Mahout, Apache Hive, Knime, Pentaho Data Integration i brojne
druge platforme. Trea kategorija obuhvata tzv. Cloud-Based Big Data Applications, koji obuhvataju razne softvere koji koriste tehnologiju Cloud Computing-a
u svom radu.

Primena Big Data analitike


Big Data analitika ima primenu u skoro svim oblastima ivota i poslovanja.
Meutim, najvanije oblasti primene Big
Data analitike su u onim oblastima u kojima se generiu velike koliine podataka
ijom obradom se moe doi do vanih poslovnih zakljuaka. Imajui to u vidu, moe se rei da Big Data analitika najveu primenu ima u sledeim sektorima: (1) informacione tehnologije, (2) telekomunikacije, (3) finansijski sektor, (4) prodaja i marketing, (5) medicina i farmacija, (6) sektor
bezbednosti, (7) zatita ivotne sredine, (8)
geologija i seizmologija, (9) fizika i astronomija itd.
U sledeem broju: Primena Big Data

analitike u medicini
BB-INFORMATOR / JUL 2015. / 242

Das könnte Ihnen auch gefallen