Duomenų analitika COVID’19 kontekste

Apie Corona atsirado daugybė viešai prieinamų aukšto lygio duomenų analitikos pavyzdžių. Yra ko pasimokyti kaip duomenis pjaustyti, gretinti su kitais faktais ir savo žmogišku dalykų supratimu, kaip daryti iš to pritaikomas praktikoje išvadas ir apibendrinimus. Tai galima pritaikyti analizuojant bent kokius duomenis, pavyzdžiui įmonės pardavimų rezultatus. Keli pastebėjimai žemiau:

1  Pats grafikas, kad ir koks jis būtų geras nieko nesako. Jis pradeda kalbėti kalba sugretinus su žinomais faktais, pridėjus etiketes, laiko skalės įvykius.

Ką Jums kalba  grafikas Corona viruso atvejus Kinijoje (šaltinis https://jamanetwork.com/journals/jama/fullarticle/2762130) :

graf_1

Man tai nelabai ką, nebent tai, kad patvirtintų atvejų kiekis pagal diagnozavimo datą ( geltoni stulpeliai)  šiek tiek vėluoja lyginant su  kiekiu pagal simptomų atsiradimo datą  (mėlyni stulpeliai).  Šis dėsningumas net ir drambliui turėtų būti suprantamas be jokių analitikų pagalbos.

Pridėjus laiko ašyje komentarus, atsiranda jau visai kitoks matymas.

Screenshot_3

Žiūrint į grafiką pagal pirmųjų simptomų pasireiškimo datą ( mėlyni stulpeliai) aiškiai matosi, kad atvejų ima daugėti kai atsiranda jų nustatymo įrankis 2020 sausio 13 d. Augimas sustoja kai uždaromas Uhanas ir dar 15 miestų. Toliau prasideda kinų naujieji metai, kurių atostogos privalomai pratęsiamos ir naujų atvejų tolygiai mažėja.

Verslo analitikoje labai dažnas atvejis kai įmonė turi visus reikiamus skaičius ir grafikus, bet niekas nerašo „rašinėlių”, nes „nėra tam laiko”. Ir net ir geriausi grafikai lieka nebylūs. Galiausiai nusprendžiama, kad jie „neveikia”.

 

2) Į duomenis reikia žiūrėti kritiškai.

Ankstesniame pavyzdyje pateiktas grafikas nieko gero nepasakytų, jei žiūrėtume pagal oficialią diagnozės datą (geltonus stulpelius). Iš pirmo žvilgsnio atrodo teisinga vadovautis oficialia diagnozės data, o ne subjektyvia data kada žmogus pajuto pirmuosius simptomus.

Verslo įmonės labai dažnai analitikos ataskaitose prašo vadovautis tik oficialiais duomenimis, pvz sąskaitos faktūros data, o ne realiais, bet kiek subjektyviais faktais, pvz kada klientas pasakė „taip”. Kartais skirtumai tarp jų gali reikšmingai pakeisti įžvalgas ir priklausomybes, pavyzdžiui vertinant rinkodaros kampanijos efektyvumą datos poslinkis nuo pirminio kliento kontakto iki realaus pardavimo gali būti reikšmingas.

3) Tik „pjaustant” ir „gręžiant” duomenis galima prieiti įžvalgų.

Man labai patinka šis grafikas (šaltinis https://medium.com/@tomaspueyo/coronavirus-act-today-or-people-will-die-f4d3d9cd99ca)

grafikas rodantis kaip plinta virusas Kinijos regionuose

Jis parodo kaip daugėjo Corona atvejų Kinijos regionuose ir trijose kitose labiausiai viruso paveiktose valstybėse. Jei žiūrėti bendrus atvejus, tai viruso atsiradimo vietoje Hubėjaus provincoje jų yra dešimtimis kartų daugiau nei bet kur kitur. Todėl bendrame grafike jis ženkliai „uždominuotų” bet kokį kitą geografinę sritį. Todėl tik „nupjovus” Hubėjaus provinciją galima įžiūrėti kas darosi kitur. Kinijos gyventojų skaičiai dideli, ten bet kokia eilinė skaitlingesnė už bet daugumą pasaulio valstybių. Todėl būtina Kinijos duomenis gręžti iki sričių lygio, jas galima palyginti su trimis labiausiai paveiktomis valstybėmis – Pietų Korėja, Italija ir Iranu. Objektyviai bet kokia Kinijos sritis tiek geografiškai tiek socialiniu požiūriu daug arčiau Uhano nei šios valstybės. Ir matosi kad Kinijos „drakoniškos priemonės” duoda vaisių. Ten kreivės stabilizavosi, o kitur jos šauna į viršų.

Labai dažnai ir įmonėse tenka stebėti grafikus, kai vienos kokios prekės ar skyriais pardavimai užgožia kitus. Norint kažką įžvelgti pakraščiuose, kur labai dažnai slypi didžiulės galimybės, būtina dominuojančius dalykus išjungti arba susmulkinti.

4) Absoliutūs skaičiai yra niekas, jų santykiai yra viskas

Visur šmėžuoja skaičiai kiek užsikrėtusių kiek mirusių nuo Corona. Bet bent jau užsikrėtusių skaičius labai priklauso kiek yra tyrimų daroma. Įdomi šį lentelė:

testavimoi lentelė

 

 

Akivaizdu, kad daugiausiai testuojama ten kur ir daugiausiai sergama – Pietų Korėjoje, Italijoje. Ženkliai dagiau už kitus Didžioje Britanijoje, nors ten sergamumas vienas mažiausių. JAV skaičius iš viso juokingas 1 testas milijonui gyventojų. O teigiamų atsakymų kiekis didžiausias. Pakankamai mažai testuojama ir Suomijoje Įdomu kaip pasikeis sergamumas kai imsis (bus priverstos) testuotis labai rimtai? Netolima ateitis parodys.

Įdiegus analitikos sistemą pirmas dalykas ką klientai atranda – ne absoliučius dydžius, bet šių dydžių santykius: ne taip svarbu už kiek šiais metais pardavėm, bet kiek pardavėme šiais metais palyginus su praeitais metais vienam įmonės darbuotojui.

 

 

[Total: 0    Average: 0/5]

Comments are closed.