Statistični podatki: zbiranje, obdelava, analiza

Kazalo:

Statistični podatki: zbiranje, obdelava, analiza
Statistični podatki: zbiranje, obdelava, analiza
Anonim

Skozi zgodovino statistike so bili različni poskusi oblikovanja taksonomije merskih stopenj. Psihofizik Stanley Smith Stevens je definiral nominalno, ordinalno, intervalno in proporcionalno lestvico.

Nominalne meritve nimajo pomembnega vrstnega reda med vrednostmi in omogočajo kakršno koli pretvorbo ena proti ena.

Navadne dimenzije imajo nenatančne razlike med zaporednimi vrednostmi, vendar imajo določen vrstni red teh vrednosti in omogočajo kakršno koli pretvorbo, ki ohranja vrstni red.

Intervalne meritve imajo pomembne razdalje med točkami, vendar je ničelna vrednost poljubna (kot v primeru meritev dolžine in temperature v Celziju ali Fahrenheitu) in omogoča kakršno koli linearno transformacijo.

Razmere razmerja imajo tako smiselno ničelno vrednost kot razdalje med različnimi dimenzijami ter omogočajo kakršno koli preoblikovanje skaliranja.

Image
Image

Spremenljivke in klasifikacija informacij

Ker so spremenljivkeki ustrezajo samo nazivnim ali rednim meritvam, ni mogoče razumno izmeriti številčno in so včasih združene kot kategorične spremenljivke. Meritve razmerja in intervala so združene kot kvantitativne spremenljivke, ki so zaradi svoje številčne narave lahko diskretne ali zvezne. Takšna razlikovanja so pogosto ohlapno povezana s podatkovnim tipom v računalniški znanosti, saj so dihotomne kategorične spremenljivke lahko predstavljene z logičnimi vrednostmi, politomne kategorične spremenljivke s poljubnimi celimi števili v integralnem podatkovnem tipu in neprekinjene spremenljivke z realnimi komponentami, ki vključujejo izračun s plavajočo vejico. Toda prikaz podatkovnih tipov statističnih informacij je odvisen od uporabljene klasifikacije.

Statistični podatki o delavcih
Statistični podatki o delavcih

Druge klasifikacije

Ustvarjene so bile tudi druge klasifikacije statističnih podatkov (informacij). Na primer, Mosteller in Tukey sta razlikovala med razredi, uvrstitvami, štetimi deleži, štetji, zneski in stanjem. Nelder je nekoč opisal neprekinjeno štetje, neprekinjena razmerja, korelacijo štetja in kategorične načine sporočanja podatkov. Vse te metode razvrščanja se uporabljajo pri zbiranju statističnih informacij.

Probleme

Vprašanje, ali je primerno uporabiti različne vrste statističnih metod za podatke, pridobljene z različnimi postopki merjenja (zbiranja), je zapleteno zaradi vprašanj, povezanih s pretvorbo spremenljivk in natančno interpretacijo vprašanjraziskave. »Razmerje med podatki in tem, kar opisuje, preprosto odraža dejstvo, da imajo lahko nekatere vrste statističnih izjav resnične vrednosti, ki niso nespremenljive pri določenih transformacijah. Ali je preoblikovanje vredno razmisliti, je odvisno od vprašanja, na katero poskušate odgovoriti.

Primer statističnih podatkov
Primer statističnih podatkov

Kaj je vrsta podatkov

Podatkovni tip je temeljna komponenta semantične vsebine spremenljivke in nadzoruje, katere vrste verjetnostnih porazdelitev se lahko logično uporabijo za opis spremenljivke, operacije, ki so na njej dovoljene, vrsto regresijske analize, ki se uporablja za njeno napovedovanje., itd. Koncept podatkovnega tipa je podoben glede koncepta merske ravni, vendar bolj specifičen - na primer štetje podatkov zahteva drugačno porazdelitev (Poissonovo ali binomsko) kot za nenegativne realne vrednosti, vendar obe spadata pod isto raven meritve (lestvica koeficientov).

Statistični podatki o sodnikih
Statistični podatki o sodnikih

Tehtnice

Opravljeni so bili različni poskusi izdelave taksonomije merilnih ravni za obdelavo statističnih informacij. Psihofizik Stanley Smith Stevens je definiral nominalno, ordinalno, intervalno in proporcionalno lestvico. Nominalne meritve nimajo pomembnega vrstnega reda med vrednostmi in omogočajo kakršno koli pretvorbo ena proti ena. Običajne meritve imajo nenatančne razlike med zaporednimi vrednostmi, vendar se razlikujejo po pomembnem vrstnem redu teh vrednosti in omogočajokakršna koli transformacija, ki ohranja red. Intervalne meritve imajo pomembne razdalje med meritvami, vendar je ničelna vrednost poljubna (kot v primeru meritev dolžine in temperature v Celziju ali Fahrenheitu) in omogoča kakršno koli linearno transformacijo. Razsežnosti razmerja imajo tako smiselno ničelno vrednost kot razdalje med različnimi definiranimi dimenzijami ter omogočajo kakršno koli preoblikovanje skaliranja.

Model diagrama
Model diagrama

Podatki, ki jih ni mogoče opisati z enim samim številom, so pogosto vključeni v naključne vektorje resničnih naključnih spremenljivk, čeprav raste trend, da jih sami obdelate. Takšni primeri bodo obravnavani spodaj.

Naključni vektorji

Posamezni elementi so lahko povezani ali pa tudi ne. Primera porazdelitev, uporabljenih za opis koreliranih naključnih vektorjev, sta multivariatna normalna porazdelitev in multivariatna t-distribucija. Na splošno lahko obstajajo poljubne korelacije med katerimi koli elementi, vendar to pogosto postane neobvladljivo nad določeno velikostjo, kar zahteva dodatne omejitve za povezane komponente.

statistični atributi
statistični atributi

Naključne matrike

Naključne matrike je mogoče razporediti linearno in jih obravnavati kot naključne vektorje, vendar to morda ni učinkovit način za predstavitev korelacije med različnimi elementi. Nekatere porazdelitve verjetnosti so posebej zasnovane za naključne matrike, kot je normalna matrikadistribucija in distribucija Wishart.

Naključna zaporedja

Včasih veljajo za enake naključnim vektorjem, v drugih primerih pa se izraz uporablja posebej za primere, ko vsaka naključna spremenljivka korelira samo z bližnjimi spremenljivkami (kot v Markovem modelu). To je poseben primer Bayesove mreže in se uporablja za zelo dolga zaporedja, kot so genske verige ali dolgi besedilni dokumenti. Številni modeli so posebej zasnovani za takšne sekvence, kot so skrite Markove sekvence.

Tipičen grafikon
Tipičen grafikon

Naključni procesi

Podobna so naključnim zaporedjem, vendar le, če je dolžina zaporedja nedoločena ali neskončna in se elementi v zaporedju obdelajo enega za drugim. To se pogosto uporablja za podatke, ki jih lahko opišemo kot časovne vrste. To velja, ko gre na primer za ceno delnice naslednji dan.

Sklep

Analiza statističnih informacij je v celoti odvisna od kakovosti njihovega zbiranja. Slednje pa je močno povezano z možnostmi njegove klasifikacije. Seveda obstaja veliko vrst klasifikacij statističnih informacij, v kar se lahko bralec prepriča ob branju tega članka. Kljub temu bodo prisotnost učinkovitih orodij in dobro obvladovanje matematike ter znanja s področja sociologije opravili svoje delo, kar vam bo omogočilo izvedbo kakršne koli ankete ali študije brez pomembnih popravkov za napake. Viri statističnih informacij v obrazculjudje, organizacije in drugi subjekti sociologije so na srečo zastopani v izobilju. In nobena težava ne more stati na poti pravemu raziskovalcu.

Priporočena: