Logo no.boatexistence.com

Hva er feilene ved å beregne manglende verdier med gjennomsnitt?

Innholdsfortegnelse:

Hva er feilene ved å beregne manglende verdier med gjennomsnitt?
Hva er feilene ved å beregne manglende verdier med gjennomsnitt?

Video: Hva er feilene ved å beregne manglende verdier med gjennomsnitt?

Video: Hva er feilene ved å beregne manglende verdier med gjennomsnitt?
Video: How to find the missing value when given the mean 2024, Kan
Anonim

Mean imputation forvrenger sammenhenger mellom variabler Men gjennomsnittlig imputasjon forvrenger også multivariate sammenhenger og påvirker statistikk som korrelasjon. For eksempel beregner følgende kall til PROC CORR korrelasjonen mellom Orig_Height-variabelen og vekt- og aldersvariablene.

Hvorfor er det en dårlig idé å bruke et middel for manglende data?

Mean reduserer en varians av dataene Når man går dypere inn i matematikk, fører en mindre varians til et smalere konfidensintervall i sannsynlighetsfordelingen[3]. Dette fører ikke til noe annet enn å introdusere en skjevhet til modellen vår.

Hvorfor er manglende verdier et problem?

Manglende data byr på ulike problemer. For det første reduserer fraværet av data statistisk kraft, som refererer til sannsynligheten for at testen vil avvise nullhypotesen når den er usann. For det andre kan tapte data forårsake skjevhet i estimeringen av parametere. For det tredje kan det redusere representativiteten til prøvene.

Hvorfor er dårlig tilskrivning dårlig?

Problem 1: Gjennomsnittlig imputasjon bevarer ikke relasjonene mellom variabler. Riktignok bevarer gjennomsnittet av de observerte dataene ved å beregne gjennomsnittet. Så hvis dataene mangler helt tilfeldig, forblir anslaget av gjennomsnittet objektivt.

Bør du erstatte manglende data med gjennomsnittet?

Outliers datapunkter vil ha en betydelig innvirkning på gjennomsnittet, og derfor, i slike tilfeller, anbefales det ikke å bruke gjennomsnittet for å erstatte de manglende verdiene. Bruk av middelverdier for å erstatte manglende verdier skaper kanskje ikke en god modell, og blir derfor utelukket.

Anbefalt: