Imputacja – sztuczne wstawienie pewnych wartości do tabeli danych. Na ogół imputacja jest wykonywana w celu usunięcia tzw. braków danych, czyli wartości nieznanych. Wiele metod statystycznych nie akceptuje bowiem obserwacji z brakami danych.

Istnieje wiele różnych metod uzupełniania braków danych (ang. missing data imputation), najprostszą jest zastąpienie braków danych średnią ze wszystkich wartości danej zmiennej w próbce.

Imputacja wielokrotna

edytuj

Zaawansowaną, a przy tym uniwersalną metodą imputacji jest imputacja wielokrotna (ang. Multiple Imputation) Rubina[1]. Metoda ta działa w następujący sposób:

Niech   jest dowolną metodą statystyczną wymagającą kompletnych danych, której dane wejściowe to   a dane wyjściowe to   Załóżmy, że nasze dane   mają braki danych, a chcielibyśmy zastosować metodę  

1. Estymujemy parametry wielowymiarowego rozkładu   danych  
2. Wykonujemy w pętli dużą liczbę razy, dla   następujące czynności:

2a. Uzupełniamy braki danych w   wartościami wylosowanymi z rozkładu   uzyskując  
2b. Stosujemy metodę   czyli wyliczamy  

3. Łączymy (uśredniamy) wyniki   aby otrzymać   Algorytm łączenia musi być dobrany do metody   W przypadku metod, dla których   jest liczbą rzeczywistą, może to być np. średnia arytmetyczna. W przypadku niektórych metod (np. analiza skupień) łączenie nie jest trywialne i może być wręcz niemożliwe.

Przypisy

edytuj
  1. D.B. Rubin: Multiple Imputation for Nonresponse in Surveys. New York: J. Wiley & Sons, 1987.

Linki zewnętrzne

edytuj