Użycie

Moduł regresji liniowej może być używany do aproksymacji danych.

Wymogi dotyczące danych

Modele regresji liniowej prostej, regresji ważonej oraz regresji IRLS wymagają atrybutów numerycznych. W celu wykorzystania kategorycznych zmiennych objaśniających konieczna jest ich transformacja do binarnych zmiennych zero-jednykowych. Binaryzacja może być przeprowadzona przed budową modelu lub podczas procesu budowy przez włączenie opcji by Automatycznej Transformacji Danych w General Algorithm Settings.

Żaden model z modułu Regresja Liniowa nie obsługuje braków danych dopóki nie zaznaczymy opcji Automatycznej Transformacji Danych w General Algorithm Settings. Innym sposobem użycia zbioru danych, w którym istnieją braki danych jest zastąpienie ich przed budową modelu lub przełączenie do Liberal Mode w ustawieniach algorytmu, aby automatycznie pomijać obserwacje zawierające braki danych.

Budowa i testowanie modelu

Budowa i testowanie modelu przeprowadzane jest w sposób standardowy, pełna procedura opisana jest w rozdziale AdvancedMiner w Praktyce (zobacz: Aproximation). Pełna specyfikacja ustawień dla modelu zawiera takie elementy jak: General Algorithm Settings, Optimization Algorithm Settings, Variable Selection Settings oraz Transformation Settings.

Ustawienia algorytmu

Modelowanie regresją liniową kontrolowane jest za pomocą poniższych ustawień algorytmu (Algorithm Settings):

Tabela 26.1. Regresja Liniowa, Ważona oraz IRLS: General Algorithm Settings

NazwaOpisMożliwe wartościWartość domyślna
Automatic Data Transformations jeśli ustawiono TRUE automatyczne transformacje (np.: replaceMissing, binarization) powinny być wykonane, w przeciwnym przypadku operacje te nie zostaną wykonane. TRUE / FALSEFALSE
Confidence level wartość poziomu ufności przy wyznaczaniu przedziału ufności estymatorów dla parametrów modelu liczby rzeczywiste z przedziału (0.5,1)0.95
Execute Init Tests jeśli ustawiono TRUE wstępny test danych/zadania powinien być wykonany, w przeciwnym przypadku test nie wykona się TRUE / FALSETRUE
Group Statistics jeśli ustawiono TRUE statystyki dla grup zmiennych powinny być wyliczane, w przeciwnym przypadku statystyki nie wyliczą się TRUE / FALSETRUE
Intercept określa typ modelu: regresja liniowa z wyrazem wolnym jeśli ustawiono TRUE lub bez wyrazu wolnego gdy ustawiono FALSE TRUE / FALSETRUE
Liberal Execution Mode jeśli ustawiono TRUE preferowany jest 'liberalny' tryb wykonywania algorytmu, w przeciwnym przypadku algorytm wykonywany jest standardowo TRUE / FALSETRUE
Preselection określa czy wyznaczać statystykę p-value dla modeli jednowymiarowych TRUE / FALSEFALSE

Model jednowymiarowy.  Jest to model zawierający tylko wyraz wolny (jeśli opcja Intercept jest ustawiona na TRUE), pojedynczą zmienną objaśniającą oraz zmienną zależną (target).

Rysunek 26.2. Regresja liniowa: okno General Algorithm Settings

Regresja liniowa: okno General Algorithm Settings

Istnieje kilka dodatkowych ustawień algorytmów niezbędnych przy modelach regresji WLS i IRLS.

Tabela 26.2. Regresja WLS i IRLS: dodatkowe ustawienia (Algorithm Settings)

NazwaOpisMożliwe wartościWartość domyślna
Weight Tuning Constantstała używana w funkcjach ważeniadowolna liczba rzeczywista większa niż 0.0011.345
Typy Wag funkcja używana przy wyznaczaniu wag w każdej iteracji student/huberhuber

Regresja IRLS posiada także specyficzne ustawienia do kontroli algorytmu optymalizacji nieliniowej: Optimization Algorithm Settings.

Oprócz ustawień specyficznych dla algorytmów regresji użytkownik może używać:

  • Variable Selection Settings - w celu kontrolowania zachowania osiąganej heurystyki dla budowanego modelu; ustawienia te są opisane w rozdziale Automatic Variable Selection

  • Transformation Settings - w celu kontrolowania sposobu transformacji danych; ustawienia te są opisane w rozdziale Transformacje.

Statystyki modelu

Wyniki modelu raportowane są w obiekcie modelStatistics . Finalny model zawiera następujące statystyki: Variable Statistics, Group Statistics (tylko, gdy opcja Group Statistics jest włączona), Model Fit Statistics, Variable Selection Statistics (tylko, gdy Variable Selection Method jest ustawiona na: forward, backward lub stepwise), Coefficient Correlation i Covariance Matrices oraz Attributes Correlation Matrix.

Tabela 26.3. Statystyki Modelu Regresji Liniowej: Variables Statistics

NazwaOpis
Univariate Pr>F wartość p-value dla statystyki Type2SS wyznaczanej dla modelu jednowymiarowego. Statystyka jest wyliczana tylko jeśli opcja Preselection została zaznaczona w ustawieniach algorytmu
Coeffwartość estymowanego parametru
F-test wartość statystyki Fisher'a
Lower Confidence dolna wartość granicy przedziału ufności dla danego estymatora. Przedział ufności jest wyznaczany dla określonego w ustawieniach algorytmu poziomu ufności (zobacz Przedział Ufności)
Pr>|t| wartość p-value dla statystyki t-Student estymatora parametru modelu. Testowana statystyka ma rozkład t-Studenta o stopniach swobody, gdzie liczbą obserwacji, jest liczbą zmiennych w modelu, natomiast odnosi się do opcjonalnego wyrazu wolnego (intercept).
Standard Coeffstandaryzowany współczynnik regresji
StdErr odchylenie standardowe estymatora parametru
tolerance odwrotność VIF
t-test wartość statystyki t-Student
Type2SS wartość statystyki Type2SS
Upper Confidence górna wartość granicy przedziału ufności dla danego estymatora. Przedział ufności jest wyznaczany dla określonego w ustawieniach algorytmu poziomu( Poziom Ufności)
VIF wartość VIF
Variable nazwa atrybutu

Notatka

Standaryzowane współczynniki regresji wyznaczane są tylko dla zmiennych objaśniających; w standaryzowanym równaniu regresji nie ma wyrazu wolnego.

Statystyka Fisher'a

Statystyka Fisher'a dla k-tej zmiennej jest zdefiniowana jako:

gdzie jest wariancją modelu. Statystyka ta odzwierciedla zmianę w SSE modelu, która jest wynikiem usunięcia danej zmiennej z modelu.

Statystyka Type2SS

Statystyka estymuje istotność zmiennej poprzez pomiar zmiany sumy kwadratów residuów (SSE) uzyskanej przez usunięcie k-tej zmiennej z modelu.

Statystyka t-Student

Statystyka t-Studenta dla k-tego współczynnika estymacji jest wyznaczana jako

gdzie jest k-tym elementem diagonalnym macierzy .

Variance Inflation Factor

The Statystyka VIF jest określona jako:

gdzie jest statystyką modelu opisującego zależność od pozostałych zmiennych objaśniających, jest j-tym elementem diagonali macierzy , natomiast

Tabela 26.4. Statystyki Modelu Regresji Liniowej: Model Fit Statistics

NazwaOpis
AdjRsq wartość skorygowanego współczynnika determinacji
dfE liczba stopni swobody dla statystyk SSE i MSE = , gdzie jest liczbą obserwacji , jest liczbą zmiennych w modelu, natomiast odnosi się do opcjonalnego wyrazu wolnego (intercept).
dfR liczba stopni swobody dla statystyk SSR i MSR; równa jest liczbie zmiennyc w modelu (biorąc pod uwagę ewentualny wyraz wolny)
dfT liczba stopni swobody statystyki SST; równa jest liczbie obserwacji w zbiorze danych
F-test wartość statystyki Fisher'a
MSE średni błąd residuów
MSR średni błąd regresji
Pr>F wartość p-value dla statystyki Fisher'a dla modelu. Statystyka ma rozkład Fisher'a z stopniami swobody, gdzie jest liczbą obserwacji, jest liczbą zmiennych w modelu, natomiast odnosi się do opcjonalnego wyrazu wolnego (intercept).
Rsq Wartość statystyki
SSE suma kwadratów reszt (residuów)
SSR suma kwadratów odchyleń czynników regresji
SST całkowita suma kwadratów odchyleń
s odchylenie standardowe dla estymowanego modelu
Statystyka AdjRsq

Skorygowana statystyka jest zdefiniowana jako:

gdzie jest liczbą obserwacji w próbie, jest liczbą zmiennych w modelu, dla modelu bez interceptu, natomiast dla modelu z interceptem ( zobacz intercept ).

Statystyka Fisher'a

Statystyka Fisher'a jest zdefiniowana jako:

gdzie p jest liczbą zmiennych w modelu, natomiast jest wariancją modelu.

MSE

Średni błąd reszt (residuów) jest wyznaczany jako: gdzie n jest liczbą obserwacji w zbiorze danych, p jest liczbą zmiennych w modelu oraz odnosi się do opcjonalnego wyrazu wolnego (intercept).

MSR

Średni błąd regresji jest wyznaczony jako: gdzie p jest liczbą zmiennych w modelu.

Rsq ()

W powiązaniu z regresją wieloraką statystyka jest zdefiniowana jako: .

jest współczynnikiem korelacji wielorakiej, który odzwierciedla procent wariancji zmienej zależnej objaśnianej wspólnie przez wszystkie zmienne niezależne.

Wariancja ()

Wariancja modelu wyznaczana jest jako:

SSE

Suma kwadratów reszt (Sum of Squared Errors = SSE) jest zdefiniowana jako suma kwadratów odległości pomiędzy obserwowaną wartością zmiennej zależnej predykowaną wartością zmiennej zależnej :

gdzie wynika z dopasowania modelu dla i-tej wartości.

SSR

Błąd wyjaśniany przez regresję (Sum of Squared Regression = SSR) jest zdefiniowany jako .

SST

Wariancja zmiennej zależnej (The Total Sum of Squares = SST) jest zdefiniowana jako: .

Tabela 26.5. Statystyki Modelu Regresji Liniowej: Group Statistics

NazwaOpis
Variablenazwa atrybutu
DF liczba stopni swobody zmiennej lub grupy zmiennych; w drugim przypadku liczba stopni swobody równa jest liczbie estymowanych parametrów czyli liczbie zmiennych w grupie
Wald Stat wartość statysytki residuów (extra sum of squares), która porównuje pełny model z modelem, z którego dana zmienna jest usunięta.
Wald Pr>F wartość p-value dla statystyki residuów  
Univariate Pr>F wartość p-value dla statystyki Likelihood Ratio dla modelu zawierającego tylko zmienną (lub grupę zmiennych) (i ewentualnie wyraz wolny ). Statysytyka jest wyliczana tylko, gdy opcja preselection = TRUE  
Statystyka residuów

Statystyka residuów dla danej zmiennej jest wyznaczana zgodnie z wyrażeniem

gdzie jest liczbą obserwacji w próbie, jest liczbą zmiennych, jeśli opcja intercept jest ustawiona na TRUE, w przeciwnym przypadku jest statystyką SSR dla pełnego modelu, jest statystyką SSR dla modelu zredukowanego (bez danej zmiennej), natomiast jest statystyką SSE dla pełnego modelu.

Rysunek 26.3. Statystyki Modelu Regresji Liniowej okno: Group Statistics

Statystyki Modelu Regresji Liniowej okno: Group Statistics

Tabela 26.6. Statystyki Modelu Regresji Liniowej: Variable Selection Statistics

NazwaOpis
#step iteracja algorytmu selekcji zmiennych
variable/groupnazwa atrybutu (grupy atrybutów)
operationprzeprowadzona akcja (remove / insert) na zmiennej podczas procesu automatycznej selekcji zmiennych
scorewartość Statystyki Residuów
p-valuewartość p-value dla statystyki residuów

W przypadku wybrania metody best subset dla algorytmu selekcji zmiennych opcje w Variable Selection Statistics różnią się.

Tabela 26.7. Statystyki Modelu Regresji Liniowej: Variable Selection Statistics: best subset

NazwaOpis
#iteracja algorytmu selekcji zmiennych
modelnajlepszy model z modeli danego rozmiaru
sizerozmiar modelu
score wartość Scoring Statistic dla danego modelu

Rysunek 26.4. Statystyki Modelu Regresji Liniowej okno: Variable Selection Statistics

Statystyki Modelu Regresji Liniowej okno: Variable Selection Statistics

Rysunek 26.5. Statystyki Modelu Regresji Liniowej okno: Variable Selection Statistics: best subset

Statystyki Modelu Regresji Liniowej okno: Variable Selection Statistics: best subset

Dodatkowo, obliczane i wyświetlane są zarówno macierze kowariancji i korelacji estymatorów współczynników jak i macierz korelacji atrybutów:

Tabela 26.8. Statystyki Modelu Regresji Liniowej: Coefficient / Attributes Correlation and Covariance

NazwaOpis
Coefficient/ Attributes Correlation macierz korelacji estymowanych danych
Covariance Matrix macierz kowariancji estymowanych danych
Korelacji

Macierz korelacji dla estymatorów parametrów jest obliczana jako:

gdzie -tymi elementami macierzy kowariancji estymatorów parametrów.

Korelacja pomiędzy atrybutami wyznaczana jest w standardowy sposób.

Macierz Kowariancji

Macierz kowariancji estymatorów parametrów jest wyznaczana jako:

gdzie jest odchyleniem standardowym modelu, jest wektorem parametrów natomiast jest macierzą zmiennych niezależnych.

Należy zauważyć, iż zarówno macierz korelacji jak i kowariancji są symetryczne i dodatnio określone.

Zastosowanie modelu

Wyestymowany i przetestowany model może być użyty do prognozowania zmiennej zależnej, diagnostyk modelu i wykrywania wartości odstających. Tabela poniżej prezentuje możliwe typy rezultatów i ich opis.

W celu wyjaśnienia poniższych statytyk potrzebujemy wprowadzić pewną notację. Zdefiniujmy macierz HAT jako:

gdzie X jest macierzą zmiennych niezależnych, jet k-tym elementem diagonali macierzy HAT. Niech jest wariancją modelu bez k-tej obserwacji, obliczaną jako:

gdzie jest czynnikiem losowym (błędem) k-tej obserwacji, natomiast odnosi się do opcjonalnego wyrazu wolnego (intercept).

Tabela 26.9. Aproksymacja - Output items i output types

output typeoutput item type opis
predictedValueaproxzwraca predykowaną wartość wyznaczaną przez aproksymator
confidenceaproxzwraca prawdopodobieństwo, że aproksymowana wartość jest prawdziwa. To jak ta wartość będzie wyliczana, zależy od konkretnego algorytmu, który jest używany. Szczegóły znajdują się w rodziale opisującym dany algorytm/moduł.
cookDistanceregresja liniowa, gdzie odnosi się do opcjonalnego wyrazu wolnego( intercept).
dfbetasregresja liniowaStatystyki DFBETAS są obliczane dla każdej obserwacji w zbiorze i dla każdego atrybutu modelu. Dla każdego atrybutu v, tworzona jest kolumna w tabeli wynikowej.
gdzie jest v-tym parametrem estymacji, jest v-tym parametrem estymacji po usunięciu k-tej obserwacji.
dffitsregresja liniowa
leverageregresja liniowa
pressregresja liniowa
rstudentResidualregresja liniowa
studentResidualregresja liniowa