Moduł regresji liniowej może być używany do aproksymacji danych.
Modele regresji liniowej prostej, regresji ważonej oraz regresji IRLS wymagają atrybutów numerycznych. W celu wykorzystania kategorycznych zmiennych objaśniających konieczna jest ich transformacja do binarnych zmiennych zero-jednykowych. Binaryzacja może być przeprowadzona przed budową modelu lub podczas procesu budowy przez włączenie opcji by Automatycznej Transformacji Danych w General Algorithm Settings.
Żaden model z modułu Regresja Liniowa nie obsługuje braków danych dopóki nie zaznaczymy opcji Automatycznej Transformacji Danych w General Algorithm Settings. Innym sposobem użycia zbioru danych, w którym istnieją braki danych jest zastąpienie ich przed budową modelu lub przełączenie do Liberal Mode w ustawieniach algorytmu, aby automatycznie pomijać obserwacje zawierające braki danych.
Budowa i testowanie modelu przeprowadzane jest w sposób standardowy, pełna procedura opisana jest w rozdziale AdvancedMiner w Praktyce (zobacz: Aproximation). Pełna specyfikacja ustawień dla modelu zawiera takie elementy jak: General Algorithm Settings, Optimization Algorithm Settings, Variable Selection Settings oraz Transformation Settings.
Modelowanie regresją liniową kontrolowane jest za pomocą poniższych ustawień algorytmu (Algorithm Settings):
Tabela 26.1. Regresja Liniowa, Ważona oraz IRLS: General Algorithm Settings
Nazwa | Opis | Możliwe wartości | Wartość domyślna |
---|---|---|---|
Automatic Data Transformations | jeśli ustawiono TRUE automatyczne transformacje (np.: replaceMissing, binarization) powinny być wykonane, w przeciwnym przypadku operacje te nie zostaną wykonane. | TRUE / FALSE | FALSE |
Confidence level | wartość poziomu ufności przy wyznaczaniu przedziału ufności estymatorów dla parametrów modelu | liczby rzeczywiste z przedziału (0.5,1) | 0.95 |
Execute Init Tests | jeśli ustawiono TRUE wstępny test danych/zadania powinien być wykonany, w przeciwnym przypadku test nie wykona się | TRUE / FALSE | TRUE |
Group Statistics | jeśli ustawiono TRUE statystyki dla grup zmiennych powinny być wyliczane, w przeciwnym przypadku statystyki nie wyliczą się | TRUE / FALSE | TRUE |
Intercept | określa typ modelu: regresja liniowa z wyrazem wolnym jeśli ustawiono TRUE lub bez wyrazu wolnego gdy ustawiono FALSE | TRUE / FALSE | TRUE |
Liberal Execution Mode | jeśli ustawiono TRUE preferowany jest 'liberalny' tryb wykonywania algorytmu, w przeciwnym przypadku algorytm wykonywany jest standardowo | TRUE / FALSE | TRUE |
Preselection | określa czy wyznaczać statystykę p-value dla modeli jednowymiarowych | TRUE / FALSE | FALSE |
Model jednowymiarowy. Jest to model zawierający tylko wyraz wolny (jeśli opcja Intercept jest ustawiona na TRUE), pojedynczą zmienną objaśniającą oraz zmienną zależną (target).
Istnieje kilka dodatkowych ustawień algorytmów niezbędnych przy modelach regresji WLS i IRLS.
Tabela 26.2. Regresja WLS i IRLS: dodatkowe ustawienia (Algorithm Settings)
Nazwa | Opis | Możliwe wartości | Wartość domyślna |
---|---|---|---|
Weight Tuning Constant | stała używana w funkcjach ważenia | dowolna liczba rzeczywista większa niż 0.001 | 1.345 |
Typy Wag | funkcja używana przy wyznaczaniu wag w każdej iteracji | student/huber | huber |
Regresja IRLS posiada także specyficzne ustawienia do kontroli algorytmu optymalizacji nieliniowej: Optimization Algorithm Settings.
Oprócz ustawień specyficznych dla algorytmów regresji użytkownik może używać:
Variable Selection Settings - w celu kontrolowania zachowania osiąganej heurystyki dla budowanego modelu; ustawienia te są opisane w rozdziale Automatic Variable Selection
Transformation Settings - w celu kontrolowania sposobu transformacji danych; ustawienia te są opisane w rozdziale Transformacje.
Wyniki modelu raportowane są w obiekcie modelStatistics . Finalny model zawiera następujące statystyki: Variable Statistics, Group Statistics (tylko, gdy opcja Group Statistics jest włączona), Model Fit Statistics, Variable Selection Statistics (tylko, gdy Variable Selection Method jest ustawiona na: forward, backward lub stepwise), Coefficient Correlation i Covariance Matrices oraz Attributes Correlation Matrix.
Tabela 26.3. Statystyki Modelu Regresji Liniowej: Variables Statistics
Nazwa | Opis |
---|---|
Univariate Pr>F | wartość p-value dla statystyki Type2SS wyznaczanej dla modelu jednowymiarowego. Statystyka jest wyliczana tylko jeśli opcja Preselection została zaznaczona w ustawieniach algorytmu |
Coeff | wartość estymowanego parametru |
F-test | wartość statystyki Fisher'a |
Lower Confidence | dolna wartość granicy przedziału ufności dla danego estymatora. Przedział ufności jest wyznaczany dla określonego w ustawieniach algorytmu poziomu ufności (zobacz Przedział Ufności) |
Pr>|t| |
wartość p-value dla statystyki
t-Student
estymatora parametru modelu.
Testowana statystyka ma rozkład t-Studenta o
![]() ![]() ![]() ![]() |
Standard Coeff | standaryzowany współczynnik regresji |
StdErr | odchylenie standardowe estymatora parametru |
tolerance | odwrotność VIF |
t-test | wartość statystyki t-Student |
Type2SS | wartość statystyki Type2SS |
Upper Confidence | górna wartość granicy przedziału ufności dla danego estymatora. Przedział ufności jest wyznaczany dla określonego w ustawieniach algorytmu poziomu( Poziom Ufności) |
VIF | wartość VIF |
Variable | nazwa atrybutu |
Standaryzowane współczynniki regresji wyznaczane są tylko dla zmiennych objaśniających; w standaryzowanym równaniu regresji nie ma wyrazu wolnego.
Statystyka Fisher'a dla k-tej zmiennej jest zdefiniowana jako:
gdzie
jest
wariancją modelu. Statystyka ta
odzwierciedla zmianę w SSE modelu, która jest wynikiem
usunięcia danej zmiennej z modelu.
Statystyka estymuje istotność zmiennej poprzez pomiar zmiany sumy kwadratów residuów (SSE) uzyskanej przez usunięcie k-tej zmiennej z modelu.
Statystyka t-Studenta dla k-tego współczynnika estymacji
jest wyznaczana jako
gdzie
jest k-tym elementem diagonalnym
macierzy
.
The Statystyka VIF jest określona jako:
gdzie
jest statystyką
modelu opisującego zależność
od pozostałych zmiennych objaśniających,
jest j-tym elementem diagonali macierzy
, natomiast
Tabela 26.4. Statystyki Modelu Regresji Liniowej: Model Fit Statistics
Nazwa | Opis |
---|---|
AdjRsq |
wartość skorygowanego współczynnika
determinacji
![]() |
dfE |
liczba stopni swobody dla statystyk SSE i MSE
=
![]() ![]() ![]() ![]() |
dfR | liczba stopni swobody dla statystyk SSR i MSR; równa jest liczbie zmiennyc w modelu (biorąc pod uwagę ewentualny wyraz wolny) |
dfT | liczba stopni swobody statystyki SST; równa jest liczbie obserwacji w zbiorze danych |
F-test | wartość statystyki Fisher'a |
MSE | średni błąd residuów |
MSR | średni błąd regresji |
Pr>F |
wartość p-value dla
statystyki
Fisher'a
dla modelu. Statystyka ma rozkład
Fisher'a z
![]() ![]() ![]() ![]() |
Rsq |
Wartość statystyki
![]() |
SSE | suma kwadratów reszt (residuów) |
SSR | suma kwadratów odchyleń czynników regresji |
SST | całkowita suma kwadratów odchyleń |
s | odchylenie standardowe dla estymowanego modelu |
Skorygowana statystyka
jest zdefiniowana
jako:
gdzie
jest liczbą obserwacji w
próbie,
jest liczbą zmiennych w
modelu,
dla modelu bez interceptu, natomiast
dla modelu z interceptem (
zobacz
intercept
).
Statystyka Fisher'a jest zdefiniowana jako:
gdzie p jest liczbą zmiennych w modelu, natomiast
jest
wariancją modelu.
Średni błąd reszt (residuów) jest wyznaczany jako:
gdzie n jest liczbą obserwacji w zbiorze danych, p
jest liczbą zmiennych w modelu oraz
odnosi się do
opcjonalnego wyrazu wolnego
(intercept).
Średni błąd regresji jest wyznaczony jako:
gdzie p jest liczbą zmiennych w modelu.
W powiązaniu z regresją wieloraką statystyka
jest zdefiniowana jako:
.
jest współczynnikiem korelacji
wielorakiej, który odzwierciedla procent wariancji
zmienej zależnej objaśnianej wspólnie przez wszystkie
zmienne niezależne.
Wariancja modelu wyznaczana jest jako:
Suma kwadratów reszt (Sum of Squared Errors = SSE) jest zdefiniowana jako suma
kwadratów odległości pomiędzy obserwowaną wartością zmiennej
zależnej
predykowaną wartością zmiennej
zależnej
:
gdzie
wynika
z dopasowania modelu dla i-tej wartości.
Błąd wyjaśniany przez regresję (Sum of Squared Regression = SSR) jest
zdefiniowany jako
.
Wariancja zmiennej zależnej (The Total Sum of Squares = SST) jest
zdefiniowana jako:
.
Tabela 26.5. Statystyki Modelu Regresji Liniowej: Group Statistics
Nazwa | Opis | |
---|---|---|
Variable | nazwa atrybutu | |
DF | liczba stopni swobody zmiennej lub grupy zmiennych; w drugim przypadku liczba stopni swobody równa jest liczbie estymowanych parametrów czyli liczbie zmiennych w grupie | |
Wald Stat | wartość statysytki residuów (extra sum of squares), która porównuje pełny model z modelem, z którego dana zmienna jest usunięta. | |
Wald Pr>F | wartość p-value dla statystyki residuów | |
Univariate Pr>F | wartość p-value dla statystyki Likelihood Ratio dla modelu zawierającego tylko zmienną (lub grupę zmiennych) (i ewentualnie wyraz wolny ). Statysytyka jest wyliczana tylko, gdy opcja preselection = TRUE |
Statystyka residuów dla danej zmiennej jest wyznaczana zgodnie z wyrażeniem
gdzie
jest liczbą obserwacji w próbie,
jest liczbą zmiennych,
jeśli opcja
intercept jest ustawiona na
TRUE, w przeciwnym przypadku
jest
statystyką SSR dla
pełnego modelu,
jest statystyką SSR dla modelu zredukowanego (bez danej
zmiennej), natomiast
jest
statystyką SSE dla pełnego modelu.
Tabela 26.6. Statystyki Modelu Regresji Liniowej: Variable Selection Statistics
Nazwa | Opis |
---|---|
#step | iteracja algorytmu selekcji zmiennych |
variable/group | nazwa atrybutu (grupy atrybutów) |
operation | przeprowadzona akcja (remove / insert) na zmiennej podczas procesu automatycznej selekcji zmiennych |
score | wartość Statystyki Residuów |
p-value | wartość p-value dla statystyki residuów |
W przypadku wybrania metody best subset dla algorytmu selekcji zmiennych opcje w Variable Selection Statistics różnią się.
Tabela 26.7. Statystyki Modelu Regresji Liniowej: Variable Selection Statistics: best subset
Nazwa | Opis |
---|---|
# | iteracja algorytmu selekcji zmiennych |
model | najlepszy model z modeli danego rozmiaru |
size | rozmiar modelu |
score | wartość Scoring Statistic dla danego modelu |
Dodatkowo, obliczane i wyświetlane są zarówno macierze kowariancji i korelacji estymatorów współczynników jak i macierz korelacji atrybutów:
Tabela 26.8. Statystyki Modelu Regresji Liniowej: Coefficient / Attributes Correlation and Covariance
Nazwa | Opis |
---|---|
Coefficient/ Attributes Correlation | macierz korelacji estymowanych danych |
Covariance Matrix | macierz kowariancji estymowanych danych |
Macierz korelacji dla estymatorów parametrów jest obliczana jako:
gdzie
są
-tymi elementami
macierzy kowariancji
estymatorów parametrów.
Korelacja pomiędzy atrybutami wyznaczana jest w standardowy sposób.
Macierz kowariancji estymatorów parametrów jest wyznaczana jako:
gdzie
jest odchyleniem standardowym
modelu,
jest wektorem parametrów natomiast
jest macierzą
zmiennych niezależnych.
Należy zauważyć, iż zarówno macierz korelacji jak i kowariancji są symetryczne i dodatnio określone.
Wyestymowany i przetestowany model może być użyty do prognozowania zmiennej zależnej, diagnostyk modelu i wykrywania wartości odstających. Tabela poniżej prezentuje możliwe typy rezultatów i ich opis.
W celu wyjaśnienia poniższych statytyk potrzebujemy wprowadzić pewną notację. Zdefiniujmy macierz HAT jako:
gdzie X jest macierzą zmiennych niezależnych,
jet k-tym elementem diagonali
macierzy HAT. Niech
jest wariancją
modelu bez k-tej obserwacji,
obliczaną jako:
gdzie jest
czynnikiem losowym (błędem) k-tej obserwacji, natomiast
odnosi się do
opcjonalnego wyrazu wolnego (intercept).
Tabela 26.9. Aproksymacja - Output items i output types
output type | output item type | opis |
---|---|---|
predictedValue | aprox | zwraca predykowaną wartość wyznaczaną przez aproksymator |
confidence | aprox | zwraca prawdopodobieństwo, że aproksymowana wartość jest prawdziwa. To jak ta wartość będzie wyliczana, zależy od konkretnego algorytmu, który jest używany. Szczegóły znajdują się w rodziale opisującym dany algorytm/moduł. |
cookDistance | regresja liniowa | ![]() ![]() |
dfbetas | regresja liniowa | Statystyki DFBETAS są obliczane dla każdej obserwacji w zbiorze
i dla każdego atrybutu modelu. Dla każdego atrybutu v,
![]() ![]() ![]() ![]() |
dffits | regresja liniowa | ![]() |
leverage | regresja liniowa | ![]() |
press | regresja liniowa | ![]() |
rstudentResidual | regresja liniowa | ![]() |
studentResidual | regresja liniowa | ![]() |