Zbiór danych do budowy modelu regresji logistycznej powinien zawierać zestaw numerycznych zmiennych objaśniających (aktywnych lub obowiązkowych) i binarną zmienną objaśnianą - target. Aby użyć w modelu zmiennych kategorycznych, muszą być one przekształcone w zestawy pomocniczych zmiennych zerojedynkowych (tzw. binaryzacja). Binaryzacja może być przeprowadzona przed budową modelu albo w trakcie procesu estymacji (jeżeli zaznaczona została opcja Automatic Data Transformation w General Algorithm Settings.
Brakujące wartości (Missing values) w danych nie są wspierane przez moduł Regresja logistyczna, jeżeli w obiekcie General Algorithm Settings nie wybrano opcji Automatic Data Transformation. Aby użyć do budowy modelu zmiennych z missingami, można również samodzielnie zastąpić brakujące wartości przed rozpoczęciem budowy modelu lub wybrać opcję Liberal Mode w obiekcie Algorithm Settings, co spowoduje automatyczne ominięcie obserwacji zawierających missingi.
Budowa i testowanie modelu odbywa się w standardowy sposób, a cała procedura jest opisana w rozdziale AdvancedMiner w praktyce (por. Klasyfikacja). Pełna specyfikacja ustawień modelu składa się z General Algorithm Settings, Optimization Algorithm Settings, Variable Selection Settings and Transformation Settings.
Regresja logistyczna ma następujące ustawienia:
Tabela 27.1. Regresja logistyczna: Algorithm Settings
Nazwa | Opis | Możliwe wartości | Wartość domyślna |
---|---|---|---|
Automatic Data Transformations | TRUE: zostaną wykonane automatyczne transformacje zmiennych (np. replaceMissing, binaryzacja). FALSE: nie zostaną one wykonane. | TRUE / FALSE | FALSE |
Confidence Level | Poziom ufności przyjmowany przy wyliczaniu przedziałowych estymatorów parametrów modelu. | Liczby rzeczywiste z przedziału (0.5,1) | 0.95 |
Estimation Method | Ustalenie, jaki algorytm zostanie wykorzystany do estymacji modelu. | fisher / newton | fisher |
Execute Init Tests | TRUE: zostaną wykonane wstępne testy danych. FALSE: nie zostaną one wykonane. | TRUE / FALSE | TRUE |
Group Statistics | TRUE: wyliczone zostaną statystyki dla grup zmiennych. FALSE: nie zostaną one wyliczone. | TRUE / FALSE | TRUE |
Hosmer-Lemeshow Groups | Liczba grup obserwacji używanych w statystyce Hosmera-Lemeshowa. Obserwacje posortowane wg wzrastającego prawdopodobieństwa targetu są podzielone na g grup. | Dodatnie liczby całkowite | 10 |
Intercept | TRUE: model z wyrazem wolnym. FALSE: model bez wyrazu wolnego. | TRUE / FALSE | TRUE |
Liberal Execution Mode | TRUE: estymacja w trybie "liberalnym" (obliczenie nie zatrzymuje się z powodu małych błędów). | TRUE / FALSE | TRUE |
Link Function Type | Ustalenie typu funkcji prawdopodobieństwa. | logit / probit | logit |
Multicategory Model Type | Rodzaj modelu ze względu na liczbę kategorii targetu. | binary / cumulative / multinomial | binary |
Number of Lift Quantiles | Liczba kwantyli liftu. | Dodatnie liczby całkowite | 50 |
Positive Category Apriori | Prawdopodobieństwo a priori wystąpienia pozytywnej kategorii targetu. | Liczby rzeczywiste z przedziału (0,1) | - |
Positive Target Category | Kategoria targetu uznana za pozytywną (oczekiwane zdarzenie). | Nazwa kategorii | - |
Preselection | TRUE: dla każdej zmiennej z modelu wyliczana jest statystyka Univariate Pr>ChiSq. | TRUE / FALSE | FALSE |
Target Categories Order | Określenie kolejności kategorii targetu. | dataOrder / alphabetical / alphabeticalDesc | alphabetical |
Opcja newton oznacza, że do znalezienia maksimum funkcji wiarygodności użyty zostanie algorytm Newtona-Raphsona. Hesjan (macierz drugich pochodnych cząstkowych), który jest używany w algorytmie Newtona-Raphsona, estymowany jest za pomocą estymatora BHHH (por. Berndt et al. (1974)).
Wektor parametrów modelu
jest estymowany przez maksymalizację logarytmu funkcji
wiarygodności (notacja wprowadzona w sekcji Opis metody):
Znalezienie tego maksimum jest równoważne do znalezienia punktów stacjonarnych funkcji wiarygodności, tj. do rozwiązania układu n (lub n+1 dla modelu z wyrazem wolnym) równań
Opcja fisher oznacza, że do estymacji parametrów modelu zostanie użyty algorytm Fishera (por. algorytm Lawlessa i Singhala w Hosmer i Lemeshow (1989), str. 129) wykorzystujący formułę iteracyjną:
gdzie X jest macierzą obserwacji,
Opcja logit oznacza, że zastosowana zostanie funkcja logitowa, tj. model będzie miał następującą postać:
.
Opcja probit oznacza, że zastosowana zostanie funkcja probitowa, tj. model będzie miał następującą postać:
gdzie
jest dystrybuantą standardowego rozkładu normalnego.
Umożliwia określenie prawdziwego poziomu a priori dla pozytywnej kategorii targetu (oznaczonej przez ustawienie Positive Target Category) w badanej populacji. Opcja ta jest użyteczna zwłaszcza w przypadku próbek, w której odsetek obserwacji z pozytywną wartością targetu różni się od rzeczywistego a priori. Jeżeli nie ustawiono Positive Category Apriori, przyjmowane jest a priori z próby. Jeżeli nie ustawiono Positive Category Apriori, jako pozytywna kategoria targetu będzie przyjęta pierwsza kategoria wg określonego porządku.
Określenie kolejności, w jakiej kategorie targetu będą występować w modelu. Wartością domyślną jest uszeregowanie alfabetyczne (alphabetical), co oznacza uwzględnianie kategorii wg rosnącej wartości liczbowej albo alfabetycznie dla kategorii znakowych. Opcja alphabeticalDesc oznacza odwrotny porządek alfabetyczny. Opcja dataOrder oznacza kolejność, z jaką kategorie występują w wejściowej tabeli z danymi.
Oprócz ustawień specyficznych dla algorytmu Regresji logistycznej, użytkownik może modyfikować:
Variable Selection Settings - aby kontrolować przebieg dostępnych algorytmów budowy modelu; te ustawienia są opisane w rozdziale Automatic Variable Selection.
Optimization Algorithm Settings - aby wybrać algorytm optymalizacyjny; te ustawienia są opisane w rozdziale Optimization Library.
Transformation Settings - aby kontrolować transformacje, jakim poddawane są dane; te ustawienia są opisane w rozdziale Transformation.
Końcowy model zawiera następujące statystyki: Variable Statistics, Group Statistics (tylko jeżeli wybrano Group Statistics), Model Fit Statistics, Variable Selection Statistics (tylko w przypadku, jeżeli Variable Selection Method to algorytm forward, backward lub stepwise), Coefficient Correlation and Covariance Matrices, Attributes Correlation Matrix and Auxiliary Lifts (tylko jeżeli VariableSelectionsSettings są odpowiednio ustawione).
Tabela 27.2. Statystyki modelu regresji logistycznej: Variables Statistics
Nazwa | Opis |
---|---|
Variable | Nazwa zmiennej. |
Univariate Pr>ChiSq | Wartość p-value dla statystyki współczynnika wiarygodności (Likelihood Ratio) dla modelu zawierającego tylko daną zmienną (i opcjonalnie wyraz wolny). Statystyka jest wyliczana tylko jeżeli preselection ustawiono na TRUE. |
Coeff | Oszacowane wartości parametrów modelu. |
Lower Confidence | Dolna granica przedziału ufności dla oszacowania parametru. Przedział ufności jest wyliczany na poziomie ufności określonym w Algorithm settings. |
Upper Confidence | Górna granica przedziału ufności dla oszacowania parametru. Przedział ufności jest wyliczany na poziomie ufności określonym w Algorithm settings. |
StdErr | Błąd standardowy estymatora parametru. |
Standard Coeff | Wystandaryzowana wartość oszacowania parametru. |
Wald Test | Wartość statystyki Walda dla zmiennej. |
Wald Pr>ChiSq | Wartość p-value dla statystyki Walda dla zmiennej. |
Tabela 27.3. Statystyki modelu regresji logistycznej: Model Fit Statistics
Nazwa | Opis |
---|---|
Concordant | Odsetek par obserwacji, dla których oszacowane przez model prawdopodobieństwo dla obserwacji z pozytywnym responsem jest większe niż prawdopodobieństwo dla obserwacji z negatywnym responsem. |
Deviance Pr>ChiSq | Wartość p-value dla statystyki dewiancji . Testowana jest zgodność statystyki z rozkładem chi-kwadrat o M-m stopniach swobody (M - liczba różnych podgrup obserwacji w danych, m - liczba zmiennych w modelu, włączając wyraz wolny). |
Deviance Residual | Wartość dewiancji. |
Discordant | Odsetek par obserwacji, dla których oszacowane przez model prawdopodobieństwo dla obserwacji z pozytywnym responsem jest mniejsze niż prawdopodobieństwo dla obserwacji z negatywnym responsem. |
Goodman-Kruskal Gamma | Wartość statystyki gamma Goodmana-Kruskala. |
Hosmer-Lemeshow Stat | Wartość statystyki Hosmera-Lemeshowa. |
Kendall's Tau-a | Wartość statystyki Kendalla Tau-a. |
LikelihoodRatio Stat | Wartość współczynnika wiarygodności. |
Hosmer Pr>ChiSq | Wartość p-value dla statystyki Hosmera-Lemeshowa. Statystyka jest testowana na zgodność z rozkładem chi-kwadrat o liczbie stopni swobody równej liczbie grup Hosmera-Lemeshowa. |
LRatio Pr>ChiSq | Wartość p-value dla współczynnika wiarygodności (Likelihood Ration). Statystyka jest testowana na zgodność z rozkładem chi-kwadrat z m stopniami swobody (m - liczba zmiennych w modelu). |
Pairs | Liczba obserwacji z pozytywnym responsem pomnożona przez liczbę obserwacji z negatywnym responsem. Pary (pairs) mogą być interpretowane jako liczba par obserwacji takich, że jedna z obserwacji ma pozytywną, a druga negatywną wartość response'u. |
ROC c | Wartość statystyki ROC c. |
Rsq | Wartość statystyki ![]() |
Score Pr>ChiSq | Wartość p-value dla statystyki scoringu (score statistic). Statystyka jest testowana na zgodność z rozkładem chi-kwadrat o m stopniach swobody (m - liczba zmiennych w modelu). |
Score Stat | Wartość statystyki scoringu (por. Cox, Hinkley 1974, rozdział 9.3). |
Sommers' D | Różnica między miarami Concordant i Discordant |
Ties | Odsetek par obserwacji, dla których prawdopodobieństwa pozytywnego i negatywnego response'u są równe. |
Wald Pr>ChiSq | Wartość p-value dla statystyki Walda. |
Wald Stat | Wartość statystyki Walda. |
Odsetek par obserwacji, dla których oszacowane przez model prawdopodobieństwo dla obserwacji z pozytywnym responsem jest większe niż prawdopodobieństwo dla obserwacji z negatywnym responsem. Prawdopodobieństwa są wyliczane ze wzoru:
Wartość statystyki dewiancji, mierzącej dobroć dopasowania modelu. Wyznaczana jest następującym wzorem:
gdzie
W przypadku kiedy obserwacje są podzielone na M grup wzór na
jest bardziej skomplikowany (por. również
Hosmer i Lemeshow 1989,
s. 146).
Ta statystyka jest zdefiniowana jako:
gdzie jest miarą Concordant, a
jest miarą Discordant.
Ta statystyka, mierząca jakość dopasowania dla modelu, jest wyliczana na podstawie wzoru:
gdzie
oznacza liczbę grup testowych
(por. opcję Hosmer-Lemeshow
Groups),
jest liczbą obserwacji w
k-tej grupie,
oznacza liczbę obserwacji w
k-tej grupie z pozytywnym responsem (tj. liczbę obserwacji,
dla których zaszło zjawisko, którego prawdopodobieństwo
chcemy przewidywać), a
oznacza średnie prognozowane prawdopodobieństwo dla k-tej grupy.
Ta statystyka jest zdefiniowana jako:
gdzie
oznacza liczbę par w mierze Concordant,
oznacza liczbę par w mierze Discordant
a N jest liczbą obserwacji.
Współczynnik wiarygodności (Likelihood Ratio) jest zdefiniowany jako:
Jeżeli zmienne pomocnicze (indicator variables)
są zmiennymi zero-jedynkowymi,
wówczas wiarygodność modelu idealnego (saturated model)
jest równa 1 i powyższa formuła upraszcza się.
Jest to p-value dla statystyki Walda dla zmiennej. Jeżeli zmienna nie jest istotna, statystyka ma w przybliżeniu rozkład chi-kwadrat z jednym stopniem swobody.
Pole obszaru pod wykresem funkcji ROC (Receiver Operating Characteristic). Jest ono równe:
gdzie oznacza Concordant, a
oznacza Discordant.
Ta statystyka jest zdefiniowana jako:
gdzie
i L(0) oznaczają wiarygodność oszacowanego modelu i modelu zawierającego tylko wyraz wolny, odpowiednio.
Wartość statystyki Walda jest wyliczana jako:
gdzie
H(a) jest hesjanem funkcji wiarygodności w punkcie
.
Tabela 27.4. Statystyki modelu Regresji liniowej: Group Statistics
Nazwa | Opis | |
---|---|---|
Variable | Nazwa zmiennej. | |
DF | Liczba stopni swobody zmiennej lub grupy zmiennych; w drugim przypadku liczba stopni swobody jest równa liczbie estymowanych parametrów, tzn. liczbie zmiennych w grupie. | |
Wald Stat | Wartość statystyki Walda. | |
Wald Pr>F | Wartość p-value dla statystyki Walda | |
Univariate Pr>F | Wartość p-value dla współczynnika wiarygodności dla modelu zawierającego tylko daną zmienną (lub grupę zmiennych)(i opcjonalnie wyraz wolny ). Statystyka jest wyliczana tylko wtedy, gdy preselection ma wartość TRUE. |
Tabela 27.5. Statystyki modelu Regresji logistycznej: Variable Selection Statistics
Nazwa | Opis | |
---|---|---|
#step | Numer kroku (iteracji) algorytmu selekcji zmiennych. | |
variable/group | Nazwa zmiennej (grupy zmiennych). | |
operation | Akcja podjęta na zmiennej (remove/insert: usunięcie/dodanie) w trakcie algorytmu selekcji zmiennych. | |
score | Wartość statystyki resztowej (Residual Statistic) dla modelu. | |
p-value | Wartość p-value dla statystyki resztowej dla modelu. |
Dla algorytmu best subset tabela Variable Selection Statistics wygląda inaczej.
Tabela 27.6. Statystyki modelu Regresji logistycznej: Variable Selection Statistics: best subset
Nazwa | Opis | |
---|---|---|
# | Iteracja algorytmu selekcji zmiennych. | |
model | Najlepszy z modeli danego rozmiaru. | |
size | Rozmiar modelu. | |
score | Wartość Scoring Statistic |
Dodatkowo wyliczane są i wyświetlane macierze kowariancji i korelacji estymatorów współczynników oraz macierz korelacji atrybutów (zmiennych):
Tabela 27.7. Statystyki modelu Regresji logistycznej: korelacja współczynników / atrybutów
Nazwa | Opis |
---|---|
Korelacja współczynników/atrybutów | Macierz korelacji estymatorów parametrów/atrybutów. |
Macierz korelacji dla estymatorów współczynników jest wyliczana jako
gdzie są
-tymi elementami macierzy kowariancji
estymatorów parametrów.
Korelacja między atrybutami jest wyliczana w standardowy sposób.
Tabela 27.8. Statystyki modelu Regresji logistycznej: kowariancja współczynników
Nazwa | Opis |
---|---|
Kowariancja | Macierz kowariancji dla estymatorów parametrów. |
Do obiektu modelu przypisane są dwa podstawowe wykresu liftu: pierwszy wyliczany jest dla danych treningowych (zawsze), a drugi na danych walidacyjnych (jeżeli w obiekcie BuildTask określono zbiór walidacyjny). Oprócz tych dwóch liftów w systemie Advanced Miner są również dostępne lifty pomocnicze, wyliczane dla modeli pośrednich. Model pośredni powstaje z modelu głównego przez usunięcie jednej ze zmiennych. Lifty pomocnicze mogą być wyliczane zarówno dla danych treningowych jak i walidacyjnych.
Lifty pomocnicze są dostępne w dwóch miejscach: w panelu modelStatistics, gdzie każdy lift może być wyświetlony osobno, oraz w zakładce Lifts , gdzie wyświetlane są na tym samym wykresie co lifty dla zbioru treningowego i walidacyjnego. Użytkownik może wyświetlić żądany lift pomocniczy na wykresie, klikając w odpowiednią nazwę zmiennej (lub grupy zmiennych - zależnie od ustawienia Group Mode w Variable Selection Settings). Ta funkcjonalność umożliwia bezpośrednie porównywanie modelu głównego z dowolnym modelem pośrednim.
Użytkownik może włączyć/wyłączyć wyliczanie liftów pomocniczych przez ustawienie odpowiednich wartości w VariableSelectionSettings : Auxiliary Lift Estimation Mode i Auxiliary Statistics Mode.
Moduł Regresja logistyczna może być stosowany w celu klasyfikacji. Klasyfikacja oparta jest na szacowanych przez model prawdopodobieństwach i ustalonym prawdopodobieństwie progowym. Obserwacja (wektor wartości atrybutów) przypisywana jest do jednej z dwóch grup w wyniku porównania oszacowanego przez model warunkowego prawdopodobieństwa dla tej obserwacji z wartością progową (por. również skrypt z przykładem).
Moduł Regresja logistyczna posiada kilka możliwych typów wyniku klasyfikacji dostarczonych danych. Por. rozdział Zastosowanie modeli w systemie AdvancedMiner i część poświęconą Klasyfikacji w sekcji Zastosowanie do różnych funkcji data-miningowych.
Tabela poniżej przedstawia możliwe kombinacje i opisy rodzajów wyniku i typów obiektu wyniku.
Do objaśnienia statystyk z tabeli konieczne jest wprowadzenie notacji.
Niech
będzie oszacowanym przez model prawdopodobieństwem
dla obserwacji
,
gdzie F jest funkcją prawdopodobieństwa dla modelu.
Niech ,
gdzie Cov(a) jest macierzą kowariancji estymatora.
Let .
Tabela 27.9. Klasyfikacja - kombinacje rodzajów wyniku i typów obiektu wyniku
Rodzaj wyniku | Typ obiektu wyniku | Opis |
probability | ranking | zwraca prawdopodobieństwo dla n-tej najbardziej prawdopodobnej kategorii |
probability | kategoria | zwraca prawdopodobieństwo zaklasyfikowania jako dana kategoria |
predictedCategory | ranking | zwraca n-tą najbardziej prawdopodobną kategorię |
predictedCategory | kategoria | nie wspierane |
nodeId | ranking | zwraca identyfikator ze struktury modelu, do którego został przypisany wejściowy przypadek. Znaczenie terminu "struktura" zależy od rodzaju algorytmu zastosowanego w modelu. Niektóre algorytmy w ogóle nie wspierają tej funkcjonalności. Por. rozdział opisujący dany algorytm/moduł w celu uzyskania większej ilości szczegółów. |
nodeId | kategoria | nie wspierane |
leverage | regresja logistyczna | ![]() |
pearsonResidual | regresja logistyczna | ![]() |
devianceResidual | regresja logistyczna | ![]() |
dfbetas | regresja logistyczna | ![]() ![]() ![]() |
c | regresja logistyczna | ![]() |
cBar | regresja logistyczna | ![]() |
deltaDev | regresja logistyczna | ![]() |
deltaChiSq | regresja logistyczna | ![]() |
W przypadku wszystkich miar wpływu zmiennych konieczne jest, aby w przescorowanych danych znajdował się target. Co więcej, nazwa zmiennej z targetem musi być taka sama jak w danych użytych do budowy modelu.