Użycie

Wymagania odnośnie danych

Zbiór danych do budowy modelu regresji logistycznej powinien zawierać zestaw numerycznych zmiennych objaśniających (aktywnych lub obowiązkowych) i binarną zmienną objaśnianą - target. Aby użyć w modelu zmiennych kategorycznych, muszą być one przekształcone w zestawy pomocniczych zmiennych zerojedynkowych (tzw. binaryzacja). Binaryzacja może być przeprowadzona przed budową modelu albo w trakcie procesu estymacji (jeżeli zaznaczona została opcja Automatic Data Transformation w General Algorithm Settings.

Brakujące wartości (Missing values) w danych nie są wspierane przez moduł Regresja logistyczna, jeżeli w obiekcie General Algorithm Settings nie wybrano opcji Automatic Data Transformation. Aby użyć do budowy modelu zmiennych z missingami, można również samodzielnie zastąpić brakujące wartości przed rozpoczęciem budowy modelu lub wybrać opcję Liberal Mode w obiekcie Algorithm Settings, co spowoduje automatyczne ominięcie obserwacji zawierających missingi.

Budowa i testowanie modelu

Budowa i testowanie modelu odbywa się w standardowy sposób, a cała procedura jest opisana w rozdziale AdvancedMiner w praktyce (por. Klasyfikacja). Pełna specyfikacja ustawień modelu składa się z General Algorithm Settings, Optimization Algorithm Settings, Variable Selection Settings and Transformation Settings.

Algorithm settings

Regresja logistyczna ma następujące ustawienia:

Tabela 27.1. Regresja logistyczna: Algorithm Settings

NazwaOpisMożliwe wartościWartość domyślna
Automatic Data TransformationsTRUE: zostaną wykonane automatyczne transformacje zmiennych (np. replaceMissing, binaryzacja). FALSE: nie zostaną one wykonane. TRUE / FALSEFALSE
Confidence Level Poziom ufności przyjmowany przy wyliczaniu przedziałowych estymatorów parametrów modelu.Liczby rzeczywiste z przedziału (0.5,1)0.95
Estimation MethodUstalenie, jaki algorytm zostanie wykorzystany do estymacji modelu.fisher / newtonfisher
Execute Init Tests TRUE: zostaną wykonane wstępne testy danych. FALSE: nie zostaną one wykonane. TRUE / FALSETRUE
Group StatisticsTRUE: wyliczone zostaną statystyki dla grup zmiennych. FALSE: nie zostaną one wyliczone.TRUE / FALSETRUE
Hosmer-Lemeshow GroupsLiczba grup obserwacji używanych w statystyce Hosmera-Lemeshowa. Obserwacje posortowane wg wzrastającego prawdopodobieństwa targetu są podzielone na g grup.Dodatnie liczby całkowite10
InterceptTRUE: model z wyrazem wolnym. FALSE: model bez wyrazu wolnego.TRUE / FALSETRUE
Liberal Execution Mode TRUE: estymacja w trybie "liberalnym" (obliczenie nie zatrzymuje się z powodu małych błędów).TRUE / FALSETRUE
Link Function TypeUstalenie typu funkcji prawdopodobieństwa.logit / probitlogit
Multicategory Model TypeRodzaj modelu ze względu na liczbę kategorii targetu.binary / cumulative / multinomialbinary
Number of Lift QuantilesLiczba kwantyli liftu.Dodatnie liczby całkowite50
Positive Category AprioriPrawdopodobieństwo a priori wystąpienia pozytywnej kategorii targetu. Liczby rzeczywiste z przedziału (0,1)-
Positive Target Category Kategoria targetu uznana za pozytywną (oczekiwane zdarzenie).Nazwa kategorii-
Preselection TRUE: dla każdej zmiennej z modelu wyliczana jest statystyka Univariate Pr>ChiSq. TRUE / FALSEFALSE
Target Categories Order Określenie kolejności kategorii targetu. dataOrder / alphabetical / alphabeticalDescalphabetical
Model Estimation Method

Opcja newton oznacza, że do znalezienia maksimum funkcji wiarygodności użyty zostanie algorytm Newtona-Raphsona. Hesjan (macierz drugich pochodnych cząstkowych), który jest używany w algorytmie Newtona-Raphsona, estymowany jest za pomocą estymatora BHHH (por. Berndt et al. (1974)).

Wektor parametrów modelu jest estymowany przez maksymalizację logarytmu funkcji wiarygodności (notacja wprowadzona w sekcji Opis metody):

Znalezienie tego maksimum jest równoważne do znalezienia punktów stacjonarnych funkcji wiarygodności, tj. do rozwiązania układu n (lub n+1 dla modelu z wyrazem wolnym) równań

Opcja fisher oznacza, że do estymacji parametrów modelu zostanie użyty algorytm Fishera (por. algorytm Lawlessa i Singhala w Hosmer i Lemeshow (1989), str. 129) wykorzystujący formułę iteracyjną:

gdzie X jest macierzą obserwacji,

Notatka

Przedstawione formuły na W i Z są prawdziwe tylko dla logitowej funkcji prawdopodobieństwa.
Link Function Type

Opcja logit oznacza, że zastosowana zostanie funkcja logitowa, tj. model będzie miał następującą postać:

.

Opcja probit oznacza, że zastosowana zostanie funkcja probitowa, tj. model będzie miał następującą postać:

gdzie jest dystrybuantą standardowego rozkładu normalnego.

Positive Category Apriori, Positive Target Category

Umożliwia określenie prawdziwego poziomu a priori dla pozytywnej kategorii targetu (oznaczonej przez ustawienie Positive Target Category) w badanej populacji. Opcja ta jest użyteczna zwłaszcza w przypadku próbek, w której odsetek obserwacji z pozytywną wartością targetu różni się od rzeczywistego a priori. Jeżeli nie ustawiono Positive Category Apriori, przyjmowane jest a priori z próby. Jeżeli nie ustawiono Positive Category Apriori, jako pozytywna kategoria targetu będzie przyjęta pierwsza kategoria wg określonego porządku.

Target Categories Order

Określenie kolejności, w jakiej kategorie targetu będą występować w modelu. Wartością domyślną jest uszeregowanie alfabetyczne (alphabetical), co oznacza uwzględnianie kategorii wg rosnącej wartości liczbowej albo alfabetycznie dla kategorii znakowych. Opcja alphabeticalDesc oznacza odwrotny porządek alfabetyczny. Opcja dataOrder oznacza kolejność, z jaką kategorie występują w wejściowej tabeli z danymi.

Rysunek 27.1. Regresja logistyczna: General Algorithm Settings

Regresja logistyczna: General Algorithm Settings

Oprócz ustawień specyficznych dla algorytmu Regresji logistycznej, użytkownik może modyfikować:

  • Variable Selection Settings - aby kontrolować przebieg dostępnych algorytmów budowy modelu; te ustawienia są opisane w rozdziale Automatic Variable Selection.

  • Optimization Algorithm Settings - aby wybrać algorytm optymalizacyjny; te ustawienia są opisane w rozdziale Optimization Library.

  • Transformation Settings - aby kontrolować transformacje, jakim poddawane są dane; te ustawienia są opisane w rozdziale Transformation.

Model statistics

Końcowy model zawiera następujące statystyki: Variable Statistics, Group Statistics (tylko jeżeli wybrano Group Statistics), Model Fit Statistics, Variable Selection Statistics (tylko w przypadku, jeżeli Variable Selection Method to algorytm forward, backward lub stepwise), Coefficient Correlation and Covariance Matrices, Attributes Correlation Matrix and Auxiliary Lifts (tylko jeżeli VariableSelectionsSettings są odpowiednio ustawione).

Rysunek 27.2. Okno statystyk modelu Regresji logistycznej: Model Statistics

Okno statystyk modelu Regresji logistycznej: Model Statistics

Tabela 27.2. Statystyki modelu regresji logistycznej: Variables Statistics

NazwaOpis
VariableNazwa zmiennej.
Univariate Pr>ChiSq Wartość p-value dla statystyki współczynnika wiarygodności (Likelihood Ratio) dla modelu zawierającego tylko daną zmienną (i opcjonalnie wyraz wolny). Statystyka jest wyliczana tylko jeżeli preselection ustawiono na TRUE.
CoeffOszacowane wartości parametrów modelu.
Lower Confidence Dolna granica przedziału ufności dla oszacowania parametru. Przedział ufności jest wyliczany na poziomie ufności określonym w Algorithm settings.
Upper ConfidenceGórna granica przedziału ufności dla oszacowania parametru. Przedział ufności jest wyliczany na poziomie ufności określonym w Algorithm settings.
StdErrBłąd standardowy estymatora parametru.
Standard CoeffWystandaryzowana wartość oszacowania parametru.
Wald TestWartość statystyki Walda dla zmiennej.
Wald Pr>ChiSqWartość p-value dla statystyki Walda dla zmiennej.
Standard Coeff

Wartość wystandaryzowanego współczynnika zmiennej jest równa:

gdzie s_k jest odchyleniem standardowym na całej próbie dla k-tej zmiennej objaśniającej a

.

Wald Test

Wartość statystyki Walda dla zmiennej jest równa:

gdzie a H jest hesjanem funkcji wiarygodności w punkcie

Tabela 27.3. Statystyki modelu regresji logistycznej: Model Fit Statistics

NazwaOpis
ConcordantOdsetek par obserwacji, dla których oszacowane przez model prawdopodobieństwo dla obserwacji z pozytywnym responsem jest większe niż prawdopodobieństwo dla obserwacji z negatywnym responsem.
Deviance Pr>ChiSq Wartość p-value dla statystyki dewiancji . Testowana jest zgodność statystyki z rozkładem chi-kwadrat o M-m stopniach swobody (M - liczba różnych podgrup obserwacji w danych, m - liczba zmiennych w modelu, włączając wyraz wolny).
Deviance ResidualWartość dewiancji.
Discordant Odsetek par obserwacji, dla których oszacowane przez model prawdopodobieństwo dla obserwacji z pozytywnym responsem jest mniejsze niż prawdopodobieństwo dla obserwacji z negatywnym responsem.
Goodman-Kruskal GammaWartość statystyki gamma Goodmana-Kruskala.
Hosmer-Lemeshow StatWartość statystyki Hosmera-Lemeshowa.
Kendall's Tau-a Wartość statystyki Kendalla Tau-a.
LikelihoodRatio StatWartość współczynnika wiarygodności.
Hosmer Pr>ChiSq Wartość p-value dla statystyki Hosmera-Lemeshowa. Statystyka jest testowana na zgodność z rozkładem chi-kwadrat o liczbie stopni swobody równej liczbie grup Hosmera-Lemeshowa.
LRatio Pr>ChiSq Wartość p-value dla współczynnika wiarygodności (Likelihood Ration). Statystyka jest testowana na zgodność z rozkładem chi-kwadrat z m stopniami swobody (m - liczba zmiennych w modelu).
PairsLiczba obserwacji z pozytywnym responsem pomnożona przez liczbę obserwacji z negatywnym responsem. Pary (pairs) mogą być interpretowane jako liczba par obserwacji takich, że jedna z obserwacji ma pozytywną, a druga negatywną wartość response'u.
ROC cWartość statystyki ROC c.
RsqWartość statystyki .
Score Pr>ChiSq Wartość p-value dla statystyki scoringu (score statistic). Statystyka jest testowana na zgodność z rozkładem chi-kwadrat o m stopniach swobody (m - liczba zmiennych w modelu).
Score Stat Wartość statystyki scoringu (por. Cox, Hinkley 1974, rozdział 9.3).
Sommers' DRóżnica między miarami Concordant i Discordant
Ties Odsetek par obserwacji, dla których prawdopodobieństwa pozytywnego i negatywnego response'u są równe.
Wald Pr>ChiSqWartość p-value dla statystyki Walda.
Wald StatWartość statystyki Walda.

Rysunek 27.3. Okno statystyk modelu Regresji logistycznej: Model Fit Statistics

Okno statystyk modelu Regresji logistycznej: Model Fit Statistics
Concordant

Odsetek par obserwacji, dla których oszacowane przez model prawdopodobieństwo dla obserwacji z pozytywnym responsem jest większe niż prawdopodobieństwo dla obserwacji z negatywnym responsem. Prawdopodobieństwa są wyliczane ze wzoru:

Deviance Statistic

Wartość statystyki dewiancji, mierzącej dobroć dopasowania modelu. Wyznaczana jest następującym wzorem:

gdzie

W przypadku kiedy obserwacje są podzielone na M grup wzór na jest bardziej skomplikowany (por. również Hosmer i Lemeshow 1989, s. 146).

Goodman-Kruskal Gamma

Ta statystyka jest zdefiniowana jako:

gdzie jest miarą Concordant, a jest miarą Discordant.

Hosmer-Lemeshow Statistic

Ta statystyka, mierząca jakość dopasowania dla modelu, jest wyliczana na podstawie wzoru:

gdzie oznacza liczbę grup testowych (por. opcję Hosmer-Lemeshow Groups), jest liczbą obserwacji w k-tej grupie, oznacza liczbę obserwacji w k-tej grupie z pozytywnym responsem (tj. liczbę obserwacji, dla których zaszło zjawisko, którego prawdopodobieństwo chcemy przewidywać), a

oznacza średnie prognozowane prawdopodobieństwo dla k-tej grupy.

Kendall's Tau-a

Ta statystyka jest zdefiniowana jako:

gdzie oznacza liczbę par w mierze Concordant, oznacza liczbę par w mierze Discordant a N jest liczbą obserwacji.

LikelihoodRatio Stat

Współczynnik wiarygodności (Likelihood Ratio) jest zdefiniowany jako:

Jeżeli zmienne pomocnicze (indicator variables) są zmiennymi zero-jedynkowymi, wówczas wiarygodność modelu idealnego (saturated model) jest równa 1 i powyższa formuła upraszcza się.

Wald P>ChiSq

Jest to p-value dla statystyki Walda dla zmiennej. Jeżeli zmienna nie jest istotna, statystyka ma w przybliżeniu rozkład chi-kwadrat z jednym stopniem swobody.

ROC c

Pole obszaru pod wykresem funkcji ROC (Receiver Operating Characteristic). Jest ono równe:

gdzie oznacza Concordant, a oznacza Discordant.

Ta statystyka jest zdefiniowana jako:

gdzie

i L(0) oznaczają wiarygodność oszacowanego modelu i modelu zawierającego tylko wyraz wolny, odpowiednio.

Wald Stat

Wartość statystyki Walda jest wyliczana jako:

gdzie H(a) jest hesjanem funkcji wiarygodności w punkcie .

Tabela 27.4. Statystyki modelu Regresji liniowej: Group Statistics

NazwaOpis
VariableNazwa zmiennej.
DF Liczba stopni swobody zmiennej lub grupy zmiennych; w drugim przypadku liczba stopni swobody jest równa liczbie estymowanych parametrów, tzn. liczbie zmiennych w grupie.
Wald Stat Wartość statystyki Walda. 
Wald Pr>FWartość p-value dla statystyki Walda 
Univariate Pr>F Wartość p-value dla współczynnika wiarygodności dla modelu zawierającego tylko daną zmienną (lub grupę zmiennych)(i opcjonalnie wyraz wolny ). Statystyka jest wyliczana tylko wtedy, gdy preselection ma wartość TRUE.  

Rysunek 27.4. Okno statystyk modelu Regresji logistycznej: Group Statistics

Okno statystyk modelu Regresji logistycznej: Group Statistics

Tabela 27.5. Statystyki modelu Regresji logistycznej: Variable Selection Statistics

NazwaOpis
#stepNumer kroku (iteracji) algorytmu selekcji zmiennych. 
variable/groupNazwa zmiennej (grupy zmiennych). 
operationAkcja podjęta na zmiennej (remove/insert: usunięcie/dodanie) w trakcie algorytmu selekcji zmiennych. 
scoreWartość statystyki resztowej (Residual Statistic) dla modelu. 
p-valueWartość p-value dla statystyki resztowej dla modelu. 

Dla algorytmu best subset tabela Variable Selection Statistics wygląda inaczej.

Tabela 27.6. Statystyki modelu Regresji logistycznej: Variable Selection Statistics: best subset

NazwaOpis
#Iteracja algorytmu selekcji zmiennych. 
modelNajlepszy z modeli danego rozmiaru. 
sizeRozmiar modelu. 
scoreWartość Scoring Statistic 

Rysunek 27.5. Okno statystyk modelu Regresji logistycznej: Variable Selection Statistics

Okno statystyk modelu Regresji logistycznej: Variable Selection Statistics

Dodatkowo wyliczane są i wyświetlane macierze kowariancji i korelacji estymatorów współczynników oraz macierz korelacji atrybutów (zmiennych):

Tabela 27.7. Statystyki modelu Regresji logistycznej: korelacja współczynników / atrybutów

NazwaOpis
Korelacja współczynników/atrybutów Macierz korelacji estymatorów parametrów/atrybutów.

Korelacja

Macierz korelacji dla estymatorów współczynników jest wyliczana jako

gdzie -tymi elementami macierzy kowariancji estymatorów parametrów.

Korelacja między atrybutami jest wyliczana w standardowy sposób.

Tabela 27.8. Statystyki modelu Regresji logistycznej: kowariancja współczynników

NazwaOpis
Kowariancja Macierz kowariancji dla estymatorów parametrów.

Kowariancja

Macierz kowariancji estymatorów parametrów jest wyliczana jako

gdzie jest hesjanem estymatorów parametrów.

Lifty modelu głównego i modeli pośrednich

Do obiektu modelu przypisane są dwa podstawowe wykresu liftu: pierwszy wyliczany jest dla danych treningowych (zawsze), a drugi na danych walidacyjnych (jeżeli w obiekcie BuildTask określono zbiór walidacyjny). Oprócz tych dwóch liftów w systemie Advanced Miner są również dostępne lifty pomocnicze, wyliczane dla modeli pośrednich. Model pośredni powstaje z modelu głównego przez usunięcie jednej ze zmiennych. Lifty pomocnicze mogą być wyliczane zarówno dla danych treningowych jak i walidacyjnych.

Lifty pomocnicze są dostępne w dwóch miejscach: w panelu modelStatistics, gdzie każdy lift może być wyświetlony osobno, oraz w zakładce Lifts , gdzie wyświetlane są na tym samym wykresie co lifty dla zbioru treningowego i walidacyjnego. Użytkownik może wyświetlić żądany lift pomocniczy na wykresie, klikając w odpowiednią nazwę zmiennej (lub grupy zmiennych - zależnie od ustawienia Group Mode w Variable Selection Settings). Ta funkcjonalność umożliwia bezpośrednie porównywanie modelu głównego z dowolnym modelem pośrednim.

Rysunek 27.6. Przykład: lifty dla modelu głównego i modeli pośrednich

Przykład: lifty dla modelu głównego i modeli pośrednich

Użytkownik może włączyć/wyłączyć wyliczanie liftów pomocniczych przez ustawienie odpowiednich wartości w VariableSelectionSettings : Auxiliary Lift Estimation Mode i Auxiliary Statistics Mode.

Zastosowanie modelu

Moduł Regresja logistyczna może być stosowany w celu klasyfikacji. Klasyfikacja oparta jest na szacowanych przez model prawdopodobieństwach i ustalonym prawdopodobieństwie progowym. Obserwacja (wektor wartości atrybutów) przypisywana jest do jednej z dwóch grup w wyniku porównania oszacowanego przez model warunkowego prawdopodobieństwa dla tej obserwacji z wartością progową (por. również skrypt z przykładem).

Moduł Regresja logistyczna posiada kilka możliwych typów wyniku klasyfikacji dostarczonych danych. Por. rozdział Zastosowanie modeli w systemie AdvancedMiner i część poświęconą Klasyfikacji w sekcji Zastosowanie do różnych funkcji data-miningowych.

Tabela poniżej przedstawia możliwe kombinacje i opisy rodzajów wyniku i typów obiektu wyniku.

Do objaśnienia statystyk z tabeli konieczne jest wprowadzenie notacji.

Niech będzie oszacowanym przez model prawdopodobieństwem dla obserwacji , gdzie F jest funkcją prawdopodobieństwa dla modelu.

Niech , gdzie Cov(a) jest macierzą kowariancji estymatora.

Let .

Tabela 27.9. Klasyfikacja - kombinacje rodzajów wyniku i typów obiektu wyniku

Rodzaj wynikuTyp obiektu wynikuOpis
probabilityrankingzwraca prawdopodobieństwo dla n-tej najbardziej prawdopodobnej kategorii
probabilitykategoriazwraca prawdopodobieństwo zaklasyfikowania jako dana kategoria
predictedCategoryrankingzwraca n-tą najbardziej prawdopodobną kategorię
predictedCategorykategorianie wspierane
nodeIdrankingzwraca identyfikator ze struktury modelu, do którego został przypisany wejściowy przypadek. Znaczenie terminu "struktura" zależy od rodzaju algorytmu zastosowanego w modelu. Niektóre algorytmy w ogóle nie wspierają tej funkcjonalności. Por. rozdział opisujący dany algorytm/moduł w celu uzyskania większej ilości szczegółów.
nodeIdkategorianie wspierane
leverageregresja logistyczna
pearsonResidualregresja logistyczna
devianceResidualregresja logistyczna
dfbetasregresja logistyczna, gdzie jest v-tą współrzędną wektora, a jest v-tym elementem przekątnej macierzy
cregresja logistyczna
cBarregresja logistyczna
deltaDevregresja logistyczna
deltaChiSqregresja logistyczna

Notatka

W przypadku wszystkich miar wpływu zmiennych konieczne jest, aby w przescorowanych danych znajdował się target. Co więcej, nazwa zmiennej z targetem musi być taka sama jak w danych użytych do budowy modelu.