Statystyki atrybutów we Frequ

Statystyki atrybutów we Frequ
Poprzedni	Rozdział 12. Freq - narzędzie do wizualnej eksploracji danych	Następny

Podstawowe statystyki atrybutu

Statystyki podstawowe są wyliczane tylko dla atrybutów numerycznych. Dostępne są w trybie statystyk atrybutu w komponencie Freq.

Statystyki pozycyjne

Aby umożliwić wstępną oceną rozkładu wartości atrybutu, Freq wylicza następujące statystyki:

Minimum value (wartość minimalna). Jest to najmniejsza wartość osiągana przez atrybut.

Maximum value (wartość maksymalna). Jest to największa wartość osiągana przez atrybut.

1st quartile (pierwszy kwartyl). Jest to wartość, która dzieli obserwacje na dwa zbiory: obserwacje, dla których atrybut ma wartość mniejszą niż pierwszy kwartyl stanowią 1/4 całego zbioru danych, a obserwacje z wartościami większymi niż pierwszy kwartyl stanowią 3/4 całego zbioru danych.

Median value (mediana). Jest to wartość, która dzieli obserwacje na dwie równe części: obserwacje, dla których atrybut ma wartość mniejszą niż mediana i obserwacje, dla których atrybut ma wartość większą niż mediana stanowią odpowiednio po 1/2 całego zbioru danych. Mediana jest również nazywana drugim kwartylem (ang. 2nd quartile).

3rd quartile (trzeci kwartyl). Jest to wartość, która dzieli obserwacje na dwa zbiory: obserwacje, dla których atrybut ma wartość mniejszą niż trzeci kwartyl stanowią 3/4 całego zbioru danych, a obserwacje z wartościami większymi niż trzeci kwartyl stanowią 1/4 całego zbioru danych.

Notatka

Statystyki minimalnej i maksymalnej wartości są różne od wartości Min i Max w ustawieniach trybu przedziałowego dla atrybutu.

Momenty atrybutów

Dla numerycznego atrybutu niech oznacza liczbę obserwacji, a wartość -tej obserwacji.

Wartość średnia

Wartość średnia (1-szy moment) atrybutu jest obliczana jako

Wariancja

Wariancja (drugi moment) atrybutu jest obliczana jako

Wariancja mierzy jak daleko od średniej są rozrzucone wartości atrybutu.

Odchylenie standardowe

Odchylenie standardowe atrybutu jest obliczane jako

Skośność

Skośność (trzeci moment wystandaryzowany) atrybutu jest wyliczana jako

Dodatnia skośność wskazuje, że prawe ramię rozkładu jest wydłużone, natomiast ujemna skośność - że wydłużone jest lewe ramię rozkładu.

Kurtoza

Kurtoza atrybutu jest wyliczana jako

Dodatnia wartość kurtozy świadczy o tym, że funkcja gęstości atrybutu na wąski i wysoki "pik" w okolicy średniej, a ogony rozkładu są dość grube. Ujemne wartości kurtozy wskazują na to, że pik funkcji gęstości w okolicach średniej jest niższy i szerszy, a ogony rozkładu są węższe. Rozkłady normalne mają kurtozę równą 0.

Statystyki korelacji atrybutów

Statystyki korelacji atrybutów są dostępne w komponencie Macierz korelacji.

Współczynnik korelacji Pearsona

Współczynnik korelacji Pearsona wyliczany dla dwóch atrybutów numerycznych jest popularną miarą niezależności atrybutów. Przyjmuje on wartości między -1 a 1, przy czym wartość 1 oznacza idealną dodatnią zależność liniową między atrybutami, a wartość -1 odpowiada ujemnej zależności liniowej

Niech oznacza rozmiar próbki, , wartości atrybutów X i Y dla -tej obserwacji. Współczynnik korelacji Pearsona jest wyliczany jako

Współczynnik korelacji (ang. correlation ratio)

Współczynnik korelacji jest miarą zależności między zmienną kategroyczną a zmienną numeryczną , zdefiniowaną jako relacja dwóch odchyleń standardowych mierzących odpowiednio rozproszenie wartości zmiennej w poszczególnych kategoriach zmiennej oraz rozproszenie wartości zmiennej w całej próbie.

Załóżmy że zmienna jest podzielna na kategorie i dla każdej kategorii zmienna przyjmuje wartości (tutaj jest liczną obserwacji o kategorii ). Niech będzie liczbą obserwacji w całej próbie.

Dla danej kategorii zdefiniujmy

jako średnią ograniczoną do kategorii .

Ważone odchylenie standardowe średnich dla kategorii jest zdefiniowane jako

Współczynnik korelacji między i jest wyliczany jako

Przy wyliczaniu macierzy współczynnika korelacji (ang. correlation ratio matrix), jeżeli jest atrybutem numerycznym przyjmującym co najwyżej 100 różnych wartości, to zostanie on potraktowany jako atrybut kategoryczny, z każdą wartością odpowiadającą jednej kategorii. Jeżeli liczba różnych wartości przekroczy 100, współczynniki korelacji z jako zmienną kategoryczną nie zostaną wyliczone.

Rysunek 12.24. Macierz współczynników korelacji

Macierz współczynników korelacji na rys. powyżej została wyliczona przy wierszach traktowanych jako zmienne kategoryczne. Atrybut numeryczny period przyjmuje więcej niż 100 wartości, dlatego też odpowiedni wiersz nie zawiera żadnych wartości.

Aby zdecydować, czy przy wyliczaniu współczynnika korelacji zmienne odpowiadające wierszom lub kolumnom mają być traktowane jako kategoryczne, należy wybrać opcje Row is categorical lub Column is categorical z menu kontekstowego.

Korelacja V-Cramera

W AdvancedMiner są trzy statystyki związane z korelacją V-Cramera: współczynnik chi-kwadrat, współczynnik Cramera i p-value.

Współczynnik chi-kwadrat

Statystyka chi-kwadrat może być traktowana jako miara niezależności dwóch zmiennych kategorycznych i .

Niech będzie podzielone na kategorii o licznościach a będzie podzielone na kategorii o licznościach , oznacza liczbę obserwacji dla których wartość należy do a wartość należy do . Niech będzie liczbą obserwacji w całej próbie.

Teoretyczna częstość dla danej pary kategorii jest obliczana jako

Wartość statystyki chi-kwadrat jest następnie obliczana jako

Współczynnik Cramera

Dla dwóch zmiennych kategorycznych współczynnik Cramera przyjmuje wartości między 0 a 1. Wartość oznacza brak związku między zmiennymi, a wartość pełną odpowiedniość między zmiennymi.

Współczynnik Cramera jest wyliczany wg formuły

p-value

Wartość p-value jest równa prawdopodobieństwu uzyskania statystyki chi-kwadrat równej lib większej niż wyliczona wartość przy założeniu ze i są niezależne.

Statystyki związane z targetem

Dla atrybutu niech będzie liczbą poziomów będzie indeksem poziomu.

Weight of Evidence

Wartość BeingGood dla poziomu atrybutu jest wyliczana wg formuły

gdzie

jest liczbą obserwacji w zbiorze danych dla których wartość atrybutu należy do -tego poziomu i nie jest pozytywną kategorią targetu.
jest liczbą obserwacji w zbiorze danych dla których wartość atrybutu należy do -tego poziomu i jest pozytywną kategorią targetu.
jest liczbą obserwacji w zbiorze danych dla których wartość atrybutu nie jest pozytywną kategorią targetu.
jest liczbą obserwacji w zbiorze danych dla których wartość atrybutu jest pozytywną kategorią targetu.