Ta sekcja zawiera opis statystyk atrybutu dostępnych w komponencie Freq.
Statystyki podstawowe są wyliczane tylko dla atrybutów numerycznych. Dostępne są w trybie statystyk atrybutu w komponencie Freq.
Aby umożliwić wstępną oceną rozkładu wartości atrybutu, Freq wylicza następujące statystyki:
Minimum value (wartość minimalna). Jest to najmniejsza wartość osiągana przez atrybut.
Maximum value (wartość maksymalna). Jest to największa wartość osiągana przez atrybut.
1st quartile (pierwszy kwartyl). Jest to wartość, która dzieli obserwacje na dwa zbiory: obserwacje, dla których atrybut ma wartość mniejszą niż pierwszy kwartyl stanowią 1/4 całego zbioru danych, a obserwacje z wartościami większymi niż pierwszy kwartyl stanowią 3/4 całego zbioru danych.
Median value (mediana). Jest to wartość, która dzieli obserwacje na dwie równe części: obserwacje, dla których atrybut ma wartość mniejszą niż mediana i obserwacje, dla których atrybut ma wartość większą niż mediana stanowią odpowiednio po 1/2 całego zbioru danych. Mediana jest również nazywana drugim kwartylem (ang. 2nd quartile).
3rd quartile (trzeci kwartyl). Jest to wartość, która dzieli obserwacje na dwa zbiory: obserwacje, dla których atrybut ma wartość mniejszą niż trzeci kwartyl stanowią 3/4 całego zbioru danych, a obserwacje z wartościami większymi niż trzeci kwartyl stanowią 1/4 całego zbioru danych.
Dla numerycznego atrybutu niech
oznacza liczbę obserwacji, a
wartość
-tej obserwacji.
Wariancja (drugi moment) atrybutu jest obliczana jako
Wariancja mierzy jak daleko od średniej są rozrzucone wartości atrybutu.
Skośność (trzeci moment wystandaryzowany) atrybutu jest wyliczana jako
Dodatnia skośność wskazuje, że prawe ramię rozkładu jest wydłużone, natomiast ujemna skośność - że wydłużone jest lewe ramię rozkładu.
Kurtoza atrybutu jest wyliczana jako
Dodatnia wartość kurtozy świadczy o tym, że funkcja gęstości atrybutu na wąski i wysoki "pik" w okolicy średniej, a ogony rozkładu są dość grube. Ujemne wartości kurtozy wskazują na to, że pik funkcji gęstości w okolicach średniej jest niższy i szerszy, a ogony rozkładu są węższe. Rozkłady normalne mają kurtozę równą 0.
Statystyki korelacji atrybutów są dostępne w komponencie Macierz korelacji.
Współczynnik korelacji Pearsona wyliczany dla dwóch atrybutów numerycznych
jest popularną miarą niezależności atrybutów. Przyjmuje on wartości między -1
a 1, przy czym wartość 1 oznacza idealną dodatnią zależność liniową między
atrybutami, a wartość -1 odpowiada ujemnej zależności liniowej
Niech
oznacza rozmiar próbki,
,
wartości atrybutów X i Y dla
-tej obserwacji.
Współczynnik korelacji Pearsona jest wyliczany jako
Współczynnik korelacji jest miarą zależności między
zmienną kategroyczną
a zmienną numeryczną
, zdefiniowaną jako relacja dwóch odchyleń standardowych
mierzących odpowiednio rozproszenie wartości zmiennej
w
poszczególnych kategoriach zmiennej
oraz rozproszenie wartości zmiennej
w całej próbie.
Załóżmy że zmienna jest podzielna na kategorie
i dla każdej kategorii
zmienna
przyjmuje wartości
(tutaj
jest liczną obserwacji o kategorii
). Niech
będzie liczbą obserwacji w całej próbie.
Dla danej kategorii zdefiniujmy
jako średnią ograniczoną do kategorii
.
Ważone odchylenie standardowe średnich dla kategorii jest zdefiniowane jako
Współczynnik korelacji między
i
jest wyliczany jako
Przy wyliczaniu macierzy współczynnika korelacji (ang. correlation ratio matrix),
jeżeli jest atrybutem numerycznym przyjmującym co najwyżej
100 różnych wartości, to zostanie on potraktowany jako atrybut kategoryczny,
z każdą wartością odpowiadającą jednej kategorii. Jeżeli liczba różnych
wartości przekroczy 100, współczynniki korelacji z
jako zmienną kategoryczną
nie zostaną wyliczone.
Macierz współczynników korelacji na rys. powyżej została wyliczona przy wierszach traktowanych jako zmienne kategoryczne. Atrybut numeryczny period przyjmuje więcej niż 100 wartości, dlatego też odpowiedni wiersz nie zawiera żadnych wartości.
Aby zdecydować, czy przy wyliczaniu współczynnika korelacji zmienne odpowiadające wierszom lub kolumnom mają być traktowane jako kategoryczne, należy wybrać opcje
lub z menu kontekstowego.W AdvancedMiner są trzy statystyki związane z korelacją V-Cramera: współczynnik chi-kwadrat, współczynnik Cramera i p-value.
Statystyka chi-kwadrat może być traktowana jako miara niezależności
dwóch zmiennych kategorycznych i
.
Niech będzie podzielone
na
kategorii
o licznościach
a
będzie podzielone
na
kategorii
o licznościach
,
oznacza liczbę obserwacji
dla których wartość
należy do
a wartość
należy do
. Niech
będzie liczbą obserwacji w całej próbie.
Teoretyczna częstość dla danej pary kategorii
jest obliczana jako
Wartość statystyki chi-kwadrat jest następnie obliczana jako
Dla atrybutu
niech
będzie liczbą poziomów
będzie indeksem poziomu.
Wartość BeingGood dla poziomu atrybutu
jest wyliczana wg formuły
gdzie
Statystyka Weight of Evidence dla -tego poziomu atrybutu
jest obliczana jako