Ta sekcja zawiera opis statystyk atrybutu dostępnych w komponencie Freq.
Statystyki podstawowe są wyliczane tylko dla atrybutów numerycznych. Dostępne są w trybie statystyk atrybutu w komponencie Freq.
Aby umożliwić wstępną oceną rozkładu wartości atrybutu, Freq wylicza następujące statystyki:
Minimum value (wartość minimalna). Jest to najmniejsza wartość osiągana przez atrybut.
Maximum value (wartość maksymalna). Jest to największa wartość osiągana przez atrybut.
1st quartile (pierwszy kwartyl). Jest to wartość, która dzieli obserwacje na dwa zbiory: obserwacje, dla których atrybut ma wartość mniejszą niż pierwszy kwartyl stanowią 1/4 całego zbioru danych, a obserwacje z wartościami większymi niż pierwszy kwartyl stanowią 3/4 całego zbioru danych.
Median value (mediana). Jest to wartość, która dzieli obserwacje na dwie równe części: obserwacje, dla których atrybut ma wartość mniejszą niż mediana i obserwacje, dla których atrybut ma wartość większą niż mediana stanowią odpowiednio po 1/2 całego zbioru danych. Mediana jest również nazywana drugim kwartylem (ang. 2nd quartile).
3rd quartile (trzeci kwartyl). Jest to wartość, która dzieli obserwacje na dwa zbiory: obserwacje, dla których atrybut ma wartość mniejszą niż trzeci kwartyl stanowią 3/4 całego zbioru danych, a obserwacje z wartościami większymi niż trzeci kwartyl stanowią 1/4 całego zbioru danych.
Dla numerycznego atrybutu niech oznacza liczbę obserwacji, a wartość -tej obserwacji.
Wariancja (drugi moment) atrybutu jest obliczana jako
Wariancja mierzy jak daleko od średniej są rozrzucone wartości atrybutu.
Skośność (trzeci moment wystandaryzowany) atrybutu jest wyliczana jako
Dodatnia skośność wskazuje, że prawe ramię rozkładu jest wydłużone, natomiast ujemna skośność - że wydłużone jest lewe ramię rozkładu.
Kurtoza atrybutu jest wyliczana jako
Dodatnia wartość kurtozy świadczy o tym, że funkcja gęstości atrybutu na wąski i wysoki "pik" w okolicy średniej, a ogony rozkładu są dość grube. Ujemne wartości kurtozy wskazują na to, że pik funkcji gęstości w okolicach średniej jest niższy i szerszy, a ogony rozkładu są węższe. Rozkłady normalne mają kurtozę równą 0.
Statystyki korelacji atrybutów są dostępne w komponencie Macierz korelacji.
Współczynnik korelacji Pearsona wyliczany dla dwóch atrybutów numerycznych jest popularną miarą niezależności atrybutów. Przyjmuje on wartości między -1 a 1, przy czym wartość 1 oznacza idealną dodatnią zależność liniową między atrybutami, a wartość -1 odpowiada ujemnej zależności liniowej
Niech oznacza rozmiar próbki, , wartości atrybutów X i Y dla -tej obserwacji. Współczynnik korelacji Pearsona jest wyliczany jako
Współczynnik korelacji jest miarą zależności między zmienną kategroyczną a zmienną numeryczną , zdefiniowaną jako relacja dwóch odchyleń standardowych mierzących odpowiednio rozproszenie wartości zmiennej w poszczególnych kategoriach zmiennej oraz rozproszenie wartości zmiennej w całej próbie.
Załóżmy że zmienna jest podzielna na kategorie i dla każdej kategorii zmienna przyjmuje wartości (tutaj jest liczną obserwacji o kategorii ). Niech będzie liczbą obserwacji w całej próbie.
Dla danej kategorii zdefiniujmy
jako średnią ograniczoną do kategorii .
Ważone odchylenie standardowe średnich dla kategorii jest zdefiniowane jako
Współczynnik korelacji między i jest wyliczany jako
Przy wyliczaniu macierzy współczynnika korelacji (ang. correlation ratio matrix), jeżeli jest atrybutem numerycznym przyjmującym co najwyżej 100 różnych wartości, to zostanie on potraktowany jako atrybut kategoryczny, z każdą wartością odpowiadającą jednej kategorii. Jeżeli liczba różnych wartości przekroczy 100, współczynniki korelacji z jako zmienną kategoryczną nie zostaną wyliczone.
Macierz współczynników korelacji na rys. powyżej została wyliczona przy wierszach traktowanych jako zmienne kategoryczne. Atrybut numeryczny period przyjmuje więcej niż 100 wartości, dlatego też odpowiedni wiersz nie zawiera żadnych wartości.
Aby zdecydować, czy przy wyliczaniu współczynnika korelacji zmienne odpowiadające wierszom lub kolumnom mają być traktowane jako kategoryczne, należy wybrać opcje
lub z menu kontekstowego.W AdvancedMiner są trzy statystyki związane z korelacją V-Cramera: współczynnik chi-kwadrat, współczynnik Cramera i p-value.
Statystyka chi-kwadrat może być traktowana jako miara niezależności dwóch zmiennych kategorycznych i .
Niech będzie podzielone na kategorii o licznościach a będzie podzielone na kategorii o licznościach , oznacza liczbę obserwacji dla których wartość należy do a wartość należy do . Niech będzie liczbą obserwacji w całej próbie.
Teoretyczna częstość dla danej pary kategorii jest obliczana jako
Wartość statystyki chi-kwadrat jest następnie obliczana jako
Dla atrybutu niech będzie liczbą poziomów będzie indeksem poziomu.
Wartość BeingGood dla poziomu atrybutu jest wyliczana wg formuły
gdzie
Statystyka Weight of Evidence dla -tego poziomu atrybutu jest obliczana jako