Analiza danych we Frequ

Freq oferuje zestaw narzędzi ułatwiających analizę danych:

Atrybuty wirtualne

We Frequ dostępne są dwa typy atrybutów wirtualnych: klony i SQL-atrybuty. Na wirtualnym atrybucie można pracować tak jak na atrybucie rzeczywistym, ale nie jest on fizycznie przetrzymywany w tabeli z danymi.

Klony atrybutów

W sytuacji, w której dogodnie jest posiadać dwie lub większą liczbę kopii atrybutu wyświetlanego we Frequ, możliwe jest utworzenie klonu atrybutu. W tym celu należy zaznaczyć interesujący nas atrybut i wybrać Create clone z menu kontekstowego.

W ten sposób zostanie utworzony wirtualny atrybut (który nie będzie dodany do oryginalnej tabeli z danymi) o tej samej nazwie i ustawieniach, co oryginalny. Ustawienia klonu, takie jak np. tryb wyświetlania, histogram, podział na poziomy, można zmieniać niezależnie od atrybutu oryginalnego.

Aby usunąć klon, należy go zaznaczyć i wybrać Remove clone z menu kontekstowego. Dodatkowo, klony są usuwane automatycznie po zamknięciu komponentu Freq.

Wskazówka

Aby utworzyć klon atrybutu, który będzie zachowany po zamknięciu Freqa, należy zaznaczyć atrybut, wybrać Add SQL Attribute z menu kontekstowego, wprowadzić nazwę dla klonu w polu Name pozostawiając pole z definicją bez zmian, i wcisnąć OK. Następnie należy przeliczyć nowoutworzoną wirtualną zmienną. Inaczej niż zwykły klon, ten atrybut musi mieć nazwę inną niż atrybut oryginalny. Kiedy klon jest utworzony w ten sposób, jego ustawienia nie są kopiowane z oryginału.

SQL-atrybuty

SQL-atrybuty są definiowane przy użyciu wyrażeń SQL mogących wykorzystywać również inne atrybuty z tabeli.

Aby utworzyć SQL-atrybut, należy zaznaczyć istniejący atrybut, który będzie bazą dla SQL-atrybutu i wybrać opcję Add SQL Attribute z menu kontekstowego. Otwory się okno dialogowe z polami do wprowadzenia nazwy SQL-atrybutu i wyrażenia SQL z definicją nowej zmiennej (por. rys. poniżej). Po wprowadzeniu nazwy i definicji należy wcisnąć OK.

Zostanie utworzony nowe okienko atrybutu o nadanej nazwie. Okno to należy zaznaczyć i wykonać na nim Execute, aby obejrzeć histogram i statystyki dla nowoutworzonego SQL-atrybutu.

W celu zapoznania się z informacjami nt. konstruowania poprawnych wyrażeń SQL, por. sekcje Wyrażenia w Podręczniku użytkownika GDBase. Wyrażenie definiujące SQL-atrybut może również używać funkcji opisanych w sekcji Podstawowe funkcje GDBase podręcznika użytkownika, za wyjątkiem funkcji agregujących. Wyrażenie może używać dowolnego rzeczywistego atrybutu z tabeli, na której został utworzony Freq, ale nie może wykorzystywać nazw atrybutów wirtualnych.

Aby zmodyfikować definicję lub nazwę SQL-atrybutu, należy go zaznaczyć i wybrać Edit SQL attribute z menu kontekstowego. Możliwe jest również stworzenie klonu SQL-atrybutu. Jeżeli zmieni się definicja oryginalnego SQL-atrybutu, zmieni się również definicja klonu.

Rysunek 12.14. Edytowanie SQL-atrybutu

Edytowanie SQL-atrybutu

Inaczej niż w przypadku klonów, definicja SQL-atrybutu jest zapisywana w obiekcie PhysicalData związanym z obiektem calculateStatisticsTask reprezentującym daną instancję Freqa.

Rysunek 12.15. SQL-atrybut w widoku PhysicalData

SQL-atrybut w widoku PhysicalData

Notatka

Histogram SQL-atrybutu ma żółte tło. Żółty jest również wiersz tabeli w widoku PhysicalData odpowiadający SQL-atrybutowi.

Aby usunąć SQL-atrybut, należy go zaznaczyć i wybrać Remove SQL Attribute z menu kontekstowego. Usunięcie SQL-atrybutu powoduje usunięcie jego klonów.

Filtrowanie danych

Freq ma możliwość filtrowania analizowanego zbioru danych wg dowolnego kryterium, które może być wyrażone jako boole'owskie wyrażenie SQL, analogicznie do klauzuli WHERE w kwerendach SQL. Dodatkowo, możliwe jest porównywanie statystyk atrybutów dla różnych filtrów.

Wyrażenie filtrujące wprowadza się w polu Where na pasku narzędzi Freqa. Proste wyrażenia filtrujące mogą być również utworzone przez zaznaczenie poziomów na histogramach lub w tabelach zakresu zmienności dla poszczególnych atrybutów.

Tworzenie wyrażeń filtrujących

Wyrażenie filtrujące WHERE musi zwracać rezultat boole'owski (tj. prawdę/fałsz). W celu zapoznania się z informacjami nt. tworzenia poprawnych wyrażeń SQL por. sekcję Wyrażenia w Podręczniku użytkownika GDBase. Wyrażenie definiujące warunek filtrujący może również używać funkcji opisanych w sekcji Podstawowe funkcje GDBase podręcznika użytkownika, za wyjątkiem funkcji agregujących. Wyrażenie może używać dowolnego rzeczywistego atrybutu z tabeli, na której został utworzony Freq, ale nie może wykorzystywać nazw atrybutów wirtualnych.

Aby zapoznać się ze sposobem tworzenia prostych wyrażeń filtrujących przez zaznaczanie poziomów atrybutów, por. sekcje Drążenie danych i Konstruowanie wyrażeń.

Używanie filtrów

Aby zastosować filtr z pola Where do danych, należy zaznaczyć atrybuty, które chcemy przefiltrować, ustawić kursor w polu Where i wcisnąć Enter. W wyniku tego, zaznaczone atrybuty zostaną przeliczone tylko dla obserwacji spełniających wyrażenie Where.

Jeżeli atrybut został przeliczony przy założonym filtrze, definicja filtra jest wyświetlana w okienku atrybutu, po prawej stronie nazwy atrybutu.

Aby usunąć filtr, należy wykasować wyrażenie z pola Where, upewnić się, że atrybuty są zaznaczone, i przeliczyć je.

Drążenie danych

Najprostszym sposobem utworzenia filtru opartego na wartościach pojedynczego atrybutu jest użycie opcji Dig in Selection z menu kontekstowego:

  • Na histogramie albo w tabeli zakresu zmienności należy zaznaczyć interesujące poziomy zmiennej.
  • Z menu kontekstowego atrybutu należy wybrać opcję Dig in selection.

W polu Where pojawi się filtr ograniczający zakres zmienności do wybranych poziomów, a atrybut zostanie automatycznie przeliczony przy założonym filtrze.

Jeżeli atrybut jest w trybie przedziałowym, po założeniu filtra zostanie on przeliczony dla tej samej liczby przedziałów.

Rysunek 12.16. Zastosowanie opcji Dig in selection

Zastosowanie opcji Dig in selection

Konstruowanie wyrażeń

Aby utworzyć wyrażenie, które jest koniunkcją wyrażeń wybierających poziomy więcej niż jednego atrybutu należy:

  • zaznaczyć interesujące nas poziomy wartości na histogramie lub tabeli zakresu zmienności pierwszego atrybutu i wybrać Create expression z menu kontekstowego atrybutu,
  • powtórzyć powyższy krok dla pozostałych atrybutów, jeśli to konieczne,
  • wynikowe wyrażenie umieszczone zostało w schowku; należy je wkleić do pola Where,
  • zaznaczyć atrybuty, do których ma zostać zastosowany filtr i przeliczyć je.

Porównywanie danych

Możliwe jest porównywanie atrybutów w zależności od tego, jaki filtr zostanie do nich zastosowany.

Rysunek 12.17. Przełączanie pomiędzy filtrami

Przełączanie pomiędzy filtrami

Aby przełączać się między różnymi filtrami, należy kliknąć w polu Where i wybrać wymagany filtr. Można do tego celu użyć również skrótu klawiaturowego: Ctrl+Left/Right arrow.

Aby zachować skalę histogramu przy różnych filtrach, należy zaznaczyć check-box Comp.

Notatka

Filtry są przypisane do atrybutów: kiedy atrybut jest przeliczany przy warunkach określonych przez WHERE, filtr jest zapisywany w historii filtrów atrybutu i może być użyty ponownie przez kliknięcie w polu Where. Historia filtrów jest przechowywana po zamknięciu komponentu Freq.

Praca z atrybutem target

We Frequ możliwe jest zdefiniowanie atrybutu z targetem i jego pozytywnej wartości. Wspierany jest target kategoryczny i numeryczny.

Ustawianie atrybutu z targetem

Atrybut z targetem ustawia się przy użyciu sekcji kontrolek dot. targetu na pasku narzędzi Freq. Do przełączania między kontrolkami dla targetu numerycznego i kategorycznymi służy dedykowany przycisk (target numeryczny/kategoryczny). Por. opis obu zestawów kontrolek na rys. poniżej.

Rysunek 12.18. Kontrolki dla targetu kategorycznego

Kontrolki dla targetu kategorycznego

Rysunek 12.19. Kontrolki dla targetu numerycznego

Kontrolki dla targetu numerycznego

Aby ustawić target, należy:

  • Wybrać atrybut z targetem z listy rozwijalnej na pasku narzędzi Freq,
  • Dla targetu kategorycznego wybrać kategorię pozytywną z listy rozwijalnej na pasku narzędzi Freqa,
  • Dla targetu numerycznego wprowadzić minimalną i maksymalną wartość dla przedziału pozytywnej wartości targetu.
  • Zaznaczyć interesujące nas atrybuty i przeliczyć je.

Statystyki targetu

Po przeliczeniu atrybutów, na histogramach pojawi się czerwona krzywa wartości targetu. Odpowiada ona udziałowi obserwacji z pozytywną wartością targetu w przedziale wartości atrybutu reprezentowanym przez dany słupek.

Dodatkowo, w tabeli zakresu zmienności pojawią się dwie dodatkowe kolumny:

  • Target - liczba wystąpień pozytywnej wartości targetu dla danego poziomu atrybutu.
  • Target % - odsetek obserwacji z pozytywną wartością targetu dla danego poziomu atrybutu.

Rysunek 12.20. Atrybut ze zdefiniowanym targetem i pozytywną wartością targetu

Atrybut ze zdefiniowanym targetem i pozytywną wartością targetu

Zamiast kolumny Target % możliwe jest wyświetlenie kolumny Weight of Evidence (WoE) dla różnych poziomów atrybutu oraz kolumny Entropy gain (IV) dla atrybutów kategorycznych. Jest to możliwe przez ustawienie opcji Weight of Evidence na 'true' w sekcji View okna Properties komponentu Freq.

Aby zapoznać się ze szczegółowym opisem statystyk WoE i IV por. sekcję Statystyki związane z targetem.

Linia apriori

Poziom apriori dla danego atrybutu jest równy liczbie obserwacji z pozytywną wartością targetu odniesionej do całkowitej liczby obserwacji dla atrybutu. Wyświetlanie poziomu apriori na histogramie umożliwia porównanie go z udziałem pozytywnych obserwacji dla danego poziomu atrybutu.

Aby wyświetlić poziom apriori na histogramie, z menu kontekstowego należy wybrać opcję Apriori line.

Rysunek 12.21. Linia apriori na histogramie

Linia apriori na histogramie

Macierz korelacji

Macierz korelacji jest elementem obiektu CalculateStatisticsTask zawierającym różne statystyki umożliwiające ocenę wzajemnego wpływu atrybutów na siebie: współczynnik korelacji Pearsona, współczynnik korelacji (ang. correlation ratio) i trzy statystyki związane ze współczynnikiem korelacji V-Cramera.

W celu zapoznania się z opisem statystyk dostępnych w komponencie Macierz korelacji, por. sekcję Statystyki korelacji atrybutów.

Rysunek 12.22. Węzeł macierzy korelacji w repozytorium metadanych

Węzeł macierzy korelacji w repozytorium metadanych

Aby otworzyć komponent z macierzą korelacji, należy wybrać opcję Correlation matrix z menu kontekstowego Freqa albo otworzyć obiekt correlationMatrix z repozytorium metadanych.

Rysunek 12.23. Komponent Macierz korelacji

Komponent Macierz korelacji

Macierz korelacji jest podzielona na dwa panele. Lewy panel wyświetla tabelę korelacji dla wybranej statystyki, a prawy zawiera wartości tej samej statystyki dla wszystkich par wartości, dla których może być ona wyznaczona.

W celu zapoznania się ze szczegółowym opisem różnych statystyk wyliczanych w komponencie Macierz korelacji por. sekcję Statystyki korelacji atrybutów.

Aby przełączyć się między różnymi statystykami, należy wybrać rodzaj statystyki z menu kontekstowego.

Opcje Row is categorical i Column is categorical w menu kontekstowym określają, czy zmienne odpowiadające odpowiednio wierszom i kolumnom mają być traktowane jako kategoryczne przy wyliczeniu statystyk stopnia korelacji.