Freq oferuje zestaw narzędzi ułatwiających analizę danych:
We Frequ dostępne są dwa typy atrybutów wirtualnych: klony i SQL-atrybuty. Na wirtualnym atrybucie można pracować tak jak na atrybucie rzeczywistym, ale nie jest on fizycznie przetrzymywany w tabeli z danymi.
W sytuacji, w której dogodnie jest posiadać dwie lub większą liczbę kopii atrybutu wyświetlanego we Frequ, możliwe jest utworzenie klonu atrybutu. W tym celu należy zaznaczyć interesujący nas atrybut i wybrać
z menu kontekstowego.W ten sposób zostanie utworzony wirtualny atrybut (który nie będzie dodany do oryginalnej tabeli z danymi) o tej samej nazwie i ustawieniach, co oryginalny. Ustawienia klonu, takie jak np. tryb wyświetlania, histogram, podział na poziomy, można zmieniać niezależnie od atrybutu oryginalnego.
Aby usunąć klon, należy go zaznaczyć i wybrać
z menu kontekstowego. Dodatkowo, klony są usuwane automatycznie po zamknięciu komponentu Freq.SQL-atrybuty są definiowane przy użyciu wyrażeń SQL mogących wykorzystywać również inne atrybuty z tabeli.
Aby utworzyć SQL-atrybut, należy zaznaczyć istniejący atrybut, który będzie bazą dla SQL-atrybutu i wybrać opcję
z menu kontekstowego. Otwory się okno dialogowe z polami do wprowadzenia nazwy SQL-atrybutu i wyrażenia SQL z definicją nowej zmiennej (por. rys. poniżej). Po wprowadzeniu nazwy i definicji należy wcisnąć .Zostanie utworzony nowe okienko atrybutu o nadanej nazwie. Okno to należy zaznaczyć i wykonać na nim Execute, aby obejrzeć histogram i statystyki dla nowoutworzonego SQL-atrybutu.
W celu zapoznania się z informacjami nt. konstruowania poprawnych wyrażeń SQL, por. sekcje Wyrażenia w Podręczniku użytkownika GDBase. Wyrażenie definiujące SQL-atrybut może również używać funkcji opisanych w sekcji Podstawowe funkcje GDBase podręcznika użytkownika, za wyjątkiem funkcji agregujących. Wyrażenie może używać dowolnego rzeczywistego atrybutu z tabeli, na której został utworzony Freq, ale nie może wykorzystywać nazw atrybutów wirtualnych.
Aby zmodyfikować definicję lub nazwę SQL-atrybutu, należy go zaznaczyć i wybrać
z menu kontekstowego. Możliwe jest również stworzenie klonu SQL-atrybutu. Jeżeli zmieni się definicja oryginalnego SQL-atrybutu, zmieni się również definicja klonu.Inaczej niż w przypadku klonów, definicja SQL-atrybutu jest zapisywana w obiekcie PhysicalData związanym z obiektem calculateStatisticsTask reprezentującym daną instancję Freqa.
Aby usunąć SQL-atrybut, należy go zaznaczyć i wybrać
z menu kontekstowego. Usunięcie SQL-atrybutu powoduje usunięcie jego klonów.Freq ma możliwość filtrowania analizowanego zbioru danych wg dowolnego kryterium, które może być wyrażone jako boole'owskie wyrażenie SQL, analogicznie do klauzuli WHERE w kwerendach SQL. Dodatkowo, możliwe jest porównywanie statystyk atrybutów dla różnych filtrów.
Wyrażenie filtrujące wprowadza się w polu Where na pasku narzędzi Freqa. Proste wyrażenia filtrujące mogą być również utworzone przez zaznaczenie poziomów na histogramach lub w tabelach zakresu zmienności dla poszczególnych atrybutów.
Wyrażenie filtrujące WHERE musi zwracać rezultat boole'owski (tj. prawdę/fałsz). W celu zapoznania się z informacjami nt. tworzenia poprawnych wyrażeń SQL por. sekcję Wyrażenia w Podręczniku użytkownika GDBase. Wyrażenie definiujące warunek filtrujący może również używać funkcji opisanych w sekcji Podstawowe funkcje GDBase podręcznika użytkownika, za wyjątkiem funkcji agregujących. Wyrażenie może używać dowolnego rzeczywistego atrybutu z tabeli, na której został utworzony Freq, ale nie może wykorzystywać nazw atrybutów wirtualnych.
Aby zapoznać się ze sposobem tworzenia prostych wyrażeń filtrujących przez zaznaczanie poziomów atrybutów, por. sekcje Drążenie danych i Konstruowanie wyrażeń.
Aby zastosować filtr z pola Where do danych, należy zaznaczyć atrybuty, które chcemy przefiltrować, ustawić kursor w polu Where i wcisnąć Enter. W wyniku tego, zaznaczone atrybuty zostaną przeliczone tylko dla obserwacji spełniających wyrażenie Where.
Jeżeli atrybut został przeliczony przy założonym filtrze, definicja filtra jest wyświetlana w okienku atrybutu, po prawej stronie nazwy atrybutu.
Aby usunąć filtr, należy wykasować wyrażenie z pola Where, upewnić się, że atrybuty są zaznaczone, i przeliczyć je.
Najprostszym sposobem utworzenia filtru opartego na wartościach pojedynczego atrybutu jest użycie opcji
z menu kontekstowego:W polu Where pojawi się filtr ograniczający zakres zmienności do wybranych poziomów, a atrybut zostanie automatycznie przeliczony przy założonym filtrze.
Jeżeli atrybut jest w trybie przedziałowym, po założeniu filtra zostanie on przeliczony dla tej samej liczby przedziałów.
Aby utworzyć wyrażenie, które jest koniunkcją wyrażeń wybierających poziomy więcej niż jednego atrybutu należy:
Możliwe jest porównywanie atrybutów w zależności od tego, jaki filtr zostanie do nich zastosowany.
Aby przełączać się między różnymi filtrami, należy kliknąć w polu Where i wybrać wymagany filtr. Można do tego celu użyć również skrótu klawiaturowego: Ctrl+Left/Right arrow.
Aby zachować skalę histogramu przy różnych filtrach, należy zaznaczyć check-box Comp.
We Frequ możliwe jest zdefiniowanie atrybutu z targetem i jego pozytywnej wartości. Wspierany jest target kategoryczny i numeryczny.
Atrybut z targetem ustawia się przy użyciu sekcji kontrolek dot. targetu na pasku narzędzi Freq. Do przełączania między kontrolkami dla targetu numerycznego i kategorycznymi służy dedykowany przycisk (target numeryczny/kategoryczny). Por. opis obu zestawów kontrolek na rys. poniżej.
Aby ustawić target, należy:
Po przeliczeniu atrybutów, na histogramach pojawi się czerwona krzywa wartości targetu. Odpowiada ona udziałowi obserwacji z pozytywną wartością targetu w przedziale wartości atrybutu reprezentowanym przez dany słupek.
Dodatkowo, w tabeli zakresu zmienności pojawią się dwie dodatkowe kolumny:
Zamiast kolumny Target % możliwe jest wyświetlenie kolumny Weight of Evidence (WoE) dla różnych poziomów atrybutu oraz kolumny Entropy gain (IV) dla atrybutów kategorycznych. Jest to możliwe przez ustawienie opcji Weight of Evidence na 'true' w sekcji View okna Properties komponentu Freq.
Aby zapoznać się ze szczegółowym opisem statystyk WoE i IV por. sekcję Statystyki związane z targetem.
Poziom apriori dla danego atrybutu jest równy liczbie obserwacji z pozytywną wartością targetu odniesionej do całkowitej liczby obserwacji dla atrybutu. Wyświetlanie poziomu apriori na histogramie umożliwia porównanie go z udziałem pozytywnych obserwacji dla danego poziomu atrybutu.
Aby wyświetlić poziom apriori na histogramie, z menu kontekstowego należy wybrać opcję
.Macierz korelacji jest elementem obiektu CalculateStatisticsTask zawierającym różne statystyki umożliwiające ocenę wzajemnego wpływu atrybutów na siebie: współczynnik korelacji Pearsona, współczynnik korelacji (ang. correlation ratio) i trzy statystyki związane ze współczynnikiem korelacji V-Cramera.
W celu zapoznania się z opisem statystyk dostępnych w komponencie Macierz korelacji, por. sekcję Statystyki korelacji atrybutów.
Aby otworzyć komponent z macierzą korelacji, należy wybrać opcję
z menu kontekstowego Freqa albo otworzyć obiekt correlationMatrix z repozytorium metadanych.Macierz korelacji jest podzielona na dwa panele. Lewy panel wyświetla tabelę korelacji dla wybranej statystyki, a prawy zawiera wartości tej samej statystyki dla wszystkich par wartości, dla których może być ona wyznaczona.
W celu zapoznania się ze szczegółowym opisem różnych statystyk wyliczanych w komponencie Macierz korelacji por. sekcję Statystyki korelacji atrybutów.
Aby przełączyć się między różnymi statystykami, należy wybrać rodzaj statystyki z menu kontekstowego.
Opcje
i w menu kontekstowym określają, czy zmienne odpowiadające odpowiednio wierszom i kolumnom mają być traktowane jako kategoryczne przy wyliczeniu statystyk stopnia korelacji.