Rozdział 12. Freq - narzędzie do wizualnej eksploracji danych

Spis treści

Wprowadzenie
Uruchomienie Freqa
Przegląd komponentu Freq
Praca z atrybutami
Wyliczanie atrybutów
Widok atrybutu
Tryby wyświetlania atrybutów
Typy histogramów
Edytowanie poziomów i grupowanie wartości
Analiza danych we Frequ
Atrybuty wirtualne
Filtrowanie danych
Praca z atrybutem target
Macierz korelacji
Eksport do arkuszy Excel
Statystyki atrybutów we Frequ
Podstawowe statystyki atrybutu
Statystyki korelacji atrybutów
Statystyki związane z targetem
Zintegrowanie z innymi komponentami
Otwieranie obiektu PhysicalData
Widok danych
Dowiązania między komponentami

Wprowadzenie

Freq jest komponentem służącym do eskploracji danych "w locie" i oceny modelu za pomocą efektywnego graficznego interfejsu użytkownika. Głównymi zaletami Freqa są:

  • szybki przegląd atrybutów, w tym histogramów i podstawowych statystyk,
  • wyliczenie prostych statystyk atrybutów,
  • możliwość ograniczenia danych do określonych klas za pomocą ręcznego wskazywania interesujących obserwacji lub wykonywania prostych zapytań SQL,
  • możliwość wizualnego porównywania atrybutów dzięki różnym filtrom SQL,
  • wsparcie atrybutów z targetem,
  • wirtualne atrybuty definiowane na podstawie już istniejących,
  • macierz korelacji,
  • eksport do arkuszy Excel,
  • funkcjonalne powiązanie z innymi komponentami.

Freq jest komponentem graficznym odpowiadającym obiektowi calculateStatisticsTask w repozytorium metadanych.

Uruchomienie Freqa

Freq może być uruchomiony bezpośrednio z poziomu interfejsu użytkownika AdvancedMiner lub przez utworzenie obiektu CalculateStatisticsTask z poziomu skryptu lub ręcznie i otworzenie go.

Bezpośrednie uruchomienie Freqa

Aby utworzyć obiekt Freqa z poziomu interfejsu użytkownika należy:

  • W komponencie Services pod węzłem Aliases rozwinąć węzeł odpowiadający interesującej nas bazie danych, wybrać odpowiednią tabelę i wybrać Freq->Create New z menu kontekstowego.

    Rysunek 12.1. Uruchomienie Freqa z komponentu Services

    Uruchomienie Freqa z komponentu Services
  • W explorerze bazy danych zaznaczyć wiersz odpowiadający żądanej tabeli i wybrać Freq->Create New z menu kontekstowego.

    Rysunek 12.2. Uruchomienie Freqa z explorera bazy danych

    Uruchomienie Freqa z explorera bazy danych
  • W komponencie odpowiadającym za przegląd tabeli (ang. table overview) wybrać Freq->Create New z menu kontekstowego.
  • W komponencie odpowiadającym za przegląd tabeli zaznaczyć wiersze odpowiadające interesującym nas zmiennym i wybrać Freq (Only Selected) / Create New z menu kontekstowego. Powstanie nowy komponent Freq, który automatycznie przeliczy statystyki dla wybranych zmiennych.

    Rysunek 12.3. Uruchomienie Freqa z komponentu przeglądu tabeli

    Uruchomienie Freqa z komponentu przeglądu tabeli

Notatka

Jeżeli podłączone jest więcej niż jedno repozytorium metadanych, pojawi się pośrednie podmenu pozwalające użytkownikowi na wybór, w którym repozytorium będzie utworzony obiekt calculateStatisticsTask.

W następstwie tej akcji otwarte zostanie nowe okno z widokiem komponentu tableName_pd_stats.

w każdym z opisanych powyżej przypadków w repozytorium metadanych zostaną utworzone następujące obiekty:

  • obiekt physicalData odpowiadający tabeli tableName_pd.
  • obiekt calculateStatisticsTask dla właśnie utworzonego obiektu physicalData.

Jeżeli obiekt calculateStatisticsTask dla danej tabeli już istnieje, możliwe jest również otworzenie go w taki sam sposób, jak przy tworzeniu nowego Freqa, z menu kontekstowego wybierając Freq->calculateStatisticsTask_name .

Utworzenie Freqa ręcznie w repozytorium metadanych

Aby utworzyć obiekt calculateStatisticstask, należy:

  • Jeżeli obiekt physicalData odpowiadający danej tabeli nie istnieje, należy go utworzyć przez wybór New->Physical Data... z menu kontekstowego repozytorium. Następnie dostarczyć informacje o aliasie bazy danych i nazwie tabeli za pomocą wizarda New File i wcisnąć Finish.
  • Wybrać New->Task... z menu kontekstowego repozytorium i w wizardzie New File wybrać CalculateStatisticsTask jako typ tasku, wcisnąć Next >, wprowadzić wybraną nazwę dla obiektu i wcisnąć Finish.

Następnie należy otworzyć nowoutworzony obiekt CalculateStatisticsTask aby otworzyć komponent Freq. Alternatywnie, można wybrać Freq->CalculateStatisticsTask_name z menu kontekstowego tabeli w komponencie Services, explorerze bazy danych albo w komponencie odpowiadającym za widok tabeli.

Automatyczne utworzenie Freqa z poziomu skryptu

Możliwe jest również automatycznie utworzenie obiektów physicalData i CalculateStatisticsTask za pomocą skyrptu w Gythonie. Ilustruje to przykład poniżej.

Przykład 12.1. Calculate statistics task:

if not tableExists('german_credit'):
 raise "Table 'german_credit' does not exists. Please run german_credit.py script from data directory first"

# create and save physical data
pd = PhysicalData('german_credit')
save('pd', pd)

# create calculate statistics object
cst=CalculateStatisticsTask()
# set physical data
cst.setPhysicalDataName('pd')
# statistics will be calculated for 'Class' attribute 
cst.getStatisticsSettings().addAttribute("Class")

save('cst', cst)
execute('cst')

# load discrete statistics for 'Class' attribute 
discVal = load('pd').getAttribute("Class").getAttributeStatistics().getDiscreteStatistics()

print "Modal:",discVal.getModal()
print "Maximal values count:",discVal.getMaxValuesCount()
print "Number of discrete values:",discVal.getNumberOfDiscreteValues()

# print value and frequency 
strFormat = "%-30s%-4s"
print strFormat % ("Value", "Frequency")
for item in discVal.getDiscreteValues():
    print strFormat % (item,discVal.getValueCount(item))
    

Output:

Modal: good
Maximal values count: 100
Number of discrete values: 2
Value                         Frequency
good                          700 
bad                           300 
    

Przegląd komponentu Freq

Komponent Freq składa się z paska z narzędziami oraz przewijanej listy pól z atrybutami, w których wyświetlone są histogramy, tabele wartości zmiennej i inne statystyki. Rysunek poniżej przedstawia elementy interfejsu graficznego Freqa.

Rysunek 12.4. Elementy interfejsu graficznego Freqa

Elementy interfejsu graficznego Freqa

Zależnie od tego, w jaki sposób Freq został utworzony, statystyki dla niektórych atrybutów mogą być wyliczone lub nie. Por. sekcję Wyliczanie atrybutów.

Kolejność, w jakiej wyświetlane są atrybuty, może byc zmienione przy użyciu listy rozwijalnej Sort By na pasku z narzędziami Freqa.