Praca z atrybutami

Wyliczanie atrybutów

Aby wyliczyć atrybut (rozkład atrybutu), należy go zaznaczyć i wydać polecenie Execute dostępne w menu kontekstowym, w menu Run, przez wciśnięcie F6 na klawiaturze albo na głównym pasku z narzędziami AdvancedMinera.

Atrybuty nie są przeliczane od razu po utworzeniu Freqa, ponieważ obliczenie statystyk dla wszystkich zmiennych w przypadku dużych tabel mogłoby trwać długo. Atrybuty muszą być również przeliczane wówczas, kiedy dla atrybutu został zdefiniowany nowy filtr where.

Po wyliczeniu atrybutu wyświetlane są histogram oraz tabela z zakresem zmienności. Jeden wiersz tabeli odpowiada jednemu słupkowi histogramu.

Widok atrybutu

W okienku wyliczonego atrybutu widoczny jest histogram, tabela z zakresem zmienności i nieco podstawowych informacji o wartościach atrybutu. Możliwe jest również powiększenie okienka, w którym wyświetlany jest atrybut, zmiana typu histogramu oraz uruchomienie trybu porównawczego przy użyciu check-boxów pod histogramem.

Słupki na histogramie odpowiadają (proporcjonalnie przeskalowanej) liczbie obserwacji o wartościach z jednego poziomu: albo określonej wartości atrybutu (w przypadku trybu wartości), albo określonego przedziału wartości (w przypadku trybu przedziałowego). Jeden słupek na histogramie odpowiada jednemu wierszowi w tabeli z zakresem zmienności atrybutu, która wyświetla: wartość (w trybie wartości) albo przedział wartości (w trybie przedziałowym), liczbę obserwacji z danego poziomu (w kolumnie Count) i odsetek, jaki stanowią obserwacje z danego poziomu w całym zbiorze (kolumna Count %). Tabela zawiera dodatkowe kolumny, jeżeli określono zmienną z targetem.

Okienko z atrybutem może być powiększone przez zaznaczenie check-boxu Exp. Okno powiększa się do rozmiaru, w którym może być wyświetlona cała tabela z zakresem zmienności bez potrzeby jej przewijania.

Możliwe jest wyświetlenie tylko podzbioru atrybutów. Są na to dwa sposoby:

  • Zaznaczyć interesujące nas atrybuty (przy użyciu klawiszy Shift lub Ctrl w razie potrzeby) i wybrać Show only selected z menu kontekstowego.
  • Wprowadzić oddzielone spacjami nazwy atrybutów (lub części nazw) w polu filtra nazw atrybutów na pasku narzędzi Freqa i wcisnąć Enter. Zostaną wyświetlone tylko atrybuty o nazwach pasujących do jednego z wprowadzonych ciągów znaków.

Aby ponownie wyświetlić wszystkie atrybuty, należy wybrać Show all z menu kontekstowego albo usunąć cały tekst z filtra nazw i wcisnąć Enter.

Tryby wyświetlania atrybutów

We Frequ są trzy tryby wyświetlania atrybutów: wartości, przedziałów i statystyk. Aby zmienić tryb wyświetlania atrybutu, należy wcisnąć odpowiedni przycisk na pasku narzędzi komponentu Freq.

Rysunek 12.5. Przyciski wyboru trybu wyświetlania atrybutów

Przyciski wyboru trybu wyświetlania atrybutów

Tryb wartości.  Jest to tryb domyślny dla atrybutów kategorycznych oraz numerycznych o małej liczbie wartości. W tym trybie każda wartość atrybutu jest reprezentowana przez oddzielny słupek na histogramie i oddzielny wiersz w tabeli zakresu zmienności.

Tryb wartości jest dostępny zarówno dla zmiennych kategorycznych, jak i numerycznych, ale dla atrybutów numerycznych o dużej liczbie wartości histogram może dostarczać niewiele łatwo interpretowalnej informacji. W takich przypadkach lepszym wyborem jest tryb przedziałowy.

Rysunek 12.6. Tryb wartości

Tryb wartości

Istnieje możliwość połączenia dwóch lub większej liczby wartości w jedną grupę reprezentowaną przez jeden słupek na histogramie i jeden wiersz w tabeli zakresu zmienności. Por. sekcję Edytowanie poziomów i grupowanie wartości.

Tryb przedziałowy.  Jest to tryb domyślny dla atrybutów numerycznych z dużą liczbą wartości. Domyślnie, zakres zmienności atrybutu jest podzielony na 20 przedziałów.

Tryb przedziałowy jest dostępny tylko dla atrybutów numerycznych.

Rysunek 12.7. Tryb przedziałowy

Tryb przedziałowy

Istnieje możliwość zmiany ustawień wyliczania przedziałów. Por. sekcję Edytowanie poziomów i grupowanie wartości.

Tryb statystyk.  W tym trybie tabela z zakresem zmienności jest zastępowana przez tabelę, w której wylistowany jest szereg statystyk atrybutu: wartość minimalna, 1-szy kwartyl, mediana, średnia, 3-ci kwartyl, wartość maksymalna, odchylenie standardowe, wariancja, kurtoza i skośność.

Tryb statystyk jest dostępny tylko dla atrybutów numerycznych.

Rysunek 12.8. Tryb statystyk

Tryb statystyk

W celu zapoznania się z opisem różnych statystyk dostępnych w trybie statystyk por. sekcję Podstawowe statystyki atrybutu.

Typy histogramów

We Frequ dostępne są trzy typy histogramów: standardowy, wygładzony (ang. smooth) i skumulowany. Histogramy wygładzone są dostępne tylko dla atrybutów posiadających co najmniej 5 wartości.

Aby wyświetlić histogram wygładzony lub skumulowany należy zaznaczyć odpowiedni check-box poniżej histogramu. Aby powrócić do histogramu standardowego, należy odznaczyć check-box.

Histogram standardowy.  W standardowym histogramie każdy słupek i każda linia w tabeli zakresu zmienności odpowiadają obserwacjom o jednej, określonej wartości/kategorii albo o wartościach z określonego przedziału (zależnie od trybu wyświetlania atrybutów).

Histogram skumulowany.  W przypadku atrybutów kategorycznych, w histogramie skumulowanym w trybie przedziałowym każdy kolejny słupek (oraz linia w tabeli zakresu zmienności) reprezentuje wszystkie obserwacje, których kategoria poprzedza lub równa się kategorii tego słupka. W przypadku atrybutów numerycznych, każdy słupek w histogramie skumulowanym reprezentuje obserwacje z wartością niższą niż górna granica przedziału, któremu odpowiada słupek (lub niższą lub równą od wartości odpowiadającej temu słupkowi dla trybu wartości).

Histogram wygładzony.  Histogram wygładzony podaje wygładzone przybliżenie rozkładu wartości atrybutu.

Rysunek 12.9. Różne rodzaje histogramu dla atrybutu numerycznego w trybie przedziałowym

Różne rodzaje histogramu dla atrybutu numerycznego w trybie przedziałowym

Rysunek 12.10. Różne rodzaje histogramu dla atrybutu kategorycznego

Różne rodzaje histogramu dla atrybutu kategorycznego

Edytowanie poziomów i grupowanie wartości

Domyślnie, histogramy są tworzone wg następujących reguł:

  • w trybie przedziałowym dla atrybutów numerycznych długości przedziałów są jednakowe, zakres zmienności atrybutu jest dzielony na 20 przedziałów.
  • w trybie wartości dla każdej z wartości osiąganych przez dane tworzony jest osobny słupek oraz osobny wiersz w tabeli zakresu zmienności atrybutu.

Wszystkie zmiany w sposobie podziału wartości atrybutu na poziomy są zachowywane przy zamykaniu komponentu Freq.

We Frequ możliwe jest grupowanie wartości atrybutów oraz dokonywanie zmian w podziale wartości atrybutów na przedziały. Można tego dokonać na kilka sposobów.

Grupowanie wartości i poziomów w widoku atrybutu

Zakres pożądanych wartości lub przedziałów należy zaznaczyć na przedziale lub w tabeli zakresu zmienności i wybrać opcję Group z menu kontekstowego. W przypadku widoku wartości, spowoduje to sklejenie wybranych wartości do jednego słupka i jednego wiersza w tabeli. W widoku przedziałowym wszystkie przedziały pomiędzy dolną granicą pierwszego zaznaczonego i górną granicą ostatniego zaznaczonego zostaną zastąpione jednym przedziałem.

Notatka

W trybie przedziałowym może zachodzić konieczność przeliczenia atrybutu, aby po grupowaniu poziomów został wyświetlony prawidłowy histogram.

Aby zmienić nazwę grupy utworzonej w ten sposób, należy wybrać opcję Rename group z menu kontekstowego. Aby zdezagregować grupę do pierwotnych wartości, należy wybrać Ungroup z menu kontekstowego.

W trybie przedziałowym nie ma możliwości rozgrupowania nowoutworzonych przedziałów. Aby przywrócić oryginalny podział na przedziały, należy ponownie przeliczyć atrybut.

Użycie okna dialogowego Edit Levels

Aby otworzyć okno dialogowe Edit Levels, z menu kontekstowego atrybutu należy wybrać Edit levels. W oknie Edit Levels można definiować ręcznie granice przedziałów lub grupy wartości.

Jeżeli atrybut jest w trybie wartości, wartości są oddzielone przecinkami. Aby utworzyć grupę z więcej niż jednej wartości, listę tych wartości oddzielonych przecinkami należy otoczyć nawiasami kwadratowymi (por. rys. poniżej).

Rysunek 12.11. Okno dialogowe Edit Levels w trybie wartości

Okno dialogowe Edit Levels w trybie wartości

Rysunek 12.12. Grupowanie wartości w oknie dialogowym Edit Levels

Grupowanie wartości w oknie dialogowym Edit Levels

Jeżeli atrybut jest trybie przedziałowym, granice przedziałów są oddzielone spacjami. Podwójna kropka (..) odpowiada +/- nieskończoności dla ostatniego i pierwszego przedziału, odpowiednio (por. rys. poniżej).

Rysunek 12.13. Okno dialogowe Edit Levels w trybie przedziałowym

Okno dialogowe Edit Levels w trybie przedziałowym

Używanie ustawień w trybie przedziałowym

W trybie przedziałowym zmiana poziomów możliwa jest w następujący sposób:

  • Aby zmienić liczbę przedziałów, należy wprowadzić żądaną wartość w polu Bins # poniżej histogramu.
  • W polu Min. wprowadzić minimalną wartość dla dolnej granicy drugiego przedziału. Pierwszy przedział będzie zawierał wszystkie wartości niższe niż Min. Analogicznie, w polu Max należy wprowadzić maksymalną wartość dla przedostatniego przedziału. Ostatni przedział będzie zawierał wszystkie wartości większe niż Max.
  • Przeliczyć atrybut ponownie, aby wyświetlić histogram i tabelę z zakresem zmienności uwzględniające nowe ustawienia przedziałów.

Innym sposobem ustawienia wartości Min i Max jest zaznaczenie żądanego zakresu poziomów na histogramie lub w tabeli i wybranie Set min/max from selection z menu kontekstowego. Z wyłączeniem pierwszego i ostatniego, wszystkie przedziały będą równej długości. - Jeżeli nie podano wartości Min, zostanie ona wyznaczona - automatycznie w taki sposób, aby pierwsze dwa przedziały miały równą długość. - To samo dotyczy wartości Max i ostatnich dwóch przedziałów.