Eksploracja danych

Przeglądanie struktury danych

Przeglądarka baz danych (Database Explorer)

Przeglądanie struktury danych, załadowanych do bazy przez użytkownika, jest możliwe dzięki przeglądarce baz danych (Database Explorer). Pozwala ona na:

  • podgląd zawartości bazy danych (podwójne kliknięcie aliasu - zobacz film)
  • obliczenie rozmiaru wskazanych tabel (zobacz film)
  • przeglądanie struktury tabeli (podwójne kliknięcie na tabelce w drzewie aliasu - zobacz film)
  • podgląd zawartości tabeli (zobacz film1 (podgląd całej tabeli) lub film2 (podgląd wybranych kolumn)).
  • wykonywanie poleceń SQL (zobacz przykład 1, przykład 2)
  • usuwanie tabeli z bazy (zobacz film).

Eksploracja zawartości danych

Tworzenie reprezentacji danych - PhysicalData

Do dalszej pracy z danymi niezbędne jest utworzenie obiektu reprezentującego zbiór danych - PhysicalData. Obiekt ten zawiera szereg informacji o analizowanym zbiorze takich, jak typy atrybutów, podstawowe statystyki czy lokalizacja źródła danych.

Obiekt PhysicalData można utworzyć za pomocą przeglądarki baz danych (zobacz film) lub narzędzia Metadata Explorer (zobacz film). W oknie widoku jest możliwe obejrzenie jego zawartości: listy zmiennych i powiązanych z nimi statystyk, o ile zostały policzone (zobacz film).

Więcej informacji na temat pracy z obiektami metadanych można znaleźć w rozdziale Repozytorium Metadanych.

Analiza danych przy użyciu narzędzia Freq

Wstępna analiza danych jest ważnym etapem każdego projektu analitycznego dlatego też specjalnie do tego celu utworzono narzędzie Freq. Można je uruchomić na przykład z poziomu okna widoku PhysicalData (zobacz film).

Pierwszym krokiem, po uruchomieniu narzędzia Freq, jest przeliczenie statystyk dla analizowanych zmiennych, pozwalające na uzyskanie szeregu informacji o atrybutach. System AdvancedMiner umożliwia:

  • wizualizację rozkładów zmiennych: tryb kategoryczny, przedziałowy (zobacz film) oraz statystyczny (zobacz film)
  • budowę histogramu: nieskumulowanego, skumulowanego (zobacz film) oraz wygładzonego (zobacz film)
  • ograniczenie zakresu obserwowanych danych poprzez ustawienie wartości minimalnej, maksymalnej czy też liczby interwałów (binów) (zobacz film)
  • obliczenie statystyk zmiennej (zobacz film)
  • badanie zależności między zmiennymi a targetem (zobacz film na temat wizualizacji poziomu targetu i zaznaczania poziomu a priori)
  • pracę z wieloma zmiennymi (zobacz film pokazujący użycie mechanizmu filtrowania nazw zmiennych)
  • tworzenie wirtualnych zmiennych (zobacz film na temat tworzenia kopii widoku zmiennej)
  • grupowanie wartości zmiennej kategorycznej (zobacz film)
  • ustawianie różnych opcji widoku histogramu, na przykład:
    • ograniczenie zakresu obserwowanych danych (zobacz film)
    • powiększenie fragmentu histogramu (zobacz film)
    • podgląd oryginalnych danych z zaznaczonego fragmentu histogramu (zobacz film).

Notatka

W celu wykonania operacji policzenia statystyk, należy użyć klawisza F6, kliknąć ikonkę 'Execute icon' znajdującą się na głównym pasku narzędzi lub wybrać akcję 'Execute' z menu kontekstowego węzła narzędzia.

Przeliczone w narzędziu Freq statystyki są przechowywane w obiekcie PhysicalData, którego użytkownik może również użyć do ich przeglądania (zobacz film).

Więcej informacji o narzędziu Freq znajduje się w Dokumentacji technicznej.

Analiza korelacji

Oprócz wizualizacji rozkładów i statystyk oferowanej przez narzędzie Freq, użytkownik dysponuje także narzędziem umożliwiającym analizę korelacji zmiennych - Macierz Korelacji (Correlation Matrix). Obydwa narzędzia (Freq oraz Correlation Matrix) są elementami obiektu MR CalculateStatisticsTask. Jest on automatycznie tworzony podczas uruchamiania narzędzia Freq (na przykład z poziomu widoku PhysicalData), ale może być też utworzony bezpośrednio za pomocą Metadata Explorer (zobacz film).

Pracę z Macierzą Korelacji przedstawiono na filmie.