AdvancedMiner - Dokumetacja Techniczna
Poprzedni	AdvancedMiner Documentation	Następny

AdvancedMiner - Dokumetacja Techniczna

Wersja 3.3 20150306

Wszystkie prawa zastrzeżone

Żadna część tej publikacji nie może być reprodukowana, przechowywana w systemach wyszukiwania lub przekazywana w jakiejkolwiek formie i żadnymi środkami elektronicznymi, mechanicznymi, za pośrednictwem fotokopiarek czy w inny sposób bez pisemnej zgody Algolytics Sp. z o.o.

Spis treści

I. Praca z systemem AdvancedMiner

1. Workflow

Podstawowe informacje o komponencie Workflow

Opisy węzłów

Statusy połączeń węzłów
Źródła danych
Analiza danych
Wykresy
Transformacje Techniczne (operacje na danych)
Transformacje analityczne (Przekształcenia danych)
Modelowanie
SNA
Rezultaty
Inne

Harmonogram Workflow

2. Gython – język skryptowy systemu AdvancedMiner

Podstawy języka Python

Składnia
Zmienne
Operatory
Sterowanie przepływem
Obiekty w języku Gython
Definiowanie i wywoływanie funkcji

Metody dla zmiennych różnych typów

Metody dla literałów łańcuchowych
Metody list
Metody słowników

Funkcje ze standardowych bibliotek Gython-a

Wbudowane funkcje
Funkcje działające na literałach łańcuchowych
Funkcje matematyczne
Funkcje pseudolosowe
Obiekty date i time

Zarządzanie obiektami w Gythonie

Konstrukcja i odczyt
Zapisywanie obiektów
Wczytywanie obiektów
Zmiana nazw oiektów
Wykonywanie zadań
usuwanie obiektów
Checking object existence
Przerywanie zadań
Zapisywanie środowiska skryptowego
Wczytywanie środowiska skryptowego
Tworzenie aliasu do repozytorium metadanych
Logowanie wiadomości
Registry Repository
Ścieżka projektu

Skrypty kontekstowe

Działanie skryptów kontekstowych
Gdzie znajdują się skrypty kontekstowe?
Tworzenie skryptów kontekstowych

Uzyskiwanie informacji od użytkownika za pomocą okna InputDialog

3. AdvancedMiner w Praktyce

Budowanie modeli

Ogólne zasady
Budowanie modeli aproksymacyjnych
Budowanie modeli klasyfikacyjnych
Budowanie modelu opartego na analizie skupień
Budowanie modelu przeżycia

Testowanie modeli

Testowanie modeli aproksymacyjnych - ApproximationTestTask
Testowanie Modeli Klasyfikacyjnych - ClassificationTestTask
Testowanie modelu przeżycia - SurvivalTestTask
Zadanie testowania modelu szeregu czasowego
Zadanie testowania klasyfikacji na podstawie tabeli z wynikami scoringowymi

Stosowanie modeli

Podstawowe pojęcia
Zaawansowane pojęcia
Konfiguracja minimalna
Stosowanie modeli dla różnych funkcji ekstrakcji danych
Przykłady

Uproszczone sposoby budowania, testowania i stosowania modeli

Approximator
Classifier
Clusterer
Applier

Eksperymenty

Projekt Experiments
Uruchamianie eksperymentu
Porównywanie modeli
Słownik

Analiza Sieci Społecznych

Tworzenie sieci
Filtrowanie sieci
Analizowanie sieci
Wizualizacja Sieci

Budowanie modeli w programie AdvancedMiner za pomocą funkcji ABM

4. Dostęp do Danych oraz Przetwarzanie Danych

Dostęp do Baz Danych

Aliasy
Eksplorator baz danych
Używanie poleceń SQL

Import i eksport danych oraz inne operacje na bazie danych

Importowanie arkuszy Ms Excel
Importowanie plików CSV
Eksportowanie danych do arkuszy MS Excel
Eksportowanie danych do pliku CSV
Otrzymanie listy kolumn dla tabeli bazy danych
Usuwanie tabeli bazy danych
Sprawdzanie istnienia tabeli bazy danych.

Tworzenie tabel w Gython

Tworzenie tabeli przez ręczną specyfikację danych
Tworzenie tabeli z danymi skopiowanymi z listy
Tworzenie tabeli przez wzięcie wartości z wyniku zapytania SQL
Użycie list do zdefiniowania nazw kolumn oraz formatu
Importowanie danych z zewnętrznych źródeł

Procedura Trans

Transformacja podstawowa
Słowo kluczowe where
słowa kluczowe keep in oraz drop in
Słowa kluczowe keep out oraz drop out Słowa kluczowe
format słowa kluczowego
Indexes
Kontrola przepływu
Tabele połączone
Słowo kluczowe rename
Łączenie tabel
Uwagi

Funkcja transformacji danych

Ustalenie kolejności danych(Procedura rank)
Ekspansja danych (procedura interpolate)
Próbkowanie danych (komenda sample )
Dzielenie Tabel (Procedura tableSplit)
Tabele transponowanie (Procedura transpose)
Porównanie dwóch tabel (Procedura tablesCompare)

Predefiniowane transformacje dla modeli Data Mining

Wstęp
Typy Transformacji
Użycie
Przykłady
Ważne uwagi
Bibliografia

5. Integracja z popularnymi pakietami biurowymi

Zintegrowane wsparcie dla pakietów biurowych

Ustanowienie połączenia dla MS-Office
Ustanowienie połączenia dla OpenOffice

Tworzenie spersonalizowanych raportów

Tworzenie oraz praca z arkuszami kalkulacyjnymi
Tworzenie i używanie dokumentu tekstowego

6. Biblioteka optymalizacyjna

Zadanie optymalizacji
Funkcja celu
Ograniczenia
Metody optymalizacji
Rozwiązywanie zadania optymalizacji.
Stosowanie
Bibliografia

7. Procedury i testy statystyczne

Funkcje statystyczne

Statystyka chi-kwadrat (Chi-square statistic)
Współczynnik korelacji Pearsona (Pearson's correlation coefficient)
Procedura wielowymiarowej analizy częstotliwości występowania (Multidimensional frequency analysis procedure)

Testy statystyczne

Użycie testów statystycznych
Dystrybuanta empiryczna
Test Andersona-Darlinga (The Anderson-Darling test)
Test Chi-kwadrat (The Chi-square test)
F-test
Test Kołmogorowa-Smirnowa (Kolmogorov-Smirnov test)
Kuiper test
Test Levene'a
Test Manna-Whitneya (Mann-Whitney test)
Test Pearsona
Test proporcji
Test znaków
Test Spearmana
Test t-Studenta
Bibliografia

8. Rozkłady Prawdopodobieństw

Biblioteka Rozkładów

Charakterystyki i próbkowanie z rozkładów
Lista dostępnych rozkładów prawdopodobieństw
Lista dostępnych dyskretnych rozkładów prawdopodobieństwa
Tabele rozkładów

Biblioteka Funkcji Specjalnych

Statystyki próbki danych empirycznych

Generatory liczb losowych

Referencje

9. Monte Carlo Markov Chains Library

Wstęp

The MarkovChain class

Description
MarkovChain object methods
MarkovChain static methods

Algorithms

The Metropolis algorithm
Metropolis-Hastings algorithm
Bayesian inference

Transition functions

Transition functions from distribution
Random walk transition function

Distributions

Sampling Distribution
Likelihood function
Helper distributions

Convergence Diagnostics and Output Analysis tool

Output Analysis
Diagnostics

References

10. Kod scoringowy w AdvancedMiner

Wprowadzenie

Kod scoringowy dla modeli

Wymagania
Tworzenie kodu scoringowego w Java opartego na modelu krok po kroku
Architektura kodu scoringowego w Java
Wykonywanie kodu scoringowego dla modelu
Różnice w kodzie scoringowym dla różnych modeli

Wykonywanie kodu scoringowego poza systemem AdvancedMiner

Czytanie InputSignature
Przykład wykorzystania kodu scoringowego w zewnętrznej aplikacji

11. Wizualizacja Danych

Wstęp

Przygotowanie danych do wykresu

Obiekty danych
Deklarowanie typów kolumn
Automatyczne uzyskiwanie typu danych
Szablony specyfikacji danych
Grupowanie serii
Niespójne dane

Tworzenie wykresów

Obiekty wykresu
Metody obiektu wykresu
Typy wykresów
Grupowanie wykresów
Zagadnienia dodatkowe

Interakcja z wykresami

Interakcja z wykresami 2D
Interakcja z wykresami(3D)

12. Freq - narzędzie do wizualnej eksploracji danych

Wprowadzenie

Uruchomienie Freqa
Przegląd komponentu Freq

Praca z atrybutami

Wyliczanie atrybutów
Widok atrybutu
Tryby wyświetlania atrybutów
Typy histogramów
Edytowanie poziomów i grupowanie wartości

Analiza danych we Frequ

Atrybuty wirtualne
Filtrowanie danych
Praca z atrybutem target
Macierz korelacji

Eksport do arkuszy Excel

Statystyki atrybutów we Frequ

Podstawowe statystyki atrybutu
Statystyki korelacji atrybutów
Statystyki związane z targetem

Zintegrowanie z innymi komponentami

Otwieranie obiektu PhysicalData
Widok danych
Dowiązania między komponentami

13. Silnik Raportów

Wstęp
Użycie

14. Serwer Operacyjny

Wstęp
Wymagania oraz Architektura
Konfiguracja
Szybkie Wprowadzenie

15. Raporty Modeli

Raport Wydajnościowy
Raport Statystycznych Testów
Raport Stabilności

II. Moduły

16. Automatyczna Selekcja Zmiennych

Wprowadzenie

Opis metody

Założenia metody
Model pełny
Algorytm Forward Selection
Algorytm Backward Elimination
Algorytm Stepwise Selection
Algorytm Best Subset

Użycie

Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu

Przykład automatycznej selekcji zmiennych

Bibliografia

17. Kroswalidacja

Opis metody

Użycie

Ustawienia węzła
Ustawienia procesu

18. Dwuwymiarowy model probitowy

Wprowadzenie

Opis metody

Funkcja wiarygodności z pełną obserwowalnością
Funkcja wiarygodności z częściową obserwowalnością
Estymator największej wiarygodności
Istotność modelu
Test zerowej korelacji
Przedziały ufności

Użycie

Wymagania odnośnie danych
Budowa modelu
Zastosowanie modelu

Przykład

Bibliografia

19. Drzewa Klasyfikacyjne

Wprowadzenie

Opis metody

Struktura Drzew Klasyfikacyjnych
Algorytm budowania drzewa
Przycinanie drzewa
Braki danych

Użycie

Wymogi dotyczące danych
Budowa i testowanie modelu
Zastosowanie modelu
Statystyki modelu

Przykład

Referencje

20. Las losowy (Smart Trees)

Wprowadzenie

Opis metody

Struktura lasu losowego
Algorytm budowy modelu
Wartości Null

Użycie

Wymagania odnośnie danych
Budowa i testowanie modelu

Model statistics

21. Analiza dyskryminacyjna

Wprowadzenie

Opis metody

Model analizy dyskryminacyjnej
Założenia modelu

Wykorzystanie

Wymogi dotyczące danych
Budowanie i testowanie modelu
Zastosowanie modelu

Przykład

Bibliografia

22. Jakość danych (Data Matching)

Wprowadzenie

Opis metody

Indeksy blokowe
Oszacowania podobieństwa atrybutów
Klasyfikacja rekordów

Użycie

Możliwości
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu

Przykład

Bibliografia

23. Sieci neuronowe (jednokierunkowe)

Wprowadzenie

Opis metody

Użycie

Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu

Przykłady

Przygotowanie danych
Budowa modelu
Zastosowanie modelu
Testowanie modelu

Bibliografia

24. Grupowanie metodą k-średnich

Wprowadzenie

Opis metody

Użycie

Wymagania odnośnie danych
Budowa modelu
Model statistics
Zastosowanie modelu

Przykład grupowania metodą k-średnich

Bibliografia

25. Sieci Kohonena

Wprowadzenie

Opis metody

Użycie

Wymagania odnośnie danych
Budowa modelu
Wyliczanie statystyk modelu

Narzędzie SOM Explorer

Model SOM
Wizualizacja
Zapisywanie zmodyfikowanego modelu

Przykłady

Bibliografia

26. Regresja liniowa

Wprowadzenie

Opis metody

Standardowa regresja liniowa
Ważona regresja liniowa (WLS)
Regresja liniowa przeważana iteracyjnie (Regresja metodą IRLS)

Użycie

Wymogi dotyczące danych
Budowa i testowanie modelu
Zastosowanie modelu

Przykłady

Przykład standardowej regresji liniowej
Przykład regresji IRLS

Referencje

27. Regresja logistyczna

Wprowadzenie

Opis metody

Funkcja logitowa
Szansa i iloraz szans
Funkcja wiarygodności
Miary jakości dopasowania modelu
Współliniowość w regresji logistycznej
Przedziały ufności

Użycie

Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu

Przykład regresji logistycznej

Bibliografia

28. Analiza Przeżycia

Wprowadzenie

Opis metody: model dalszego czasu życia

Obserwacje ucięte (cenzorowane)
Modele nieparametryczne
Model Coxa

Wykorzystanie

Wymogi dotyczące danych
Budowanie modelu i testowanie
Zastosowanie modelu

Przykład Analizy Przeżycia

Przykład: Semi-parametryczny model Coxa
Przykład: nie-parametryczny model dalszego czasu życia

Bibliografia

29. Karta Skoringowa

Wstęp

Opis metody

Atrybuty, poziomy, przedziały.
Punkty
Szczegóły algorytmu

Użycie

Wymagania dotyczące danych
Budowa modelu
Testowanie modelu
Aplikacja karty do nowych danych

Przykłady

Referencje

30. Szeregi czasowe

Wprowadzenie

Opis metody

Użycie

Wymagania odnośnie danych
Budowa modelu
Testowanie modelu
Zastosowanie modelu

Przykłady

Budowa modelu
Testowanie modelu
Zastosowanie modelu

Bibliografia

31. Moduł Analizy Sieci Społecznych

Wprowadzenie

Opis metody

Sieć społeczna
Klasyfikacja sieci
Podstawowe pojęcia używane w analizie sieci społecznych
Opis algorytmów użytych w Analizie Sieci Społecznych

Użycie

Budowa sieci
Analiza sieci
Filtrowanie sieci
Wizualizacja sieci

Użycie
Ustawienia węzła StatReport

Raport

Population
Model confidence level
Model Stability
Variable Summary
Variables
Variable Statistics

III. GDBase

Wstęp

33. Opis języka SQL w bazie GDBase

Informacje wstępne

CREATE/REPLACE TABLE

CREATE TABLE ... TRANSFORM

Funkcja __vars__
Pomijanie wierszy
Przetwarzanie w grupach
Funkcja __save__
Odwoływanie się do wcześniejszych wierszy
Kod SQL w bloku TRANSFORM

CREATE TRIGGER

Funkcja RAISE

DISTINCT
KEEP i DROP
FROM
WHERE
GROUP BY
ORDER BY
LIMIT
UNION, UNION ALL, APPEND, EXCEPT, INTERSECT
JOIN
SAMPLE
Kolejność wykonywania klauzul w instrukcji SELECT

Operatory jednoargumentowe
Operatory dwuargumentowe
Nazwy kolumn
Instrukcje SELECT w wyrażeniach
Instrukcja CAST
Additional information

Podstawowe funkcje w GDBase

Funkcje proste
Funkcje agregujące
Funkcje okien

Literały łańcuchowe w instrukcjach SQL

Słowa kluczowe
Znaki specjalne

Wartości Null

Komentarze w kodzie SQL

34. Importowanie i eksportowanie danych

Importowanie i eksportowanie danych pomiędzy bazami GDBase

Importowanie z lokalnej bazy danych GDBase
Importowanie ze zdalnej bazy danych GDBase
Eksportowanie do lokalnej bazy danych GDBase
Eksportowanie do zdalnej bazy danych GDBase

Importowanie i eksportowanie danych za pomocą sterowników ODBC

IMPORT ... USING ODBC
EXPORT ... USING ODBC

Typy danych w importowanych tabelach

35. Zarządzanie bazą GDBase

Informacje ogólne

Ustanowienie połączenia z bazą GDBase
Logowanie do bazy danych
Użytkownik domyślny

Konta administratorów

Tworzenie konta administratora
Zmiana hasła administratora

Konta użytkowników

Tworzenie nowego użytkownika
Uprawnienia użytkowników
Zmiana uprawnień użytkownika
Wyświetlanie uprawnień użytkownika
Uprawnienia dostępu do tabel
Uprawnienia użytkowników
Zmiana hasła użytkownika
Usuwanie użytkownika

Kontrola dostępu

Określanie uprawnień dostępu
Uprawnienia domyślne dla tabel

Kontrola kwerend

SHOW PROCESS
KILL PROCESS
PAUSE PROCESS
RESUME PROCESS

Polecenia dostępne za pośrednictwem interfejsu graficznego

Dodatkowe informacje

Resetowanie uprawnień użytkowników

A. Słowa kluczowe GDBase

Indeks

Poprzedni	Początek rozdziału	Następny
Rozdział 1. Budowa karty skoringowej na podstawie modelu	Spis treści	Część I. Praca z systemem AdvancedMiner