AdvancedMiner - Dokumetacja Techniczna

Wersja 3.3 20150306

Wszystkie prawa zastrzeżone

Żadna część tej publikacji nie może być reprodukowana, przechowywana w systemach wyszukiwania lub przekazywana w jakiejkolwiek formie i żadnymi środkami elektronicznymi, mechanicznymi, za pośrednictwem fotokopiarek czy w inny sposób bez pisemnej zgody Algolytics Sp. z o.o.


Spis treści

I. Praca z systemem AdvancedMiner
1. Workflow
Podstawowe informacje o komponencie Workflow
Opisy węzłów
Statusy połączeń węzłów
Źródła danych
Analiza danych
Wykresy
Transformacje Techniczne (operacje na danych)
Transformacje analityczne (Przekształcenia danych)
Modelowanie
SNA
Rezultaty
Inne
Harmonogram Workflow
2. Gython – język skryptowy systemu AdvancedMiner
Podstawy języka Python
Składnia
Zmienne
Operatory
Sterowanie przepływem
Obiekty w języku Gython
Definiowanie i wywoływanie funkcji
Metody dla zmiennych różnych typów
Metody dla literałów łańcuchowych
Metody list
Metody słowników
Funkcje ze standardowych bibliotek Gython-a
Wbudowane funkcje
Funkcje działające na literałach łańcuchowych
Funkcje matematyczne
Funkcje pseudolosowe
Obiekty date i time
Zarządzanie obiektami w Gythonie
Konstrukcja i odczyt
Zapisywanie obiektów
Wczytywanie obiektów
Zmiana nazw oiektów
Wykonywanie zadań
usuwanie obiektów
Checking object existence
Przerywanie zadań
Zapisywanie środowiska skryptowego
Wczytywanie środowiska skryptowego
Tworzenie aliasu do repozytorium metadanych
Logowanie wiadomości
Registry Repository
Ścieżka projektu
Skrypty kontekstowe
Działanie skryptów kontekstowych
Gdzie znajdują się skrypty kontekstowe?
Tworzenie skryptów kontekstowych
Uzyskiwanie informacji od użytkownika za pomocą okna InputDialog
3. AdvancedMiner w Praktyce
Budowanie modeli
Ogólne zasady
Budowanie modeli aproksymacyjnych
Budowanie modeli klasyfikacyjnych
Budowanie modelu opartego na analizie skupień
Budowanie modelu przeżycia
Testowanie modeli
Testowanie modeli aproksymacyjnych - ApproximationTestTask
Testowanie Modeli Klasyfikacyjnych - ClassificationTestTask
Testowanie modelu przeżycia - SurvivalTestTask
Zadanie testowania modelu szeregu czasowego
Zadanie testowania klasyfikacji na podstawie tabeli z wynikami scoringowymi
Stosowanie modeli
Podstawowe pojęcia
Zaawansowane pojęcia
Konfiguracja minimalna
Stosowanie modeli dla różnych funkcji ekstrakcji danych
Przykłady
Uproszczone sposoby budowania, testowania i stosowania modeli
Approximator
Classifier
Clusterer
Applier
Eksperymenty
Projekt Experiments
Uruchamianie eksperymentu
Porównywanie modeli
Słownik
Analiza Sieci Społecznych
Tworzenie sieci
Filtrowanie sieci
Analizowanie sieci
Wizualizacja Sieci
Budowanie modeli w programie AdvancedMiner za pomocą funkcji ABM
4. Dostęp do Danych oraz Przetwarzanie Danych
Dostęp do Baz Danych
Aliasy
Eksplorator baz danych
Używanie poleceń SQL
Import i eksport danych oraz inne operacje na bazie danych
Importowanie arkuszy Ms Excel
Importowanie plików CSV
Eksportowanie danych do arkuszy MS Excel
Eksportowanie danych do pliku CSV
Otrzymanie listy kolumn dla tabeli bazy danych
Usuwanie tabeli bazy danych
Sprawdzanie istnienia tabeli bazy danych.
Tworzenie tabel w Gython
Tworzenie tabeli przez ręczną specyfikację danych
Tworzenie tabeli z danymi skopiowanymi z listy
Tworzenie tabeli przez wzięcie wartości z wyniku zapytania SQL
Użycie list do zdefiniowania nazw kolumn oraz formatu
Importowanie danych z zewnętrznych źródeł
Procedura Trans
Transformacja podstawowa
Słowo kluczowe where
słowa kluczowe keep in oraz drop in
Słowa kluczowe keep out oraz drop out Słowa kluczowe
format słowa kluczowego
Indexes
Kontrola przepływu
Tabele połączone
Słowo kluczowe rename
Łączenie tabel
Uwagi
Funkcja transformacji danych
Ustalenie kolejności danych(Procedura rank)
Ekspansja danych (procedura interpolate)
Próbkowanie danych (komenda sample )
Dzielenie Tabel (Procedura tableSplit)
Tabele transponowanie (Procedura transpose)
Porównanie dwóch tabel (Procedura tablesCompare)
Predefiniowane transformacje dla modeli Data Mining
Wstęp
Typy Transformacji
Użycie
Przykłady
Ważne uwagi
Bibliografia
5. Integracja z popularnymi pakietami biurowymi
Zintegrowane wsparcie dla pakietów biurowych
Ustanowienie połączenia dla MS-Office
Ustanowienie połączenia dla OpenOffice
Tworzenie spersonalizowanych raportów
Tworzenie oraz praca z arkuszami kalkulacyjnymi
Tworzenie i używanie dokumentu tekstowego
6. Biblioteka optymalizacyjna
Zadanie optymalizacji
Funkcja celu
Ograniczenia
Metody optymalizacji
Rozwiązywanie zadania optymalizacji.
Stosowanie
Bibliografia
7. Procedury i testy statystyczne
Funkcje statystyczne
Statystyka chi-kwadrat (Chi-square statistic)
Współczynnik korelacji Pearsona (Pearson's correlation coefficient)
Procedura wielowymiarowej analizy częstotliwości występowania (Multidimensional frequency analysis procedure)
Testy statystyczne
Użycie testów statystycznych
Dystrybuanta empiryczna
Test Andersona-Darlinga (The Anderson-Darling test)
Test Chi-kwadrat (The Chi-square test)
F-test
Test Kołmogorowa-Smirnowa (Kolmogorov-Smirnov test)
Kuiper test
Test Levene'a
Test Manna-Whitneya (Mann-Whitney test)
Test Pearsona
Test proporcji
Test znaków
Test Spearmana
Test t-Studenta
Bibliografia
8. Rozkłady Prawdopodobieństw
Biblioteka Rozkładów
Charakterystyki i próbkowanie z rozkładów
Lista dostępnych rozkładów prawdopodobieństw
Lista dostępnych dyskretnych rozkładów prawdopodobieństwa
Tabele rozkładów
Biblioteka Funkcji Specjalnych
Statystyki próbki danych empirycznych
Generatory liczb losowych
Referencje
9. Monte Carlo Markov Chains Library
Wstęp
The MarkovChain class
Description
MarkovChain object methods
MarkovChain static methods
Algorithms
The Metropolis algorithm
Metropolis-Hastings algorithm
Bayesian inference
Transition functions
Transition functions from distribution
Random walk transition function
Distributions
Sampling Distribution
Likelihood function
Helper distributions
Convergence Diagnostics and Output Analysis tool
Output Analysis
Diagnostics
References
10. Kod scoringowy w AdvancedMiner
Wprowadzenie
Kod scoringowy dla modeli
Wymagania
Tworzenie kodu scoringowego w Java opartego na modelu krok po kroku
Architektura kodu scoringowego w Java
Wykonywanie kodu scoringowego dla modelu
Różnice w kodzie scoringowym dla różnych modeli
Wykonywanie kodu scoringowego poza systemem AdvancedMiner
Czytanie InputSignature
Przykład wykorzystania kodu scoringowego w zewnętrznej aplikacji
11. Wizualizacja Danych
Wstęp
Przygotowanie danych do wykresu
Obiekty danych
Deklarowanie typów kolumn
Automatyczne uzyskiwanie typu danych
Szablony specyfikacji danych
Grupowanie serii
Niespójne dane
Tworzenie wykresów
Obiekty wykresu
Metody obiektu wykresu
Typy wykresów
Grupowanie wykresów
Zagadnienia dodatkowe
Interakcja z wykresami
Interakcja z wykresami 2D
Interakcja z wykresami(3D)
12. Freq - narzędzie do wizualnej eksploracji danych
Wprowadzenie
Uruchomienie Freqa
Przegląd komponentu Freq
Praca z atrybutami
Wyliczanie atrybutów
Widok atrybutu
Tryby wyświetlania atrybutów
Typy histogramów
Edytowanie poziomów i grupowanie wartości
Analiza danych we Frequ
Atrybuty wirtualne
Filtrowanie danych
Praca z atrybutem target
Macierz korelacji
Eksport do arkuszy Excel
Statystyki atrybutów we Frequ
Podstawowe statystyki atrybutu
Statystyki korelacji atrybutów
Statystyki związane z targetem
Zintegrowanie z innymi komponentami
Otwieranie obiektu PhysicalData
Widok danych
Dowiązania między komponentami
13. Silnik Raportów
Wstęp
Użycie
14. Serwer Operacyjny
Wstęp
Wymagania oraz Architektura
Konfiguracja
Szybkie Wprowadzenie
15. Raporty Modeli
Raport Wydajnościowy
Raport Statystycznych Testów
Raport Stabilności
II. Moduły
16. Automatyczna Selekcja Zmiennych
Wprowadzenie
Opis metody
Założenia metody
Model pełny
Algorytm Forward Selection
Algorytm Backward Elimination
Algorytm Stepwise Selection
Algorytm Best Subset
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykład automatycznej selekcji zmiennych
Bibliografia
17. Kroswalidacja
Opis metody
Użycie
Ustawienia węzła
Ustawienia procesu
18. Dwuwymiarowy model probitowy
Wprowadzenie
Opis metody
Funkcja wiarygodności z pełną obserwowalnością
Funkcja wiarygodności z częściową obserwowalnością
Estymator największej wiarygodności
Istotność modelu
Test zerowej korelacji
Przedziały ufności
Użycie
Wymagania odnośnie danych
Budowa modelu
Zastosowanie modelu
Przykład
Bibliografia
19. Drzewa Klasyfikacyjne
Wprowadzenie
Opis metody
Struktura Drzew Klasyfikacyjnych
Algorytm budowania drzewa
Przycinanie drzewa
Braki danych
Użycie
Wymogi dotyczące danych
Budowa i testowanie modelu
Zastosowanie modelu
Statystyki modelu
Przykład
Referencje
20. Las losowy (Smart Trees)
Wprowadzenie
Opis metody
Struktura lasu losowego
Algorytm budowy modelu
Wartości Null
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Model statistics
21. Analiza dyskryminacyjna
Wprowadzenie
Opis metody
Model analizy dyskryminacyjnej
Założenia modelu
Wykorzystanie
Wymogi dotyczące danych
Budowanie i testowanie modelu
Zastosowanie modelu
Przykład
Bibliografia
22. Jakość danych (Data Matching)
Wprowadzenie
Opis metody
Indeksy blokowe
Oszacowania podobieństwa atrybutów
Klasyfikacja rekordów
Użycie
Możliwości
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykład
Bibliografia
23. Sieci neuronowe (jednokierunkowe)
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykłady
Przygotowanie danych
Budowa modelu
Zastosowanie modelu
Testowanie modelu
Bibliografia
24. Grupowanie metodą k-średnich
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa modelu
Model statistics
Zastosowanie modelu
Przykład grupowania metodą k-średnich
Bibliografia
25. Sieci Kohonena
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa modelu
Wyliczanie statystyk modelu
Narzędzie SOM Explorer
Model SOM
Wizualizacja
Zapisywanie zmodyfikowanego modelu
Przykłady
Bibliografia
26. Regresja liniowa
Wprowadzenie
Opis metody
Standardowa regresja liniowa
Ważona regresja liniowa (WLS)
Regresja liniowa przeważana iteracyjnie (Regresja metodą IRLS)
Użycie
Wymogi dotyczące danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykłady
Przykład standardowej regresji liniowej
Przykład regresji IRLS
Referencje
27. Regresja logistyczna
Wprowadzenie
Opis metody
Funkcja logitowa
Szansa i iloraz szans
Funkcja wiarygodności
Miary jakości dopasowania modelu
Współliniowość w regresji logistycznej
Przedziały ufności
Użycie
Wymagania odnośnie danych
Budowa i testowanie modelu
Zastosowanie modelu
Przykład regresji logistycznej
Bibliografia
28. Analiza Przeżycia
Wprowadzenie
Opis metody: model dalszego czasu życia
Obserwacje ucięte (cenzorowane)
Modele nieparametryczne
Model Coxa
Wykorzystanie
Wymogi dotyczące danych
Budowanie modelu i testowanie
Zastosowanie modelu
Przykład Analizy Przeżycia
Przykład: Semi-parametryczny model Coxa
Przykład: nie-parametryczny model dalszego czasu życia
Bibliografia
29. Karta Skoringowa
Wstęp
Opis metody
Atrybuty, poziomy, przedziały.
Punkty
Szczegóły algorytmu
Użycie
Wymagania dotyczące danych
Budowa modelu
Testowanie modelu
Aplikacja karty do nowych danych
Przykłady
Referencje
30. Szeregi czasowe
Wprowadzenie
Opis metody
Użycie
Wymagania odnośnie danych
Budowa modelu
Testowanie modelu
Zastosowanie modelu
Przykłady
Budowa modelu
Testowanie modelu
Zastosowanie modelu
Bibliografia
31. Moduł Analizy Sieci Społecznych
Wprowadzenie
Opis metody
Sieć społeczna
Klasyfikacja sieci
Podstawowe pojęcia używane w analizie sieci społecznych
Opis algorytmów użytych w Analizie Sieci Społecznych
Użycie
Budowa sieci
Analiza sieci
Filtrowanie sieci
Wizualizacja sieci
Examples
Bibliografia
32. StatReport
StatReport
Użycie
Ustawienia węzła StatReport
Raport
Population
Model confidence level
Model Stability
Variable Summary
Variables
Variable Statistics
III. GDBase
Wstęp
33. Opis języka SQL w bazie GDBase
Informacje wstępne
ALTER TABLE
CHECK TABLE
COMMENT
CREATE INDEX
CREATE/REPLACE TABLE
CREATE TABLE ... TRANSFORM
Funkcja __vars__
Pomijanie wierszy
Przetwarzanie w grupach
Funkcja __save__
Odwoływanie się do wcześniejszych wierszy
Kod SQL w bloku TRANSFORM
CREATE TRIGGER
Funkcja RAISE
CREATE VIEW
DELETE
DROP INDEX
DROP TABLE
DROP TRIGGER
DROP VIEW
GET
INSERT
MERGE
ON CONFLICT
REPLACE INTO
SELECT
DISTINCT
KEEP i DROP
FROM
WHERE
GROUP BY
ORDER BY
LIMIT
UNION, UNION ALL, APPEND, EXCEPT, INTERSECT
JOIN
SAMPLE
Kolejność wykonywania klauzul w instrukcji SELECT
TRANSACTION
UPDATE
Typy danych
Wyrażenia
Operatory jednoargumentowe
Operatory dwuargumentowe
Nazwy kolumn
Instrukcje SELECT w wyrażeniach
Instrukcja CAST
Additional information
Podstawowe funkcje w GDBase
Funkcje proste
Funkcje agregujące
Funkcje okien
Literały łańcuchowe w instrukcjach SQL
Słowa kluczowe
Znaki specjalne
Wartości Null
Komentarze w kodzie SQL
34. Importowanie i eksportowanie danych
Importowanie i eksportowanie danych pomiędzy bazami GDBase
Importowanie z lokalnej bazy danych GDBase
Importowanie ze zdalnej bazy danych GDBase
Eksportowanie do lokalnej bazy danych GDBase
Eksportowanie do zdalnej bazy danych GDBase
Importowanie i eksportowanie danych za pomocą sterowników ODBC
IMPORT ... USING ODBC
EXPORT ... USING ODBC
Typy danych w importowanych tabelach
35. Zarządzanie bazą GDBase
Informacje ogólne
Ustanowienie połączenia z bazą GDBase
Logowanie do bazy danych
Użytkownik domyślny
Konta administratorów
Tworzenie konta administratora
Zmiana hasła administratora
Konta użytkowników
Tworzenie nowego użytkownika
Uprawnienia użytkowników
Zmiana uprawnień użytkownika
Wyświetlanie uprawnień użytkownika
Uprawnienia dostępu do tabel
Uprawnienia użytkowników
Zmiana hasła użytkownika
Usuwanie użytkownika
Kontrola dostępu
Określanie uprawnień dostępu
Uprawnienia domyślne dla tabel
Kontrola kwerend
SHOW PROCESS
KILL PROCESS
PAUSE PROCESS
RESUME PROCESS
Polecenia dostępne za pośrednictwem interfejsu graficznego
Dodatkowe informacje
Resetowanie uprawnień użytkowników
A. Słowa kluczowe GDBase
Indeks
<script> (function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){ (i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o), m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m) })(window,document,'script','https://www.google-analytics.com/analytics.js','ga'); ga('create', 'UA-1590848-8', 'auto'); ga('send', 'pageview'); </script>