Klasyfikacja - budowa modelu klasyfikacyjnego
Defined Icon
BLOG

Jak ocenić jakość i poprawność modeli klasyfikacyjnych? Część 1 – Wprowadzenie

Czym jest klasyfikacja?

Klasyfikacja to przyporządkowanie obiektów do pewnych znanych klas, przy czym dany obiekt może zostać przyporządkowany tylko do jednej klasy. Przykładem zadania klasyfikacyjnego może być: 

  • przyporządkowanie pacjenta (obiekt) do grupy osób chorych bądź zdrowych (klasy) na podstawie historii jego choroby,
  • określenie wiarygodności klienta (obiekt) w celu przyznania kredytu (klasy: wiarygodny, niewiarygodny) na podstawie na przykład danych demograficznych, finansowych,
  • określenie czy klient (obiekt) jest skłonny do rezygnacji z usług / produktów firmy (klasy: odejdzie, nie odejdzie) na podstawie na przykład danych behawioralnych, demograficznych.

Jak wygląda proces tworzenia modeli klasyfikacyjnych?

W uproszczeniu, tworzenie modelu klasyfikacji składa się z następujących kroków:  

  1. Przygotowanie danych (import, przetwarzanie, eksploracja i analiza statystyczna)
    W ramach tego etapu dane są dzielone na części:

    dane trenujące – na ich podstawie budowany jest model
    (w złożonych przypadkach) dane walidacyjne – służą do oceny modelu podczas jego tworzenia, aby na bieżąco oceniać jakość modelu
    dane testujące (służą do finalnej oceny jakości przygotowanego modelu)

  2. Tworzenie modeli (z wykorzystaniem danych trenujących i opcjonalnie walidacyjnych)
  3. Ocena jakości modeli (testowanie stworzonego modelu na danych testowych)
  4. Zastosowanie modeli i ich dalszy monitoring (okresowe sprawdzanie czy nie pogarsza się jakość predykcji modelu, np. ze względu na zmiany demograficzne, rynkowe)

Jakie są wskaźniki jakości modeli klasyfikacyjnych?

Oceniając jakość modeli klasyfikacyjnych, możemy skorzystać z dwóch kategorii wskaźników:

  • Liczbowe wskaźniki jakości – statystyki wyrażające jakość klasyfikacji przy pomocy wymiernych wartości liczbowych.
  • Graficzne „wskaźniki” – graficzne przedstawienie jakości klasyfikacji, polegające na wizualizacji i odpowiednim zestawieniu różnych wskaźników liczbowych. Metody graficzne ułatwiają ocenę i prezentację wyników klasyfikacji. Przykładami tego typu wskaźników są:

    Confusion matrix
    Krzywa ROC
    Wykres LIFT

Podstawowe oznaczenia w procesie oceny modeli klasyfikacyjnych

Klasyfikacja dwuklasowa:
  • jedna z klas: klasa pozytywna (positive target value, klasa wyróżniona, patologiczna)
  • druga klasa: klasa negatywna (negative, klasa normalna)
Klasyfikacja wieloklasowa:
  • jedna z klas: klasa pozytywna (positive target value, klasa wyróżniona, patologiczna)
  • pozostałe klasy łącznie: klasa negatywna

Klasą pozytywną jest grupa obiektów, która nas interesuje w modelowaniu, czyli przykładowo są to klienci, którzy zrezygnowali z oferty (przy modelowaniu churnu) lub klienci, którzy nie spłacili kredytu (przy projektach credit scoring). Klasa negatywna to pozostali klienci.

TP, TN, FP, FN

  • TP – True Positive – liczba obserwacji poprawnie zaklasyfikowanych do klasy pozytywnej. Przykład: nasz model się nie pomylił i klienci, którzy zrezygnowali z oferty firmy zostali przypisani do klasy „nielojalni”
  • TN – True Negative – the number of observations correctly assigned to the negative class Example: the model’s predictions are correct and customers who continue using the service have been assigned to the class of „loyal” customers.
  • FP – False Positive – the number of observations assigned by the model to the positive class, which in reality belong to the negative class. Example: unfortunately the model is not perfect and made a mistake: some customers, who continue using the service have been assigned to the class of „disloyal” customers.
  • FN – False Negative – the number of observations assigned by the model to the negative class, which in reality belong to the positive class. Example: unfortunately the model is not perfect and made a mistake: some churning customers have been assigned to the class of „loyal” customers.

Dla idealnego klasyfikatora (czyli wszystko poprawnie zakwalifikowaliśmy i nasz model się nie pomylił) mamy: FP = 0 FN = 0 TP = liczba obserwacji należących do klasy pozytywnej TN = liczba obserwacji należących do klasy negatywnej Pos= TP + FN – liczba obserwacji należących do klasy pozytywnej Neg = FP + TN – liczba obserwacji należących do klasy negatywnej

Gratulacje! Teraz masz podstawową wiedzę na temat oceny modeli klasyfikacyjnych. W kolejnej części zajmiemy się liczbowymi wskaźnikami jakości.

Gotowy, aby rozwinąć swój biznes z Machine Learning & AI?

Zacznij wykorzystywać możliwości uczenia maszynowego i sztucznej inteligencji w swoim biznesie i osiągaj wymierne korzyści biznesowe - wzrost sprzedaży, ograniczenie kosztów i efektywność operacyjną.

Skontaktuj się z nami, a wspólnie opracujemy nowoczesną strategię zarządzania procesami biznesowymi w Twojej firmie.

Odkryj inne nasze artykuły