Defined Icon
BLOG

Jak ocenić jakość i poprawność modeli klasyfikacyjnych? Część 3 – Confusion Matrix

Confusion Matrix to macierz N×N, gdzie wiersze odpowiadają poprawnym klasom decyzyjnym, a kolumny decyzjom przewidywanym przez klasyfikator. Liczba n-ij na przecięciu wiersza i oraz kolumny j to liczba przykładów z klasy i-tej, które zostały zaklasyfikowane do klasy j-tej.

W poprzednich częściach tutorialu (część 1, część 2) przedstawiliśmy liczbowe wskaźniki jakości modeli klasyfikacyjnych. W kolejnych częściach chcielibyśmy się przyjrzeć wskaźnikom graficznym. Pierwszym z nich jest Macierz Błędów (ang. Confusion Matrix). Inna nazwa tego wskaźnika to Tablica Kontyngencji (Contingency Table), Macierz Pomyłek lub Tablica Pomyłek.

Przykłady:

Postacie Confusion Matrix

Różne postacie Confusion Matrix pozwalają łatwiej zaobserwować pewne własności klasyfikacji (np. poniesiony koszt w przypadku błędnej klasyfikacji).

  • Postać liczbowa – zawiera liczby obserwacji klasyfikowanych do poszczególnych klas.
  • Postać procentowa – zawiera odsetek obserwacji klasyfikowanych do poszczególnych klas wyrażony w procentach (postać liczbowa/liczba wszystkich obserwacji)..
  • Postać zysków i strat – zawiera informację na temat zysków i strat związanych z poprawną klasyfikacją oraz z popełnieniem błędu klasyfikacji (tabela zysków i strat).

 

Confusion Matrix w postaci zysków i strat zawiera sumy kosztów wynikających z klasyfikacji.

Przykład 1

 

Przykład 2

 

Punkt odcięcia a macierz błędów

CPunkt odcięcia (ang. cut off) to pewien próg, który można zastosować do klasyfikowania obserwacji do odpowiednich klas.

jeśli P(klasa(x)=1) >= alfa, to przyporządkuj x do klasy 1

gdzie:

alfa – punkt odcięcia

P (klasa(x)=1) – prawdopodobieństwem, że dany element należy do danej klasy

Przykładowo:

Jeżeli prawdopodobieństwo (wyliczone przez nasz model klasyfikacyjny) tego, że dany kredytobiorca będzie złym płatnikiem jest większe lub równe 60% przypisz tego kredytobiorcę do grupy złych płatników, w przeciwnym przypadku – przypisz do grupy dobrych płatników.

Dla tego samego problemu (np. ocena wiarygodności kredytowej) można przyjąć różne punkty odcięcia, co daje nam różne Confusion Matrix. Dzięki analizie tych macierzy błędów, możemy wybrać optymalny punkt odcięcia.

Macierz błędów – podsumowanie

  • Prosty i czytelny sposób zestawienia wyników klasyfikacji
  • Ułatwia ocenę klasyfikacji
  • Różne postaci macierzy błędów ułatwiają zauważenie pożądanych własności badanego klasyfikatora
  • Pozwala zaobserwować bilans zysków i strat z klasyfikacji

Dwie ostatnie części naszego tutorialu poświęcimy kolejnym przykładom graficznych wskaźników jakości modeli: krzywej ROC i krzywej LIFT.

Gotowy, aby rozwinąć swój biznes z Machine Learning & AI?

Zacznij wykorzystywać możliwości uczenia maszynowego i sztucznej inteligencji w swoim biznesie i osiągaj wymierne korzyści biznesowe - wzrost sprzedaży, ograniczenie kosztów i efektywność operacyjną.

Skontaktuj się z nami, a wspólnie opracujemy nowoczesną strategię zarządzania procesami biznesowymi w Twojej firmie.

Odkryj inne nasze artykuły