Verwirrungsmatrix beim maschinellen Lernen mit BEISPIEL

Inhaltsverzeichnis:

Anonim

Was ist Verwirrungsmatrix?

Eine Verwirrungsmatrix ist eine Technik zur Leistungsmessung für die Klassifizierung des maschinellen Lernens. Es ist eine Art Tabelle, die Ihnen hilft, die Leistung des Klassifizierungsmodells anhand eines Satzes von Testdaten zu ermitteln, damit die wahren Werte bekannt sind. Der Begriff Verwirrungsmatrix selbst ist sehr einfach, aber die zugehörige Terminologie kann etwas verwirrend sein. Hier wird eine einfache Erklärung für diese Technik gegeben.

In diesem Tutorial lernen Sie:

  • Was ist eine Verwirrungsmatrix?
  • Vier Ergebnisse der Verwirrungsmatrix
  • Beispiel einer Verwirrungsmatrix:
  • So berechnen Sie eine Verwirrungsmatrix
  • Andere wichtige Begriffe, die eine Verwirrungsmatrix verwenden
  • Warum brauchen Sie eine Verwirrungsmatrix?

Vier Ergebnisse der Verwirrungsmatrix

Die Verwirrungsmatrix visualisiert die Genauigkeit eines Klassifikators durch Vergleichen der tatsächlichen und vorhergesagten Klassen. Die binäre Verwirrungsmatrix besteht aus Quadraten:

Verwirrungstabelle
  • TP: True Positive: Vorhersagewerte, die korrekt als tatsächlich positiv vorhergesagt wurden
  • FP: Vorausgesagte Werte haben fälschlicherweise ein tatsächliches Positiv vorhergesagt. dh negative Werte, die als positiv vorhergesagt werden
  • FN: Falsch Negativ: Positive Werte werden als negativ vorhergesagt
  • TN: True Negative: Vorhersagewerte, die korrekt als tatsächliches Negativ vorhergesagt wurden

Sie können den Genauigkeitstest aus der Verwirrungsmatrix berechnen:

Beispiel einer Verwirrungsmatrix:

Die Verwirrungsmatrix ist eine nützliche Methode für maschinelles Lernen, mit der Sie die Rückruf-, Präzisions-, Genauigkeits- und AUC-ROC-Kurve messen können. Nachstehend finden Sie ein Beispiel, um die Begriffe Wahr positiv, Richtig negativ, Falsch negativ und Richtig negativ zu kennen.

Richtig positiv:

Sie haben positiv projiziert und es hat sich als wahr herausgestellt. Sie hatten zum Beispiel vorausgesagt, dass Frankreich die Weltmeisterschaft gewinnen würde, und es hat gewonnen.

Richtig negativ:

Wenn Sie negativ vorhergesagt haben, und es ist wahr. Sie hatten vorausgesagt, dass England nicht gewinnen und verlieren würde.

Falsch positiv:

Ihre Vorhersage ist positiv und falsch.

Sie hatten vorausgesagt, dass England gewinnen würde, aber es verlor.

Falsch negativ:

Ihre Vorhersage ist negativ und das Ergebnis ist auch falsch.

Sie hatten vorausgesagt, dass Frankreich nicht gewinnen würde, aber es hat gewonnen.

Sie sollten sich daran erinnern, dass wir vorhergesagte Werte entweder als wahr oder falsch oder als positiv und negativ beschreiben.

So berechnen Sie eine Verwirrungsmatrix

Hier finden Sie einen schrittweisen Prozess zum Berechnen einer Verwirrungsmatrix beim Data Mining

  • Schritt 1) ​​Zuerst müssen Sie den Datensatz mit den erwarteten Ergebniswerten testen.
  • Schritt 2) Sagen Sie alle Zeilen im Testdatensatz voraus.
  • Schritt 3) Berechnen Sie die erwarteten Vorhersagen und Ergebnisse:
  1. Die Summe der korrekten Vorhersagen jeder Klasse.
  2. Die Summe der falschen Vorhersagen jeder Klasse.

Danach werden diese Nummern in den unten angegebenen Methoden organisiert:

  • Jede Zeile der Matrix ist mit einer vorhergesagten Klasse verknüpft.
  • Jede Spalte der Matrix entspricht einer tatsächlichen Klasse.
  • Die Gesamtzahl der korrekten und falschen Klassifizierung wird in die Tabelle eingetragen.
  • Die Summe der korrekten Vorhersagen für eine Klasse wird in die vorhergesagte Spalte und die erwartete Zeile für diesen Klassenwert eingegeben.
  • Die Summe der falschen Vorhersagen für eine Klasse geht in die erwartete Zeile für diesen Klassenwert und in die vorhergesagte Spalte für diesen bestimmten Klassenwert.

Andere wichtige Begriffe, die eine Verwirrungsmatrix verwenden

  • Positiver Vorhersagewert (PVV): Dies ist sehr nahe an der Präzision. Ein wesentlicher Unterschied zwischen den beiden Terminen besteht darin, dass PVV die Prävalenz berücksichtigt. In der Situation, in der die Klassen perfekt ausbalanciert sind, entspricht der positive Vorhersagewert der Präzision.
  • Null-Fehlerrate: Dieser Begriff wird verwendet, um zu definieren, wie oft Ihre Vorhersage falsch wäre, wenn Sie die Mehrheitsklasse vorhersagen können. Sie können es als Basismetrik betrachten, um Ihren Klassifikator zu vergleichen.
  • F-Punktzahl: Die F1-Punktzahl ist eine gewichtete Durchschnittspunktzahl für das wahre Positiv (Rückruf) und die Genauigkeit.
  • Roc-Kurve: Die Roc-Kurve zeigt die wahr-positiven Raten gegenüber der falsch-positiven Rate an verschiedenen Schnittpunkten. Es zeigt auch einen Kompromiss zwischen Sensitivität (Rückruf und Spezifität oder der tatsächlichen negativen Rate).
  • Präzision: Die Präzisionsmetrik zeigt die Genauigkeit der positiven Klasse. Es misst, wie wahrscheinlich die Vorhersage der positiven Klasse korrekt ist.

Die maximale Punktzahl beträgt 1, wenn der Klassifikator alle positiven Werte perfekt klassifiziert. Präzision allein ist nicht sehr hilfreich, da sie die negative Klasse ignoriert. Die Metrik wird normalerweise mit der Rückrufmetrik gepaart. Der Rückruf wird auch als Empfindlichkeit oder echte positive Rate bezeichnet.

  • Empfindlichkeit : Die Empfindlichkeit berechnet das Verhältnis der korrekt erkannten positiven Klassen. Diese Metrik gibt an, wie gut das Modell ist, um eine positive Klasse zu erkennen.

Warum brauchen Sie eine Verwirrungsmatrix?

Hier sind die Vor- und Vorteile der Verwendung einer Verwirrungsmatrix.

  • Es zeigt, wie jedes Klassifizierungsmodell verwirrt ist, wenn es Vorhersagen trifft.
  • Die Verwirrungsmatrix gibt Ihnen nicht nur einen Einblick in die Fehler, die von Ihrem Klassifikator gemacht werden, sondern auch in die Arten von Fehlern, die gemacht werden.
  • Diese Aufschlüsselung hilft Ihnen, die Einschränkung der alleinigen Verwendung der Klassifizierungsgenauigkeit zu überwinden.
  • Jede Spalte der Verwirrungsmatrix repräsentiert die Instanzen dieser vorhergesagten Klasse.
  • Jede Zeile der Verwirrungsmatrix repräsentiert die Instanzen der tatsächlichen Klasse.
  • Es bietet nicht nur Einblick in die Fehler, die von einem Klassifikator gemacht werden, sondern auch in die Fehler, die gemacht werden.