Überwachtes maschinelles Lernen: Was ist, Algorithmen, Beispiel

Inhaltsverzeichnis:

Anonim

Was ist überwachtes maschinelles Lernen?

Beim überwachten Lernen trainieren Sie die Maschine mit Daten, die gut "beschriftet " sind. Dies bedeutet, dass einige Daten bereits mit der richtigen Antwort versehen sind. Es kann mit dem Lernen verglichen werden, das in Anwesenheit eines Vorgesetzten oder eines Lehrers stattfindet.

Ein überwachter Lernalgorithmus lernt aus gekennzeichneten Trainingsdaten und hilft Ihnen, Ergebnisse für unvorhergesehene Daten vorherzusagen.

Das erfolgreiche Erstellen, Skalieren und Bereitstellen genauer Modelle für überwachtes maschinelles Lernen erfordert Zeit und technisches Fachwissen von einem Team hochqualifizierter Datenwissenschaftler. Darüber hinaus muss Data Scientist Modelle neu erstellen, um sicherzustellen, dass die gegebenen Erkenntnisse wahr bleiben, bis sich die Daten ändern.

In diesem Tutorial lernen Sie:

  • Was ist überwachtes maschinelles Lernen?
  • Wie überwachtes Lernen funktioniert
  • Arten von überwachten Algorithmen für maschinelles Lernen
  • Überwachte oder unbeaufsichtigte Techniken des maschinellen Lernens
  • Herausforderungen beim überwachten maschinellen Lernen
  • Vorteile des überwachten Lernens:
  • Nachteile des überwachten Lernens
  • Best Practices für betreutes Lernen

Wie überwachtes Lernen funktioniert

Sie möchten beispielsweise eine Maschine trainieren, um vorherzusagen, wie lange Sie brauchen, um von Ihrem Arbeitsplatz nach Hause zu fahren. Hier erstellen Sie zunächst einen Satz beschrifteter Daten. Diese Daten enthalten

  • Wetterverhältnisse
  • Tageszeit
  • Ferien

Alle diese Details sind Ihre Eingaben. Die Ausgabe ist die Zeit, die benötigt wurde, um an diesem bestimmten Tag nach Hause zu fahren.

Sie wissen instinktiv, dass Sie länger brauchen, um nach Hause zu fahren, wenn es draußen regnet. Die Maschine benötigt jedoch Daten und Statistiken.

Lassen Sie uns nun sehen, wie Sie ein überwachtes Lernmodell dieses Beispiels entwickeln können, mit dessen Hilfe der Benutzer die Pendelzeit bestimmen kann. Das erste, was Sie erstellen müssen, ist ein Trainingsset. Dieser Trainingssatz enthält die gesamte Pendelzeit und entsprechende Faktoren wie Wetter, Zeit usw. Basierend auf diesem Trainingssatz kann Ihr Gerät feststellen, dass ein direkter Zusammenhang zwischen der Regenmenge und der Zeit besteht, die Sie benötigen, um nach Hause zu kommen.

Es wird also festgestellt, dass je mehr es regnet, desto länger Sie fahren, um zu Ihrem Haus zurückzukehren. Möglicherweise wird auch der Zusammenhang zwischen der Zeit, in der Sie die Arbeit verlassen, und der Zeit, in der Sie unterwegs sind, angezeigt.

Je näher Sie 18 Uhr sind, desto länger dauert es, bis Sie nach Hause kommen. Ihr Computer findet möglicherweise einige der Beziehungen zu Ihren gekennzeichneten Daten.

Dies ist der Beginn Ihres Datenmodells. Es beginnt sich darauf auszuwirken, wie sich Regen auf die Art und Weise auswirkt, wie Menschen fahren. Es zeigt sich auch, dass zu einer bestimmten Tageszeit mehr Menschen reisen.

Arten von überwachten Algorithmen für maschinelles Lernen

Regression:

Die Regressionstechnik sagt einen einzelnen Ausgabewert unter Verwendung von Trainingsdaten voraus.

Beispiel : Sie können die Regression verwenden, um den Hauspreis anhand von Trainingsdaten vorherzusagen. Die Eingabevariablen sind Lokalität, Größe eines Hauses usw.

Stärken : Ausgaben haben immer eine probabilistische Interpretation, und der Algorithmus kann reguliert werden, um eine Überanpassung zu vermeiden.

Schwächen : Die logistische Regression kann bei mehreren oder nichtlinearen Entscheidungsgrenzen eine Underperformance aufweisen. Diese Methode ist nicht flexibel und erfasst daher keine komplexeren Beziehungen.

Logistische Regression:

Logistische Regressionsmethode zur Schätzung diskreter Werte basierend auf einer Reihe unabhängiger Variablen. Es hilft Ihnen, die Wahrscheinlichkeit des Auftretens eines Ereignisses vorherzusagen, indem Sie Daten an eine Protokollierungsfunktion anpassen. Daher wird es auch als logistische Regression bezeichnet. Wie es die Wahrscheinlichkeit vorhersagt, liegt sein Ausgabewert zwischen 0 und 1.

Hier sind einige Arten von Regressionsalgorithmen

Einstufung:

Klassifizierung bedeutet, die Ausgabe innerhalb einer Klasse zu gruppieren. Wenn der Algorithmus versucht, Eingaben in zwei verschiedene Klassen einzuteilen, wird dies als binäre Klassifizierung bezeichnet. Die Auswahl zwischen mehr als zwei Klassen wird als Klassifizierung mehrerer Klassen bezeichnet.

Beispiel : Feststellen, ob jemand ein Schuldner des Kredits ist oder nicht.

Stärken : Der Klassifikationsbaum ist in der Praxis sehr leistungsfähig

Schwächen : Unbeschränkte, einzelne Bäume neigen zu Überanpassung.

Hier sind einige Arten von Klassifizierungsalgorithmen

Naive Bayes-Klassifikatoren

Das naive Bayes'sche Modell (NBN) ist einfach zu erstellen und für große Datenmengen sehr nützlich. Diese Methode besteht aus direkten azyklischen Graphen mit einem Elternteil und mehreren Kindern. Es setzt die Unabhängigkeit zwischen untergeordneten Knoten voraus, die von ihren übergeordneten Knoten getrennt sind.

Entscheidungsbäume

Entscheidungsbäume klassifizieren die Instanz, indem sie nach dem Feature-Wert sortiert werden. Bei dieser Methode ist jeder Modus das Merkmal einer Instanz. Es sollte klassifiziert werden und jeder Zweig repräsentiert einen Wert, den der Knoten annehmen kann. Es ist eine weit verbreitete Technik zur Klassifizierung. Bei dieser Methode ist die Klassifizierung ein Baum, der als Entscheidungsbaum bezeichnet wird.

Es hilft Ihnen bei der Schätzung der tatsächlichen Werte (Kosten für den Kauf eines Autos, Anzahl der Anrufe, monatliche Gesamtverkäufe usw.).

Support Vector Machine

Support Vector Machine (SVM) ist eine Art von Lernalgorithmus, der 1990 entwickelt wurde. Diese Methode basiert auf Ergebnissen der von Vap Nik eingeführten statistischen Lerntheorie.

SVM-Maschinen sind auch eng mit Kernelfunktionen verbunden, was ein zentrales Konzept für die meisten Lernaufgaben ist. Das Kernel-Framework und SVM werden in einer Vielzahl von Bereichen verwendet. Es umfasst das Abrufen von Multimedia-Informationen, Bioinformatik und Mustererkennung.

Überwachte oder unbeaufsichtigte Techniken des maschinellen Lernens

Beyogen auf Überwachte maschinelle Lerntechnik Unüberwachte Technik des maschinellen Lernens
Eingabedaten Algorithmen werden unter Verwendung von beschrifteten Daten trainiert. Algorithmen werden für Daten verwendet, die nicht beschriftet sind
Rechenkomplexität Betreutes Lernen ist eine einfachere Methode. Unbeaufsichtigtes Lernen ist rechenintensiv
Richtigkeit Sehr genaue und vertrauenswürdige Methode. Weniger genaue und vertrauenswürdige Methode.

Herausforderungen beim überwachten maschinellen Lernen

Hier sind Herausforderungen beim überwachten maschinellen Lernen:

  • Irrelevante Eingabemerkmale für vorhandene Trainingsdaten können zu ungenauen Ergebnissen führen
  • Datenaufbereitung und -vorverarbeitung sind immer eine Herausforderung.
  • Die Genauigkeit leidet, wenn unmögliche, unwahrscheinliche und unvollständige Werte als Trainingsdaten eingegeben wurden
  • Wenn der betroffene Experte nicht verfügbar ist, ist der andere Ansatz "Brute-Force". Es bedeutet, dass Sie denken müssen, dass die richtigen Funktionen (Eingabevariablen) vorhanden sind, um die Maschine zu trainieren. Es könnte ungenau sein.

Vorteile des überwachten Lernens:

  • Durch überwachtes Lernen können Sie Daten sammeln oder eine Datenausgabe aus früheren Erfahrungen erstellen
  • Hilft Ihnen, Leistungskriterien mithilfe von Erfahrung zu optimieren
  • Überwachtes maschinelles Lernen hilft Ihnen, verschiedene Arten von realen Rechenproblemen zu lösen.

Nachteile des überwachten Lernens

  • Die Entscheidungsgrenze kann überstrapaziert sein, wenn Ihr Trainingssatz keine Beispiele enthält, die Sie in einer Klasse haben möchten
  • Sie müssen viele gute Beispiele aus jeder Klasse auswählen, während Sie den Klassifikator trainieren.
  • Die Klassifizierung von Big Data kann eine echte Herausforderung sein.
  • Das Training für betreutes Lernen erfordert viel Rechenzeit.

Best Practices für betreutes Lernen

  • Bevor Sie etwas anderes tun, müssen Sie entscheiden, welche Art von Daten als Trainingssatz verwendet werden sollen
  • Sie müssen die Struktur der erlernten Funktion und des Lernalgorithmus festlegen.
  • Sammeln Sie entsprechende Ergebnisse entweder von menschlichen Experten oder von Messungen

Zusammenfassung

  • Beim überwachten Lernen trainieren Sie die Maschine mit Daten, die gut "beschriftet" sind.
  • Sie möchten eine Maschine trainieren, mit der Sie vorhersagen können, wie lange Sie brauchen, um von Ihrem Arbeitsplatz nach Hause zu fahren. Dies ist ein Beispiel für überwachtes Lernen
  • Regression und Klassifikation sind zwei Arten von überwachten Techniken des maschinellen Lernens.
  • Überwachtes Lernen ist eine einfachere Methode, während unbeaufsichtigtes Lernen eine komplexe Methode ist.
  • Die größte Herausforderung beim überwachten Lernen besteht darin, dass die vorhandenen Trainingsdaten für irrelevante Eingabemerkmale zu ungenauen Ergebnissen führen können.
  • Der Hauptvorteil des überwachten Lernens besteht darin, dass Sie Daten sammeln oder eine Datenausgabe aus früheren Erfahrungen erstellen können.
  • Der Nachteil dieses Modells besteht darin, dass die Entscheidungsgrenze möglicherweise überlastet ist, wenn Ihr Trainingssatz keine Beispiele enthält, die Sie in einer Klasse haben möchten.
  • Als bewährte Methode zur Überwachung des Lernens müssen Sie zunächst entscheiden, welche Art von Daten als Trainingssatz verwendet werden sollen.