Unbeaufsichtigtes Lernen
Unüberwachtes Lernen ist eine maschinelle Lerntechnik, bei der die Benutzer das Modell nicht überwachen müssen. Stattdessen kann das Modell selbstständig arbeiten, um zuvor unentdeckte Muster und Informationen zu erkennen. Es befasst sich hauptsächlich mit den unbeschrifteten Daten.
Unüberwachte Lernalgorithmen
Mit unbeaufsichtigten Lernalgorithmen können Benutzer im Vergleich zu überwachtem Lernen komplexere Verarbeitungsaufgaben ausführen. Unbeaufsichtigtes Lernen kann jedoch im Vergleich zu anderen natürlichen Lernmethoden unvorhersehbarer sein. Unüberwachte Lernalgorithmen umfassen Clustering, Erkennung von Anomalien, neuronale Netze usw.
In diesem Tutorial lernen Sie:
- Beispiel für unbeaufsichtigtes maschinelles Lernen
- Warum unbeaufsichtigtes Lernen?
- Arten des unbeaufsichtigten Lernens
- Clustering
- Clustering-Typen
- Verband
- Überwachtes vs. unbeaufsichtigtes maschinelles Lernen
- Anwendungen des unbeaufsichtigten maschinellen Lernens
- Nachteile des unbeaufsichtigten Lernens
Beispiel für unbeaufsichtigtes maschinelles Lernen
Nehmen wir den Fall eines Babys und ihres Familienhundes.
Sie kennt und identifiziert diesen Hund. Wenige Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.
Baby hat diesen Hund nicht früher gesehen. Aber es erkennt, dass viele Merkmale (2 Ohren, Augen, Gehen auf 4 Beinen) wie ihr Hund sind. Sie identifiziert das neue Tier als Hund. Dies ist unbeaufsichtigtes Lernen, bei dem Sie nicht unterrichtet werden, sondern aus den Daten lernen (in diesem Fall Daten über einen Hund). Wäre dieses Lernen überwacht worden, hätte der Freund der Familie dem Baby gesagt, dass es sich um einen Hund handelt.
Warum unbeaufsichtigtes Lernen?
Hier sind die Hauptgründe für die Verwendung von unbeaufsichtigtem Lernen:
- Unüberwachtes maschinelles Lernen findet alle Arten von unbekannten Mustern in Daten.
- Unüberwachte Methoden helfen Ihnen, Funktionen zu finden, die für die Kategorisierung hilfreich sein können.
- Es findet in Echtzeit statt, sodass alle Eingabedaten in Anwesenheit der Lernenden analysiert und gekennzeichnet werden müssen.
- Es ist einfacher, unbeschriftete Daten von einem Computer abzurufen als beschriftete Daten, für die manuelle Eingriffe erforderlich sind.
Arten des unbeaufsichtigten Lernens
Unbeaufsichtigte Lernprobleme gruppierten sich weiter in Cluster- und Assoziationsprobleme.
Clustering
Clustering ist ein wichtiges Konzept für unbeaufsichtigtes Lernen. Es geht hauptsächlich darum, eine Struktur oder ein Muster in einer Sammlung nicht kategorisierter Daten zu finden. Clustering-Algorithmen verarbeiten Ihre Daten und finden natürliche Cluster (Gruppen), falls diese in den Daten vorhanden sind. Sie können auch ändern, wie viele Cluster Ihre Algorithmen identifizieren sollen. Hier können Sie die Granularität dieser Gruppen anpassen.
Es gibt verschiedene Arten von Clustering, die Sie verwenden können:
Exklusiv (Partitionierung)
Bei dieser Clustering-Methode werden Daten so gruppiert, dass nur Daten zu einem Cluster gehören können.
Beispiel: K-Mittel
Agglomerativ
Bei dieser Clustering-Technik sind alle Daten ein Cluster. Die iterativen Vereinigungen zwischen den beiden nächstgelegenen Clustern reduzieren die Anzahl der Cluster.
Beispiel: Hierarchisches Clustering
Überlappend
Bei dieser Technik werden Fuzzy-Mengen verwendet, um Daten zu gruppieren. Jeder Punkt kann zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören.
Hier werden Daten einem entsprechenden Mitgliedswert zugeordnet. Beispiel: Fuzzy C-Mittel
Probabilistisch
Diese Technik verwendet die Wahrscheinlichkeitsverteilung, um die Cluster zu erstellen
Beispiel: Folgende Schlüsselwörter
- "Männerschuh."
- "Damenschuh."
- "Frauenhandschuh."
- "Männerhandschuh."
kann in zwei Kategorien eingeteilt werden: "Schuh" und "Handschuh" oder "Mann" und "Frauen".
Clustering-Typen
- Hierarchisches Clustering
- K-bedeutet Clustering
- K-NN (k nächste Nachbarn)
- Hauptkomponentenanalyse
- Einzelwertzerlegung
- Unabhängige Komponentenanalyse
Hierarchisches Clustering:
Hierarchisches Clustering ist ein Algorithmus, der eine Hierarchie von Clustern erstellt. Es beginnt mit allen Daten, die einem eigenen Cluster zugeordnet sind. Hier befinden sich zwei nahe Cluster im selben Cluster. Dieser Algorithmus endet, wenn nur noch ein Cluster übrig ist.
K-bedeutet Clustering
K bedeutet, dass es sich um einen iterativen Clustering-Algorithmus handelt, mit dem Sie für jede Iteration den höchsten Wert finden können. Zunächst wird die gewünschte Anzahl von Clustern ausgewählt. Bei dieser Clustering-Methode müssen Sie die Datenpunkte in k Gruppen gruppieren. Ein größeres k bedeutet kleinere Gruppen mit mehr Granularität auf die gleiche Weise. Ein niedrigeres k bedeutet größere Gruppen mit geringerer Granularität.
Die Ausgabe des Algorithmus ist eine Gruppe von "Labels". Es weist einer der k Gruppen einen Datenpunkt zu. Beim k-means-Clustering wird jede Gruppe definiert, indem für jede Gruppe ein Schwerpunkt erstellt wird. Die Zentroide sind wie das Herz des Clusters, das die ihnen am nächsten gelegenen Punkte erfasst und dem Cluster hinzufügt.
K-Mean-Clustering definiert ferner zwei Untergruppen:
- Agglomerative Clusterbildung
- Dendrogramm
Agglomerative Clusterbildung:
Diese Art der K-Mittel-Clusterbildung beginnt mit einer festen Anzahl von Clustern. Es ordnet alle Daten der genauen Anzahl von Clustern zu. Diese Clustering-Methode erfordert nicht die Anzahl der Cluster K als Eingabe. Der Agglomerationsprozess beginnt mit der Bildung aller Daten als einzelner Cluster.
Diese Methode verwendet ein Abstandsmaß und reduziert die Anzahl der Cluster (einer in jeder Iteration) durch Zusammenführen. Schließlich haben wir einen großen Cluster, der alle Objekte enthält.
Dendrogramm:
Bei der Dendrogramm-Clustering-Methode repräsentiert jede Ebene einen möglichen Cluster. Die Höhe des Dendrogramms zeigt den Grad der Ähnlichkeit zwischen zwei Verknüpfungsclustern. Je näher am Ende des Prozesses sie sind, desto ähnlicher ist der Cluster, der die Gruppe aus dem Dendrogramm findet, was nicht natürlich und meist subjektiv ist.
K- Nächste Nachbarn
Der nächste Nachbar von K ist der einfachste aller Klassifikatoren für maschinelles Lernen. Es unterscheidet sich von anderen Techniken des maschinellen Lernens dadurch, dass es kein Modell erzeugt. Es ist ein einfacher Algorithmus, der alle verfügbaren Fälle speichert und neue Instanzen anhand eines Ähnlichkeitsmaßes klassifiziert.
Es funktioniert sehr gut, wenn zwischen den Beispielen ein Abstand besteht. Die Lerngeschwindigkeit ist langsam, wenn der Trainingssatz groß ist, und die Entfernungsberechnung ist nicht trivial.
Hauptkomponentenanalyse:
Für den Fall, dass Sie einen höherdimensionalen Raum wünschen. Sie müssen eine Basis für diesen Bereich und nur die 200 wichtigsten Punkte dieser Basis auswählen. Diese Basis ist als Hauptkomponente bekannt. Die von Ihnen ausgewählte Teilmenge ist ein neuer Bereich, der im Vergleich zum ursprünglichen Bereich klein ist. Es behält so viel wie möglich von der Komplexität der Daten bei.
Verband
Mit Zuordnungsregeln können Sie Zuordnungen zwischen Datenobjekten in großen Datenbanken herstellen. Bei dieser unbeaufsichtigten Technik geht es darum, interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Zum Beispiel Menschen, die ein neues Zuhause kaufen, kaufen am ehesten neue Möbel.
Andere Beispiele:
- Eine Untergruppe von Krebspatienten, gruppiert nach ihren Genexpressionsmessungen
- Käufergruppen basierend auf ihrer Browser- und Kaufhistorie
- Filmgruppe nach der Bewertung der Filmzuschauer
Überwachtes vs. unbeaufsichtigtes maschinelles Lernen
Parameter | Überwachte maschinelle Lerntechnik | Unüberwachte Technik des maschinellen Lernens |
Eingabedaten | Algorithmen werden unter Verwendung von beschrifteten Daten trainiert. | Algorithmen werden für Daten verwendet, die nicht beschriftet sind |
Rechenkomplexität | Betreutes Lernen ist eine einfachere Methode. | Unbeaufsichtigtes Lernen ist rechenintensiv |
Richtigkeit | Sehr genaue und vertrauenswürdige Methode. | Weniger genaue und vertrauenswürdige Methode. |
Anwendungen des unbeaufsichtigten maschinellen Lernens
Einige Anwendungen unbeaufsichtigter Techniken des maschinellen Lernens sind:
- Durch Clustering wird das Dataset aufgrund seiner Ähnlichkeiten automatisch in Gruppen aufgeteilt
- Durch die Erkennung von Anomalien können ungewöhnliche Datenpunkte in Ihrem Datensatz erkannt werden. Es ist nützlich, um betrügerische Transaktionen zu finden
- Association Mining identifiziert Gruppen von Elementen, die in Ihrem Dataset häufig zusammen vorkommen
- Latente Variablenmodelle werden häufig für die Datenvorverarbeitung verwendet. B. die Anzahl der Features in einem Dataset reduzieren oder das Dataset in mehrere Komponenten zerlegen
Nachteile des unbeaufsichtigten Lernens
- Sie können keine genauen Informationen zur Datensortierung erhalten, und die Ausgabe als Daten, die beim unbeaufsichtigten Lernen verwendet werden, ist gekennzeichnet und nicht bekannt
- Eine geringere Genauigkeit der Ergebnisse ist darauf zurückzuführen, dass die Eingabedaten nicht bekannt sind und von Personen nicht im Voraus gekennzeichnet wurden. Dies bedeutet, dass die Maschine dies selbst tun muss.
- Die Spektralklassen entsprechen nicht immer Informationsklassen.
- Der Benutzer muss Zeit damit verbringen, die Klassen zu interpretieren und zu kennzeichnen, die dieser Klassifizierung folgen.
- Die spektralen Eigenschaften von Klassen können sich auch im Laufe der Zeit ändern, sodass Sie beim Wechsel von einem Bild zum anderen nicht dieselben Klasseninformationen haben können.
Zusammenfassung
- Unbeaufsichtigtes Lernen ist eine maschinelle Lerntechnik, bei der Sie das Modell nicht überwachen müssen.
- Unüberwachtes maschinelles Lernen hilft Ihnen, alle Arten von unbekannten Mustern in Daten zu finden.
- Clustering und Assoziation sind zwei Arten von unbeaufsichtigtem Lernen.
- Vier Arten von Clustering-Methoden sind 1) Exklusiv 2) Agglomerativ 3) Überlappend 4) Probabilistisch.
- Wichtige Clustering-Typen sind: 1) Hierarchisches Clustering 2) K-bedeutet Clustering 3) K-NN 4) Hauptkomponentenanalyse 5) Singularwertzerlegung 6) Unabhängige Komponentenanalyse.
- Mit Zuordnungsregeln können Sie Zuordnungen zwischen Datenobjekten in großen Datenbanken herstellen.
- Beim überwachten Lernen werden Algorithmen unter Verwendung beschrifteter Daten trainiert, während beim unbeaufsichtigten Lernen Algorithmen für Daten verwendet werden, die nicht beschriftet sind.
- Durch die Erkennung von Anomalien können wichtige Datenpunkte in Ihrem Datensatz erkannt werden, die zum Auffinden betrügerischer Transaktionen hilfreich sind.
- Der größte Nachteil des unbeaufsichtigten Lernens besteht darin, dass Sie keine genauen Informationen zur Datensortierung erhalten können.