Unüberwachtes maschinelles Lernen: Was ist, Algorithmen, Beispiel

Unbeaufsichtigtes Lernen

Unüberwachtes Lernen ist eine maschinelle Lerntechnik, bei der die Benutzer das Modell nicht überwachen müssen. Stattdessen kann das Modell selbstständig arbeiten, um zuvor unentdeckte Muster und Informationen zu erkennen. Es befasst sich hauptsächlich mit den unbeschrifteten Daten.

Unüberwachte Lernalgorithmen

Mit unbeaufsichtigten Lernalgorithmen können Benutzer im Vergleich zu überwachtem Lernen komplexere Verarbeitungsaufgaben ausführen. Unbeaufsichtigtes Lernen kann jedoch im Vergleich zu anderen natürlichen Lernmethoden unvorhersehbarer sein. Unüberwachte Lernalgorithmen umfassen Clustering, Erkennung von Anomalien, neuronale Netze usw.

In diesem Tutorial lernen Sie:

Beispiel für unbeaufsichtigtes maschinelles Lernen
Warum unbeaufsichtigtes Lernen?
Arten des unbeaufsichtigten Lernens
Clustering
Clustering-Typen
Verband
Überwachtes vs. unbeaufsichtigtes maschinelles Lernen
Anwendungen des unbeaufsichtigten maschinellen Lernens
Nachteile des unbeaufsichtigten Lernens

Beispiel für unbeaufsichtigtes maschinelles Lernen

Nehmen wir den Fall eines Babys und ihres Familienhundes.

Sie kennt und identifiziert diesen Hund. Wenige Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.

Baby hat diesen Hund nicht früher gesehen. Aber es erkennt, dass viele Merkmale (2 Ohren, Augen, Gehen auf 4 Beinen) wie ihr Hund sind. Sie identifiziert das neue Tier als Hund. Dies ist unbeaufsichtigtes Lernen, bei dem Sie nicht unterrichtet werden, sondern aus den Daten lernen (in diesem Fall Daten über einen Hund). Wäre dieses Lernen überwacht worden, hätte der Freund der Familie dem Baby gesagt, dass es sich um einen Hund handelt.

Warum unbeaufsichtigtes Lernen?

Hier sind die Hauptgründe für die Verwendung von unbeaufsichtigtem Lernen:

Unüberwachtes maschinelles Lernen findet alle Arten von unbekannten Mustern in Daten.
Unüberwachte Methoden helfen Ihnen, Funktionen zu finden, die für die Kategorisierung hilfreich sein können.
Es findet in Echtzeit statt, sodass alle Eingabedaten in Anwesenheit der Lernenden analysiert und gekennzeichnet werden müssen.
Es ist einfacher, unbeschriftete Daten von einem Computer abzurufen als beschriftete Daten, für die manuelle Eingriffe erforderlich sind.

Arten des unbeaufsichtigten Lernens

Unbeaufsichtigte Lernprobleme gruppierten sich weiter in Cluster- und Assoziationsprobleme.

Clustering

Clustering ist ein wichtiges Konzept für unbeaufsichtigtes Lernen. Es geht hauptsächlich darum, eine Struktur oder ein Muster in einer Sammlung nicht kategorisierter Daten zu finden. Clustering-Algorithmen verarbeiten Ihre Daten und finden natürliche Cluster (Gruppen), falls diese in den Daten vorhanden sind. Sie können auch ändern, wie viele Cluster Ihre Algorithmen identifizieren sollen. Hier können Sie die Granularität dieser Gruppen anpassen.

Es gibt verschiedene Arten von Clustering, die Sie verwenden können:

Exklusiv (Partitionierung)

Bei dieser Clustering-Methode werden Daten so gruppiert, dass nur Daten zu einem Cluster gehören können.

Beispiel: K-Mittel

Agglomerativ

Bei dieser Clustering-Technik sind alle Daten ein Cluster. Die iterativen Vereinigungen zwischen den beiden nächstgelegenen Clustern reduzieren die Anzahl der Cluster.

Beispiel: Hierarchisches Clustering

Überlappend

Bei dieser Technik werden Fuzzy-Mengen verwendet, um Daten zu gruppieren. Jeder Punkt kann zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören.

Hier werden Daten einem entsprechenden Mitgliedswert zugeordnet. Beispiel: Fuzzy C-Mittel

Probabilistisch

Diese Technik verwendet die Wahrscheinlichkeitsverteilung, um die Cluster zu erstellen

Beispiel: Folgende Schlüsselwörter

"Männerschuh."
"Damenschuh."
"Frauenhandschuh."
"Männerhandschuh."

kann in zwei Kategorien eingeteilt werden: "Schuh" und "Handschuh" oder "Mann" und "Frauen".

Clustering-Typen

Hierarchisches Clustering
K-bedeutet Clustering
K-NN (k nächste Nachbarn)
Hauptkomponentenanalyse
Einzelwertzerlegung
Unabhängige Komponentenanalyse

Hierarchisches Clustering:

Hierarchisches Clustering ist ein Algorithmus, der eine Hierarchie von Clustern erstellt. Es beginnt mit allen Daten, die einem eigenen Cluster zugeordnet sind. Hier befinden sich zwei nahe Cluster im selben Cluster. Dieser Algorithmus endet, wenn nur noch ein Cluster übrig ist.

K-bedeutet Clustering

K bedeutet, dass es sich um einen iterativen Clustering-Algorithmus handelt, mit dem Sie für jede Iteration den höchsten Wert finden können. Zunächst wird die gewünschte Anzahl von Clustern ausgewählt. Bei dieser Clustering-Methode müssen Sie die Datenpunkte in k Gruppen gruppieren. Ein größeres k bedeutet kleinere Gruppen mit mehr Granularität auf die gleiche Weise. Ein niedrigeres k bedeutet größere Gruppen mit geringerer Granularität.

Die Ausgabe des Algorithmus ist eine Gruppe von "Labels". Es weist einer der k Gruppen einen Datenpunkt zu. Beim k-means-Clustering wird jede Gruppe definiert, indem für jede Gruppe ein Schwerpunkt erstellt wird. Die Zentroide sind wie das Herz des Clusters, das die ihnen am nächsten gelegenen Punkte erfasst und dem Cluster hinzufügt.

K-Mean-Clustering definiert ferner zwei Untergruppen:

Agglomerative Clusterbildung
Dendrogramm

Agglomerative Clusterbildung:

Diese Art der K-Mittel-Clusterbildung beginnt mit einer festen Anzahl von Clustern. Es ordnet alle Daten der genauen Anzahl von Clustern zu. Diese Clustering-Methode erfordert nicht die Anzahl der Cluster K als Eingabe. Der Agglomerationsprozess beginnt mit der Bildung aller Daten als einzelner Cluster.

Diese Methode verwendet ein Abstandsmaß und reduziert die Anzahl der Cluster (einer in jeder Iteration) durch Zusammenführen. Schließlich haben wir einen großen Cluster, der alle Objekte enthält.

Dendrogramm:

Bei der Dendrogramm-Clustering-Methode repräsentiert jede Ebene einen möglichen Cluster. Die Höhe des Dendrogramms zeigt den Grad der Ähnlichkeit zwischen zwei Verknüpfungsclustern. Je näher am Ende des Prozesses sie sind, desto ähnlicher ist der Cluster, der die Gruppe aus dem Dendrogramm findet, was nicht natürlich und meist subjektiv ist.

K- Nächste Nachbarn

Der nächste Nachbar von K ist der einfachste aller Klassifikatoren für maschinelles Lernen. Es unterscheidet sich von anderen Techniken des maschinellen Lernens dadurch, dass es kein Modell erzeugt. Es ist ein einfacher Algorithmus, der alle verfügbaren Fälle speichert und neue Instanzen anhand eines Ähnlichkeitsmaßes klassifiziert.

Es funktioniert sehr gut, wenn zwischen den Beispielen ein Abstand besteht. Die Lerngeschwindigkeit ist langsam, wenn der Trainingssatz groß ist, und die Entfernungsberechnung ist nicht trivial.

Hauptkomponentenanalyse:

Für den Fall, dass Sie einen höherdimensionalen Raum wünschen. Sie müssen eine Basis für diesen Bereich und nur die 200 wichtigsten Punkte dieser Basis auswählen. Diese Basis ist als Hauptkomponente bekannt. Die von Ihnen ausgewählte Teilmenge ist ein neuer Bereich, der im Vergleich zum ursprünglichen Bereich klein ist. Es behält so viel wie möglich von der Komplexität der Daten bei.

Verband

Mit Zuordnungsregeln können Sie Zuordnungen zwischen Datenobjekten in großen Datenbanken herstellen. Bei dieser unbeaufsichtigten Technik geht es darum, interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Zum Beispiel Menschen, die ein neues Zuhause kaufen, kaufen am ehesten neue Möbel.

Andere Beispiele:

Eine Untergruppe von Krebspatienten, gruppiert nach ihren Genexpressionsmessungen
Käufergruppen basierend auf ihrer Browser- und Kaufhistorie
Filmgruppe nach der Bewertung der Filmzuschauer

Überwachtes vs. unbeaufsichtigtes maschinelles Lernen

Parameter	Überwachte maschinelle Lerntechnik	Unüberwachte Technik des maschinellen Lernens
Eingabedaten	Algorithmen werden unter Verwendung von beschrifteten Daten trainiert.	Algorithmen werden für Daten verwendet, die nicht beschriftet sind
Rechenkomplexität	Betreutes Lernen ist eine einfachere Methode.	Unbeaufsichtigtes Lernen ist rechenintensiv
Richtigkeit	Sehr genaue und vertrauenswürdige Methode.	Weniger genaue und vertrauenswürdige Methode.

Anwendungen des unbeaufsichtigten maschinellen Lernens

Einige Anwendungen unbeaufsichtigter Techniken des maschinellen Lernens sind:

Durch Clustering wird das Dataset aufgrund seiner Ähnlichkeiten automatisch in Gruppen aufgeteilt
Durch die Erkennung von Anomalien können ungewöhnliche Datenpunkte in Ihrem Datensatz erkannt werden. Es ist nützlich, um betrügerische Transaktionen zu finden
Association Mining identifiziert Gruppen von Elementen, die in Ihrem Dataset häufig zusammen vorkommen
Latente Variablenmodelle werden häufig für die Datenvorverarbeitung verwendet. B. die Anzahl der Features in einem Dataset reduzieren oder das Dataset in mehrere Komponenten zerlegen

Nachteile des unbeaufsichtigten Lernens

Sie können keine genauen Informationen zur Datensortierung erhalten, und die Ausgabe als Daten, die beim unbeaufsichtigten Lernen verwendet werden, ist gekennzeichnet und nicht bekannt
Eine geringere Genauigkeit der Ergebnisse ist darauf zurückzuführen, dass die Eingabedaten nicht bekannt sind und von Personen nicht im Voraus gekennzeichnet wurden. Dies bedeutet, dass die Maschine dies selbst tun muss.
Die Spektralklassen entsprechen nicht immer Informationsklassen.
Der Benutzer muss Zeit damit verbringen, die Klassen zu interpretieren und zu kennzeichnen, die dieser Klassifizierung folgen.
Die spektralen Eigenschaften von Klassen können sich auch im Laufe der Zeit ändern, sodass Sie beim Wechsel von einem Bild zum anderen nicht dieselben Klasseninformationen haben können.

Zusammenfassung

Unbeaufsichtigtes Lernen ist eine maschinelle Lerntechnik, bei der Sie das Modell nicht überwachen müssen.
Unüberwachtes maschinelles Lernen hilft Ihnen, alle Arten von unbekannten Mustern in Daten zu finden.
Clustering und Assoziation sind zwei Arten von unbeaufsichtigtem Lernen.
Vier Arten von Clustering-Methoden sind 1) Exklusiv 2) Agglomerativ 3) Überlappend 4) Probabilistisch.
Wichtige Clustering-Typen sind: 1) Hierarchisches Clustering 2) K-bedeutet Clustering 3) K-NN 4) Hauptkomponentenanalyse 5) Singularwertzerlegung 6) Unabhängige Komponentenanalyse.
Mit Zuordnungsregeln können Sie Zuordnungen zwischen Datenobjekten in großen Datenbanken herstellen.
Beim überwachten Lernen werden Algorithmen unter Verwendung beschrifteter Daten trainiert, während beim unbeaufsichtigten Lernen Algorithmen für Daten verwendet werden, die nicht beschriftet sind.
Durch die Erkennung von Anomalien können wichtige Datenpunkte in Ihrem Datensatz erkannt werden, die zum Auffinden betrügerischer Transaktionen hilfreich sind.
Der größte Nachteil des unbeaufsichtigten Lernens besteht darin, dass Sie keine genauen Informationen zur Datensortierung erhalten können.

Unüberwachtes maschinelles Lernen: Was ist, Algorithmen, Beispiel

Inhaltsverzeichnis:

Unbeaufsichtigtes Lernen

Unüberwachte Lernalgorithmen

Beispiel für unbeaufsichtigtes maschinelles Lernen

Warum unbeaufsichtigtes Lernen?

Arten des unbeaufsichtigten Lernens

Clustering

Exklusiv (Partitionierung)

Agglomerativ

Überlappend

Probabilistisch

Clustering-Typen

Hierarchisches Clustering:

K-bedeutet Clustering

Agglomerative Clusterbildung:

Dendrogramm:

K- Nächste Nachbarn

Hauptkomponentenanalyse:

Verband

Überwachtes vs. unbeaufsichtigtes maschinelles Lernen

Anwendungen des unbeaufsichtigten maschinellen Lernens

Nachteile des unbeaufsichtigten Lernens

Zusammenfassung

Erstellen Sie einen HTTP-Webserver in Node.js: Schließen Sie das Lernprogramm ab

Herunterladen & Installieren Sie Node.js und NPM im Fenster

20 besten SQL (Datenbank) Management Tools im Jahr 2021 (kostenlos / bezahlt)

Node.js NPM-Tutorial: Erstellen, Veröffentlichen, Erweitern & Verwalten

Node.js Promise Tutorial

Pfadprüfung & Basispfadtest mit BEISPIELEN

Was ist Volumentest? Lernen Sie mit Beispielen

Was ist Skalierbarkeitstest? Lernen Sie mit Beispiel

Was ist Tränktest? Definition, Bedeutung, Beispiele

Stabilitätstests beim Testen von Software

: außerhalb des Bereichs - CSS-Tricks

: Einzelkind - CSS-Tricks

: n-tes letztes Kind - CSS-Tricks

: optional - CSS-Tricks

: n-tes Typ - CSS-Tricks