PDF Herunterladen
1) Was ist maschinelles Lernen?
Maschinelles Lernen ist ein Zweig der Informatik, der sich mit Systemprogrammierung befasst, um automatisch zu lernen und sich mit Erfahrung zu verbessern. Beispiel: Roboter sind so programmiert, dass sie die Aufgabe basierend auf Daten ausführen können, die sie von Sensoren erfassen. Es lernt automatisch Programme aus Daten.
2) Erwähnen Sie den Unterschied zwischen Data Mining und maschinellem Lernen?
Maschinelles Lernen bezieht sich auf das Studium, den Entwurf und die Entwicklung von Algorithmen, mit denen Computer lernen können, ohne explizit programmiert zu werden. Während Data Mining als der Prozess definiert werden kann, bei dem die unstrukturierten Daten versuchen, Wissen oder unbekannte interessante Muster zu extrahieren. Während dieser Prozessmaschine werden Lernalgorithmen verwendet.
3) Was ist "Überanpassung" beim maschinellen Lernen?
Wenn beim maschinellen Lernen ein statistisches Modell zufällige Fehler oder Rauschen anstelle der zugrunde liegenden Beziehung beschreibt, tritt eine Überanpassung auf. Wenn ein Modell übermäßig komplex ist, wird normalerweise eine Überanpassung beobachtet, da zu viele Parameter in Bezug auf die Anzahl der Trainingsdatentypen vorliegen. Das Modell weist eine schlechte Leistung auf, die überpasst wurde.
4) Warum kommt es zu einer Überanpassung?
Die Möglichkeit einer Überanpassung besteht, da die Kriterien für das Training des Modells nicht mit den Kriterien für die Beurteilung der Wirksamkeit eines Modells übereinstimmen.
5) Wie können Sie eine Überanpassung vermeiden?
Durch die Verwendung vieler Daten kann eine Überanpassung vermieden werden. Eine Überanpassung erfolgt relativ, da Sie über einen kleinen Datensatz verfügen und versuchen, daraus zu lernen. Aber wenn Sie eine kleine Datenbank haben und gezwungen sind, ein darauf basierendes Modell zu erstellen. In einer solchen Situation können Sie eine Technik verwenden, die als Kreuzvalidierung bezeichnet wird . Bei dieser Methode wird der Datensatz in zwei Abschnitte unterteilt: Test- und Trainingsdatensätze. Der Testdatensatz testet nur das Modell, während im Trainingsdatensatz die Datenpunkte mit dem Modell erstellt werden.
Bei dieser Technik erhält ein Modell normalerweise einen Datensatz bekannter Daten, auf denen das Training (Trainingsdatensatz) ausgeführt wird, und einen Datensatz unbekannter Daten, anhand derer das Modell getestet wird. Die Idee der Kreuzvalidierung besteht darin, einen Datensatz zu definieren, um das Modell in der Trainingsphase zu „testen“.
6) Was ist induktives maschinelles Lernen?
Das induktive maschinelle Lernen beinhaltet den Prozess des Lernens anhand von Beispielen, bei denen ein System aus einer Reihe beobachteter Instanzen versucht, eine allgemeine Regel zu induzieren.
7) Was sind die fünf gängigen Algorithmen des maschinellen Lernens?
- Entscheidungsbäume
- Neuronale Netze (Rückausbreitung)
- Probabilistische Netzwerke
- Nächster Nachbar
- Support-Vektor-Maschinen
8) Was sind die verschiedenen Algorithmus-Techniken beim maschinellen Lernen?
Die verschiedenen Arten von Techniken im maschinellen Lernen sind
- Überwachtes Lernen
- Unbeaufsichtigtes Lernen
- Halbüberwachtes Lernen
- Verstärkungslernen
- Transduktion
- Lernen zu lernen
9) In welchen drei Phasen werden die Hypothesen oder das Modell für maschinelles Lernen erstellt?
- Modellbau
- Modellprüfung
- Modell anwenden
10) Was ist der Standardansatz für überwachtes Lernen?
Der Standardansatz für überwachtes Lernen besteht darin, den Beispielsatz in den Trainingssatz und den Test aufzuteilen.
11) Was ist "Trainingsset" und "Testset"?
In verschiedenen Bereichen der Informationswissenschaft wie dem maschinellen Lernen wird ein Datensatz verwendet, um die potenziell prädiktive Beziehung zu ermitteln, die als "Trainingssatz" bezeichnet wird. Das Trainingsset ist ein Beispiel, das dem Lernenden gegeben wird, während das Testset verwendet wird, um die Genauigkeit der vom Lernenden generierten Hypothesen zu testen, und es ist das Beispielset, das vom Lernenden zurückgehalten wird. Das Trainingsset unterscheidet sich vom Testset.
12) Verschiedene Ansätze für maschinelles Lernen auflisten?
Die verschiedenen Ansätze im maschinellen Lernen sind
- Konzept gegen Klassifikationslernen
- Symbolisches vs. statistisches Lernen
- Induktives vs. analytisches Lernen
13) Was ist nicht maschinelles Lernen?
- Künstliche Intelligenz
- Regelbasierte Folgerung
14) Erklären Sie, welche Funktion "unbeaufsichtigtes Lernen" hat.
- Finden Sie Cluster der Daten
- Finden Sie niedrigdimensionale Darstellungen der Daten
- Finden Sie interessante Richtungen in Daten
- Interessante Koordinaten und Korrelationen
- Finden Sie neuartige Beobachtungen / Datenbankbereinigung
15) Erklären Sie, welche Funktion "Betreutes Lernen" hat.
- Klassifikationen
- Spracherkennung
- Regression
- Zeitreihen vorhersagen
- Zeichenfolgen mit Anmerkungen versehen
16) Was ist algorithmisches maschinelles Lernen?
Maschinelles Lernen, bei dem mathematische Grundlagen unabhängig von einem bestimmten Klassifikator oder Lernalgorithmus sind, wird als algorithmisches maschinelles Lernen bezeichnet.
17) Was ist der Unterschied zwischen künstlichem und maschinellem Lernen?
Das Entwerfen und Entwickeln von Algorithmen gemäß dem auf empirischen Daten basierenden Verhalten wird als maschinelles Lernen bezeichnet. Künstliche Intelligenz umfasst neben maschinellem Lernen auch andere Aspekte wie Wissensrepräsentation, Verarbeitung natürlicher Sprache, Planung, Robotik usw.
18) Was ist ein Klassifikator beim maschinellen Lernen?
Ein Klassifikator in einem maschinellen Lernen ist ein System, das einen Vektor diskreter oder kontinuierlicher Merkmalswerte eingibt und einen einzelnen diskreten Wert, die Klasse, ausgibt.
19) Was sind die Vorteile von Naive Bayes?
In Naïve Bayes konvergiert der Klassifikator schneller als diskriminierende Modelle wie die logistische Regression, sodass Sie weniger Trainingsdaten benötigen. Der Hauptvorteil ist, dass es keine Interaktionen zwischen Features lernen kann.
20) In welchen Bereichen wird die Mustererkennung eingesetzt?
Die Mustererkennung kann in verwendet werden
- Computer Vision
- Spracherkennung
- Data Mining
- Statistiken
- Informeller Abruf
- Bioinformatik
21) Was ist genetische Programmierung?
Genetische Programmierung ist eine der beiden Techniken des maschinellen Lernens. Das Modell basiert auf dem Testen und Auswählen der besten Wahl aus einer Reihe von Ergebnissen.
22) Was ist induktive Logikprogrammierung beim maschinellen Lernen?
Induktive Logikprogrammierung (ILP) ist ein Teilbereich des maschinellen Lernens, in dem logische Programmierung verwendet wird, die Hintergrundwissen und Beispiele darstellt.
23) Was ist Modellauswahl beim maschinellen Lernen?
Der Prozess der Auswahl von Modellen aus verschiedenen mathematischen Modellen, mit denen derselbe Datensatz beschrieben wird, wird als Modellauswahl bezeichnet. Die Modellauswahl wird auf die Bereiche Statistik, maschinelles Lernen und Data Mining angewendet.
24) Welche beiden Methoden werden für die Kalibrierung in Supervised Learning verwendet?
Die beiden Methoden zur Vorhersage guter Wahrscheinlichkeiten beim überwachten Lernen sind:
- Platt Kalibrierung
- Isotonische Regression
Diese Methoden sind für die binäre Klassifizierung konzipiert und nicht trivial.
25) Welche Methode wird häufig angewendet, um eine Überanpassung zu verhindern?
Wenn genügend Daten vorhanden sind, wird "Isotonische Regression" verwendet, um ein Überanpassungsproblem zu vermeiden.
26) Was ist der Unterschied zwischen Heuristik für das Lernen von Regeln und Heuristik für Entscheidungsbäume?
Der Unterschied besteht darin, dass die Heuristiken für Entscheidungsbäume die durchschnittliche Qualität einer Anzahl nicht zusammenhängender Mengen bewerten, während Regellernende nur die Qualität der Menge von Instanzen bewerten, die von der Kandidatenregel abgedeckt werden.
27) Was ist Perceptron beim maschinellen Lernen?
Beim maschinellen Lernen ist Perceptron ein Algorithmus zur überwachten Klassifizierung der Eingabe in eine von mehreren möglichen nicht-binären Ausgaben.
28) Erklären Sie die beiden Komponenten des Bayes'schen Logikprogramms?
Das Bayes'sche Logikprogramm besteht aus zwei Komponenten. Die erste Komponente ist logisch; Es besteht aus einer Reihe von Bayes'schen Klauseln, die die qualitative Struktur der Domäne erfassen. Die zweite Komponente ist eine quantitative, sie codiert die quantitativen Informationen über die Domäne.
29) Was sind Bayesian Networks (BN)?
Das Bayes'sche Netzwerk wird verwendet, um das grafische Modell für die Wahrscheinlichkeitsbeziehung zwischen einer Reihe von Variablen darzustellen.
30) Warum wird ein instanzbasierter Lernalgorithmus manchmal als Lazy-Learning-Algorithmus bezeichnet?
Der instanzbasierte Lernalgorithmus wird auch als Lazy-Learning-Algorithmus bezeichnet, da er den Induktions- oder Generalisierungsprozess verzögert, bis eine Klassifizierung durchgeführt wird.
31) Mit welchen zwei Klassifizierungsmethoden kann SVM (Support Vector Machine) umgehen?
- Kombinieren von binären Klassifikatoren
- Ändern der Binärdatei, um das Lernen in mehreren Klassen zu integrieren
32) Was ist Ensemble-Lernen?
Um ein bestimmtes Rechenprogramm zu lösen, werden mehrere Modelle wie Klassifikatoren oder Experten strategisch generiert und kombiniert. Dieser Prozess wird als Ensemble-Lernen bezeichnet.
33) Warum wird Ensemble-Lernen verwendet?
Ensemble-Lernen wird verwendet, um die Klassifizierung, Vorhersage, Funktionsnäherung usw. eines Modells zu verbessern.
34) Wann soll Ensemble-Lernen eingesetzt werden?
Ensemble-Lernen wird verwendet, wenn Sie Komponentenklassifizierer erstellen, die genauer und unabhängig voneinander sind.
35) Was sind die beiden Paradigmen der Ensemble-Methoden?
Die beiden Paradigmen der Ensemble-Methoden sind
- Sequentielle Ensemble-Methoden
- Parallele Ensemblemethoden
36) Was ist das allgemeine Prinzip einer Ensemble-Methode und was ist das Absacken und Boosten in der Ensemble-Methode?
Das allgemeine Prinzip einer Ensemble-Methode besteht darin, die Vorhersagen mehrerer Modelle zu kombinieren, die mit einem bestimmten Lernalgorithmus erstellt wurden, um die Robustheit gegenüber einem einzelnen Modell zu verbessern. Das Absacken ist eine Methode im Ensemble zur Verbesserung instabiler Schätz- oder Klassifizierungsschemata. Während Boosting-Verfahren werden nacheinander verwendet, um die Vorspannung des kombinierten Modells zu reduzieren. Sowohl Boosting als auch Bagging können Fehler reduzieren, indem der Varianzterm reduziert wird.
37) Was ist eine Bias-Varianz-Zerlegung des Klassifizierungsfehlers bei der Ensemble-Methode?
Der erwartete Fehler eines Lernalgorithmus kann in Vorspannung und Varianz zerlegt werden. Ein Bias-Term misst, wie genau der vom Lernalgorithmus erzeugte durchschnittliche Klassifikator mit der Zielfunktion übereinstimmt. Der Varianzterm misst, wie stark die Vorhersage des Lernalgorithmus für verschiedene Trainingssätze schwankt.
38) Was ist ein inkrementeller Lernalgorithmus im Ensemble?
Inkrementelle Lernmethode ist die Fähigkeit eines Algorithmus, aus neuen Daten zu lernen, die möglicherweise verfügbar sind, nachdem der Klassifikator bereits aus einem bereits verfügbaren Datensatz generiert wurde.
39) Wofür werden PCA, KPCA und ICA verwendet?
PCA (Principal Components Analysis), KPCA (Kernel Based Principal Component Analysis) und ICA (Independent Component Analysis) sind wichtige Techniken zur Merkmalsextraktion, die zur Reduzierung der Dimensionalität verwendet werden.
40) Was ist Dimensionsreduzierung beim maschinellen Lernen?
Beim maschinellen Lernen und in der Statistik wird bei der Dimensionsreduzierung die Anzahl der berücksichtigten Zufallsvariablen reduziert und in Feature-Auswahl und Feature-Extraktion unterteilt.
41) Was sind Support-Vektor-Maschinen?
Support-Vektor-Maschinen sind überwachte Lernalgorithmen, die zur Klassifizierung und Regressionsanalyse verwendet werden.
42) Was sind die Komponenten relationaler Bewertungstechniken?
Die wichtigen Komponenten relationaler Bewertungstechniken sind
- Datenerfassung
- Grundwahrheitserfassung
- Kreuzvalidierungstechnik
- Abfragetyp
- Bewertungsmetrik
- Signifikanztest
43) Was sind die verschiedenen Methoden für sequentielles überwachtes Lernen?
Die verschiedenen Methoden zur Lösung von Problemen mit sequentiellem überwachtem Lernen sind:
- Schiebefenstermethoden
- Wiederkehrende Schiebefenster
- Hidden Markow Modelle
- Markow-Modelle mit maximaler Entropie
- Bedingte Zufallsfelder
- Graphtransformator-Netzwerke
44) In welchen Bereichen der Robotik und Informationsverarbeitung treten Probleme mit der sequentiellen Vorhersage auf?
Die Bereiche in der Robotik und Informationsverarbeitung, in denen Probleme mit der sequentiellen Vorhersage auftreten, sind
- Nachahmung lernen
- Strukturierte Vorhersage
- Modellbasiertes Verstärkungslernen
45) Was ist diskontinuierliches statistisches Lernen?
Statistische Lerntechniken ermöglichen das Lernen einer Funktion oder eines Prädiktors aus einem Satz beobachteter Daten, die Vorhersagen über unsichtbare oder zukünftige Daten treffen können. Diese Techniken bieten Garantien für die Leistung des erlernten Prädiktors für zukünftige unsichtbare Daten, basierend auf einer statistischen Annahme des Datenerzeugungsprozesses.
46) Was ist PAC-Lernen?
PAC-Lernen (wahrscheinlich ungefähr korrekt) ist ein Lernrahmen, der eingeführt wurde, um Lernalgorithmen und ihre statistische Effizienz zu analysieren.
47) In welchen verschiedenen Kategorien können Sie den Sequenzlernprozess kategorisieren?
- Sequenzvorhersage
- Sequenzgenerierung
- Sequenzerkennung
- Sequentielle Entscheidung
48) Was ist Sequenzlernen?
Sequenzlernen ist eine Methode zum logischen Lehren und Lernen.
49) Was sind zwei Techniken des maschinellen Lernens?
Die beiden Techniken des maschinellen Lernens sind
- Genetische Programmierung
- Induktives Lernen
Die von großen E-Commerce-Websites implementierte Empfehlungs-Engine verwendet maschinelles Lernen.