Top 50 Fragen und Antworten zu Data Science-Vorstellungsgesprächen

Anonim

Im Folgenden finden Sie häufig gestellte Fragen in Vorstellungsgesprächen für Studienanfänger sowie erfahrene Data Scientist.

1. Was ist Data Science?

Data Science ist eine Kombination aus Algorithmen, Werkzeugen und Techniken des maschinellen Lernens, mit deren Hilfe Sie anhand der angegebenen Rohdaten häufig verborgene Muster finden können.

2. Was ist logistische Regression in Data Science?

Die logistische Regression wird auch als Logit-Modell bezeichnet. Es ist eine Methode, um das binäre Ergebnis aus einer linearen Kombination von Prädiktorvariablen vorherzusagen.

3. Nennen Sie drei Arten von Verzerrungen, die während der Probenahme auftreten können

Im Stichprobenverfahren gibt es drei Arten von Verzerrungen:

  • Auswahlbias
  • Unter Deckungsbias
  • Überlebensbias

4. Diskutieren Sie den Entscheidungsbaum-Algorithmus

Ein Entscheidungsbaum ist ein beliebter überwachter Algorithmus für maschinelles Lernen. Es wird hauptsächlich zur Regression und Klassifizierung verwendet. Es ermöglicht die Aufteilung eines Datensatzes in kleinere Teilmengen. Der Entscheidungsbaum kann sowohl kategoriale als auch numerische Daten verarbeiten.

5. Was ist die vorherige Wahrscheinlichkeit und Wahrscheinlichkeit?

Die vorherige Wahrscheinlichkeit ist der Anteil der abhängigen Variablen im Datensatz, während die Wahrscheinlichkeit die Wahrscheinlichkeit ist, einen bestimmten Beobachter in Gegenwart einer anderen Variablen zu klassifizieren.

6. Empfehlungssysteme erklären?

Es ist eine Unterklasse von Informationsfiltertechniken. Es hilft Ihnen, die Präferenzen oder Bewertungen vorherzusagen, die Benutzer einem Produkt wahrscheinlich geben.

7. Nennen Sie drei Nachteile der Verwendung eines linearen Modells

Drei Nachteile des linearen Modells sind:

  • Die Annahme der Linearität der Fehler.
  • Sie können dieses Modell nicht für binäre oder Zählergebnisse verwenden
  • Es gibt viele Überanpassungsprobleme, die nicht gelöst werden können

8. Warum müssen Sie ein Resampling durchführen?

Das Resampling erfolgt in den folgenden Fällen:

  • Schätzen der Genauigkeit von Stichprobenstatistiken durch zufälliges Zeichnen mit Ersetzung aus einem Satz des Datenpunkts oder Verwenden als Teilmengen zugänglicher Daten
  • Ersetzen von Beschriftungen an Datenpunkten bei der Durchführung der erforderlichen Tests
  • Validieren von Modellen mithilfe zufälliger Teilmengen

9. Listen Sie die Bibliotheken in Python auf, die für Datenanalysen und wissenschaftliche Berechnungen verwendet werden.

  • SciPy
  • Pandas
  • Matplotlib
  • NumPy
  • SciKit
  • Seaborn

10. Was ist Leistungsanalyse?

Die Leistungsanalyse ist ein wesentlicher Bestandteil des Versuchsaufbaus. Es hilft Ihnen bei der Bestimmung der Stichprobengröße, die erforderlich ist, um die Auswirkung einer bestimmten Größe aus einer Ursache mit einem bestimmten Maß an Sicherheit herauszufinden. Außerdem können Sie eine bestimmte Wahrscheinlichkeit in einer Stichprobengrößenbeschränkung bereitstellen.

11. Erläutern Sie die kollaborative Filterung

Kollaborative Filterung zur Suche nach korrekten Mustern durch Zusammenarbeit von Gesichtspunkten, mehreren Datenquellen und verschiedenen Agenten.

12. Was ist Voreingenommenheit?

Bias ist ein Fehler, der in Ihrem Modell aufgrund der zu starken Vereinfachung eines Algorithmus für maschinelles Lernen auftritt. "Dies kann zu einer Unteranpassung führen.

13. Diskutieren Sie 'Naive' in einem Naive Bayes-Algorithmus?

Das Modell des Naive Bayes-Algorithmus basiert auf dem Bayes-Theorem. Es beschreibt die Wahrscheinlichkeit eines Ereignisses. Es basiert auf Vorkenntnissen über Bedingungen, die mit diesem bestimmten Ereignis zusammenhängen könnten.

14. Was ist eine lineare Regression?

Die lineare Regression ist eine statistische Programmiermethode, bei der die Bewertung einer Variablen 'A' aus der Bewertung einer zweiten Variablen 'B' vorhergesagt wird. B wird als Prädiktorvariable und A als Kriteriumsvariable bezeichnet.

15. Geben Sie die Differenz zwischen dem erwarteten Wert und dem Mittelwert an

Es gibt nicht viele Unterschiede, aber beide Begriffe werden in unterschiedlichen Kontexten verwendet. Der Mittelwert wird im Allgemeinen bezeichnet, wenn Sie eine Wahrscheinlichkeitsverteilung diskutieren, während der erwartete Wert im Kontext einer Zufallsvariablen angegeben wird.

16. Was ist das Ziel der Durchführung von A / B-Tests?

AB-Tests zur Durchführung von Zufallsexperimenten mit zwei Variablen, A und B. Ziel dieser Testmethode ist es, Änderungen an einer Webseite herauszufinden, um das Ergebnis einer Strategie zu maximieren oder zu steigern.

17. Was ist Ensemble-Lernen?

Das Ensemble ist eine Methode, um eine Vielzahl von Lernenden miteinander zu kombinieren, um die Stabilität und Vorhersagekraft des Modells zu improvisieren. Zwei Arten von Ensemble-Lernmethoden sind:

Absacken

Die Bagging-Methode hilft Ihnen, ähnliche Lernende in kleinen Stichprobenpopulationen zu implementieren. Es hilft Ihnen, nähere Vorhersagen zu treffen.

Erhöhen

Boosting ist eine iterative Methode, mit der Sie das Gewicht einer Beobachtung abhängig von der letzten Klassifizierung anpassen können. Durch Boosting wird der Bias-Fehler verringert und Sie können starke Vorhersagemodelle erstellen.

18. Erklären Sie Eigenwert und Eigenvektor

Eigenvektoren dienen zum Verständnis linearer Transformationen. Datenwissenschaftler müssen die Eigenvektoren für eine Kovarianzmatrix oder Korrelation berechnen. Eigenwerte sind die Richtungen entlang spezifischer linearer Transformationsakte durch Komprimieren, Spiegeln oder Dehnen.

19. Definieren Sie den Begriff Kreuzvalidierung

Die Kreuzvalidierung ist eine Validierungstechnik zur Bewertung der Verallgemeinerung der Ergebnisse der statistischen Analyse für einen unabhängigen Datensatz. Diese Methode wird in Hintergründen verwendet, in denen das Ziel prognostiziert wird, und man muss abschätzen, wie genau ein Modell erreicht wird.

20. Erläutern Sie die Schritte für ein Datenanalyseprojekt

Die folgenden wichtigen Schritte sind mit einem Analyseprojekt verbunden:

  • Verstehen Sie das Geschäftsproblem
  • Untersuchen Sie die Daten und studieren Sie sie sorgfältig.
  • Bereiten Sie die Daten für die Modellierung vor, indem Sie fehlende Werte finden und Variablen transformieren.
  • Starten Sie das Modell und analysieren Sie das Big-Data-Ergebnis.
  • Validieren Sie das Modell mit einem neuen Datensatz.
  • Implementieren Sie das Modell und verfolgen Sie das Ergebnis, um die Leistung des Modells für einen bestimmten Zeitraum zu analysieren.

21. Diskutieren Sie künstliche neuronale Netze

Künstliche Neuronale Netze (ANN) sind spezielle Algorithmen, die das maschinelle Lernen revolutioniert haben. Es hilft Ihnen, sich an sich ändernde Eingaben anzupassen. Das Netzwerk generiert also das bestmögliche Ergebnis, ohne die Ausgabekriterien neu zu gestalten.

22. Was ist Rückenausbreitung?

Die Rückausbreitung ist die Essenz des neuronalen Netztrainings. Es ist die Methode zum Einstellen der Gewichte eines neuronalen Netzes, die von der Fehlerrate abhängt, die in der vorherigen Epoche erhalten wurde. Die richtige Abstimmung des hilft Ihnen, die Fehlerraten zu reduzieren und das Modell durch eine stärkere Verallgemeinerung zuverlässig zu machen.

23. Was ist ein zufälliger Wald?

Random Forest ist eine maschinelle Lernmethode, mit der Sie alle Arten von Regressions- und Klassifizierungsaufgaben ausführen können. Es wird auch zur Behandlung fehlender Werte und Ausreißerwerte verwendet.

24. Welche Bedeutung hat eine Auswahlverzerrung?

Auswahlverzerrung tritt auf, wenn beim Auswählen von zu analysierenden Einzelpersonen oder Gruppen oder Daten keine spezifische Randomisierung erreicht wird. Dies deutet darauf hin, dass die angegebene Stichprobe nicht genau die Population darstellt, die analysiert werden sollte.

25. Was ist die K-Mittel-Clustering-Methode?

K-Mittel-Clustering ist eine wichtige unbeaufsichtigte Lernmethode. Es ist die Technik zum Klassifizieren von Daten unter Verwendung eines bestimmten Satzes von Clustern, die als K-Cluster bezeichnet wird. Es wird zur Gruppierung bereitgestellt, um die Ähnlichkeit der Daten herauszufinden.

26. Erläutern Sie den Unterschied zwischen Data Science und Data Analytics

Datenwissenschaftler müssen Daten aufteilen, um wertvolle Erkenntnisse zu gewinnen, die ein Datenanalyst auf reale Geschäftsszenarien anwenden kann. Der Hauptunterschied zwischen beiden besteht darin, dass die Datenwissenschaftler über mehr technisches Wissen verfügen als Geschäftsanalysten. Darüber hinaus benötigen sie kein Verständnis für das Geschäft, das für die Datenvisualisierung erforderlich ist.

27. p-Wert erklären?

Wenn Sie einen Hypothesentest in der Statistik durchführen, können Sie mit einem p-Wert die Stärke Ihrer Ergebnisse bestimmen. Es ist eine numerische Zahl zwischen 0 und 1. Basierend auf dem Wert können Sie die Stärke des spezifischen Ergebnisses angeben.

28. Definieren Sie den Begriff Deep Learning

Deep Learning ist ein Subtyp des maschinellen Lernens. Es befasst sich mit Algorithmen, die von der Struktur der künstlichen neuronalen Netze (ANN) inspiriert sind.

29. Erläutern Sie die Methode zum Sammeln und Analysieren von Daten, um mithilfe von sozialen Medien die Wetterbedingungen vorherzusagen.

Sie können Social-Media-Daten über Facebook, Twitter und die APIs von Instagram sammeln. Für den Hochtöner können wir beispielsweise aus jedem Tweet eine Funktion wie das Datum des Tweets, Retweets, die Liste der Follower usw. erstellen. Anschließend können Sie ein multivariates Zeitreihenmodell verwenden, um die Wetterbedingungen vorherzusagen.

30. Wann müssen Sie den Algorithmus in Data Science aktualisieren?

Sie müssen einen Algorithmus in der folgenden Situation aktualisieren:

  • Sie möchten, dass sich Ihr Datenmodell mithilfe der Infrastruktur als Datenstrom entwickelt
  • Die zugrunde liegende Datenquelle ändert sich

    Wenn es nicht stationär ist

31. Was ist Normalverteilung?

Eine Normalverteilung ist ein Satz einer kontinuierlichen Variablen, die über eine Normalkurve oder in Form einer Glockenkurve verteilt ist. Sie können es als kontinuierliche Wahrscheinlichkeitsverteilung betrachten, die in der Statistik nützlich ist. Es ist nützlich, die Variablen und ihre Beziehungen zu analysieren, wenn wir die Normalverteilungskurve verwenden.

32. Welche Sprache eignet sich am besten für die Textanalyse? R oder Python?

Python eignet sich besser für die Textanalyse, da es aus einer umfangreichen Bibliothek besteht, die als Pandas bekannt ist. Sie können damit Datenanalysetools und Datenstrukturen auf hoher Ebene verwenden, während R diese Funktion nicht bietet.

33. Erläutern Sie die Vorteile der Verwendung von Statistiken durch Data Scientists

Statistiken helfen Data Scientist, sich ein besseres Bild von den Erwartungen der Kunden zu machen. Mithilfe der Statistikmethode können Datenwissenschaftler Kenntnisse über das Interesse, das Verhalten, das Engagement, die Bindung usw. von Verbrauchern erlangen. Außerdem können Sie leistungsstarke Datenmodelle erstellen, um bestimmte Schlussfolgerungen und Vorhersagen zu validieren.

34. Nennen Sie verschiedene Arten von Deep Learning Frameworks

  • Pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • Chainer
  • Keras

35. Erklären Sie Auto-Encoder

Autoencoder sind Lernnetzwerke. Es hilft Ihnen, Eingaben in Ausgaben mit weniger Fehlern umzuwandeln. Dies bedeutet, dass die Ausgabe so nah wie möglich an der Eingabe liegt.

36. Definieren Sie die Boltzmann-Maschine

Boltzmann-Maschinen sind ein einfacher Lernalgorithmus. Es hilft Ihnen dabei, die Funktionen zu ermitteln, die komplexe Regelmäßigkeiten in den Trainingsdaten darstellen. Mit diesem Algorithmus können Sie die Gewichte und die Menge für das jeweilige Problem optimieren.

37. Erklären Sie, warum die Datenbereinigung wichtig ist und mit welcher Methode Sie saubere Daten verwalten

Verschmutzte Daten führen häufig zu einem falschen Inneren, was die Aussicht eines Unternehmens beeinträchtigen kann. Zum Beispiel, wenn Sie eine gezielte Marketingkampagne durchführen möchten. Unsere Daten sagen Ihnen jedoch fälschlicherweise, dass ein bestimmtes Produkt bei Ihrer Zielgruppe gefragt ist. Die Kampagne wird fehlschlagen.

38. Was ist eine verzerrte Verteilung und eine gleichmäßige Verteilung?

Eine verzerrte Verteilung tritt auf, wenn Daten auf einer Seite des Diagramms verteilt werden, während eine gleichmäßige Verteilung festgestellt wird, wenn die Daten im Bereich gleich verteilt sind.

39. Wann tritt in einem statischen Modell eine Unteranpassung auf?

Eine Unteranpassung tritt auf, wenn ein statistisches Modell oder ein Algorithmus für maschinelles Lernen den zugrunde liegenden Trend der Daten nicht erfassen kann.

40. Was ist Bestärkungslernen?

Reinforcement Learning ist ein Lernmechanismus zum Zuordnen von Situationen zu Aktionen. Das Endergebnis soll Ihnen helfen, das binäre Belohnungssignal zu erhöhen. Bei dieser Methode wird dem Lernenden nicht mitgeteilt, welche Aktion er ausführen soll, sondern er muss herausfinden, welche Aktion eine maximale Belohnung bietet. Da diese Methode auf dem Belohnungs- / Strafmechanismus basiert.

41. Nennen Sie häufig verwendete Algorithmen.

Vier von Data Scientists am häufigsten verwendete Algorithmen sind:

  • Lineare Regression
  • Logistische Regression
  • Zufälliger Wald
  • KNN

42. Was ist Präzision?

Präzision ist die am häufigsten verwendete Fehlermetrik ist der n-Klassifizierungsmechanismus. Sein Bereich reicht von 0 bis 1, wobei 1 100% darstellt

43. Was ist eine univariate Analyse?

Eine Analyse, die jeweils auf kein Attribut angewendet wird, wird als univariate Analyse bezeichnet. Boxplot ist ein weit verbreitetes, univariates Modell.

44. Wie überwinden Sie Herausforderungen an Ihre Ergebnisse?

Um die Herausforderungen meiner Suche zu bewältigen, muss man die Diskussion anregen, Führung demonstrieren und verschiedene Optionen respektieren.

45. Erläutern Sie die Cluster-Sampling-Technik in der Datenwissenschaft

Eine Cluster-Stichprobenmethode wird verwendet, wenn es schwierig ist, die über die Zielpopulation verteilte Zielpopulation zu untersuchen, und eine einfache Zufallsstichprobe nicht angewendet werden kann.

46. ​​Geben Sie den Unterschied zwischen einem Validierungssatz und einem Testsatz an

Ein Validierungssatz, der hauptsächlich als Teil des Trainingssatzes betrachtet wird, da er für die Parameterauswahl verwendet wird, um eine Überanpassung des zu erstellenden Modells zu vermeiden.

Während ein Test-Set zum Testen oder Bewerten der Leistung eines trainierten maschinellen Lernmodells verwendet wird.

47. Erklären Sie den Begriff Binomialwahrscheinlichkeitsformel?

"Die Binomialverteilung enthält die Wahrscheinlichkeiten jedes möglichen Erfolgs bei N Versuchen für unabhängige Ereignisse, bei denen die Wahrscheinlichkeit eines Auftretens von π besteht."

48. Was ist ein Rückruf?

Ein Rückruf ist ein Verhältnis der tatsächlichen positiven Rate zur tatsächlichen positiven Rate. Es reicht von 0 bis 1.

49. Diskutieren Sie die Normalverteilung

Normalverteilung als solche gleichmäßig verteilt Mittelwert, Median und Modus sind gleich.

50. Wie können Sie bei der Arbeit an einem Datensatz wichtige Variablen auswählen? Erklären

Folgende Methoden zur Variablenauswahl können Sie verwenden:

  • Entfernen Sie die korrelierten Variablen, bevor Sie wichtige Variablen auswählen
  • Verwenden Sie die lineare Regression und wählen Sie Variablen aus, die von diesen p-Werten abhängen.
  • Verwenden Sie die Auswahl "Rückwärts", "Vorwärts" und "Schrittweise"
  • Verwenden Sie Xgboost, Random Forest und Diagramm mit variabler Wichtigkeit.
  • Messen Sie den Informationsgewinn für den angegebenen Satz von Merkmalen und wählen Sie die Top-n-Merkmale entsprechend aus.

51. Ist es möglich, die Korrelation zwischen kontinuierlicher und kategorialer Variable zu erfassen?

Ja, wir können die Analyse der Kovarianztechnik verwenden, um die Assoziation zwischen kontinuierlichen und kategorialen Variablen zu erfassen.

52. Die Behandlung einer kategorialen Variablen als kontinuierliche Variable würde zu einem besseren Vorhersagemodell führen?

Ja, der kategoriale Wert sollte nur dann als kontinuierliche Variable betrachtet werden, wenn die Variable ordinaler Natur ist. Es ist also ein besseres Vorhersagemodell.