Was ist R-Software?
R ist eine Programmiersprache und freie Software, die 1993 von Ross Ihaka und Robert Gentleman entwickelt wurde. R verfügt über einen umfangreichen Katalog statistischer und grafischer Methoden. Es umfasst Algorithmen für maschinelles Lernen, lineare Regression, Zeitreihen und statistische Inferenz, um nur einige zu nennen. Die meisten R-Bibliotheken sind in R geschrieben, aber für schwere Rechenaufgaben werden C-, C ++ - und Fortran-Codes bevorzugt.
R wird nicht nur von Akademikern anvertraut, sondern viele große Unternehmen verwenden auch die Programmiersprache R, darunter Uber, Google, Airbnb, Facebook und so weiter.
Die Datenanalyse mit R erfolgt in mehreren Schritten. Programmieren, Transformieren, Entdecken, Modellieren und Kommunizieren der Ergebnisse
- Programm : R ist ein klares und zugängliches Programmierwerkzeug
- Transform : R besteht aus einer Sammlung von Bibliotheken, die speziell für die Datenwissenschaft entwickelt wurden
- Entdecken Sie : Untersuchen Sie die Daten, verfeinern Sie Ihre Hypothese und analysieren Sie sie
- Modell : R bietet eine Vielzahl von Tools, mit denen Sie das richtige Modell für Ihre Daten erfassen können
- Kommunizieren : Integrieren Sie Codes, Grafiken und Ausgaben in einen Bericht mit R Markdown oder erstellen Sie Shiny-Apps, um sie mit der Welt zu teilen
In diesem Einführungs-Tutorial lernen Sie R.
- Wofür wird R verwendet?
- R nach Branchen
- R-Paket
- Kommunizieren Sie mit R.
- Warum R verwenden?
- Solltest du R wählen?
- Ist R schwierig?
Wofür wird R verwendet?
- Statistische Inferenz
- Datenanalyse
- Algorithmus für maschinelles Lernen
R nach Branchen
Wenn wir die Verwendung von R durch die Industrie aufschlüsseln, sehen wir, dass Akademiker an erster Stelle stehen. R ist eine Sprache für die Statistik. R ist die erste Wahl in der Gesundheitsbranche, gefolgt von Regierung und Beratung.
R-Paket
Die Hauptanwendungen von R sind und bleiben Statistik, Visualisierung und maschinelles Lernen. Das Bild unten zeigt, welches R-Paket die meisten Fragen in Stack Overflow hat. In den Top 10 beziehen sich die meisten auf den Workflow eines Datenwissenschaftlers: Datenaufbereitung und Kommunikation der Ergebnisse.
Alle Bibliotheken von R, fast 12 KB, werden in CRAN gespeichert. CRAN ist eine kostenlose und Open Source. Sie können die zahlreichen Bibliotheken herunterladen und verwenden, um maschinelles Lernen oder Zeitreihenanalysen durchzuführen.
Kommunizieren Sie mit R.
R bietet mehrere Möglichkeiten zum Präsentieren und Teilen von Arbeiten, entweder über ein Markdown-Dokument oder eine glänzende App. Alles kann in Rpub, GitHub oder auf der Website des Unternehmens gehostet werden.
Unten finden Sie ein Beispiel für eine Präsentation, die auf Rpub gehostet wird
Rstudio akzeptiert Abschriften zum Schreiben eines Dokuments. Sie können die Dokumente in verschiedenen Formaten exportieren:
- Dokument:
- HTML
- PDF / Latex
- Wort
- Präsentation
- HTML
- PDF Beamer
Rstudio hat ein großartiges Tool, um einfach eine App zu erstellen. Unten finden Sie ein Beispiel für eine App mit den Daten der Weltbank.
Warum R verwenden?
Data Science prägt die Art und Weise, wie Unternehmen ihre Geschäfte führen. Wenn Sie sich ohne Zweifel von künstlicher Intelligenz und Maschine fernhalten, wird das Unternehmen scheitern. Die große Frage ist, welches Tool / welche Sprache Sie verwenden sollten.
Auf dem Markt stehen zahlreiche Tools zur Datenanalyse zur Verfügung. Das Erlernen einer neuen Sprache erfordert einige Zeitinvestitionen. Das folgende Bild zeigt die Lernkurve im Vergleich zu den Geschäftsfähigkeiten, die eine Sprache bietet. Die negative Beziehung impliziert, dass es kein kostenloses Mittagessen gibt. Wenn Sie den besten Einblick in die Daten geben möchten, müssen Sie einige Zeit damit verbringen, das entsprechende Tool zu erlernen, nämlich R.
Oben links im Diagramm sehen Sie Excel und PowerBI. Diese beiden Tools sind einfach zu erlernen, bieten jedoch keine herausragenden Geschäftsfähigkeiten, insbesondere im Hinblick auf die Modellierung. In der Mitte sehen Sie Python und SAS. SAS ist ein spezielles Tool zum Ausführen einer statistischen Analyse für Unternehmen, das jedoch nicht kostenlos ist. SAS ist eine Click-and-Run-Software. Python ist jedoch eine Sprache mit einer monotonen Lernkurve. Python ist ein fantastisches Tool zum Bereitstellen von maschinellem Lernen und KI, es fehlen jedoch Kommunikationsfunktionen. Mit einer identischen Lernkurve ist R ein guter Kompromiss zwischen Implementierung und Datenanalyse.
Wenn es um Datenvisualisierung (DataViz) geht, haben Sie wahrscheinlich schon von Tableau gehört. Tableau ist ohne Zweifel ein großartiges Werkzeug, um Muster mithilfe von Grafiken und Diagrammen zu erkennen. Außerdem ist das Erlernen von Tableau nicht zeitaufwändig. Ein großes Problem bei der Datenvisualisierung besteht darin, dass Sie möglicherweise nie ein Muster finden oder einfach viele nutzlose Diagramme erstellen. Tableau ist ein gutes Tool zur schnellen Visualisierung der Daten oder von Business Intelligence. Wenn es um Statistiken und Entscheidungshilfen geht, ist R besser geeignet.
Stack Overflow ist eine große Community für Programmiersprachen. Wenn Sie ein Codierungsproblem haben oder ein Modell verstehen müssen, hilft Ihnen Stack Overflow. Im Laufe des Jahres hat der Prozentsatz der Fragenansichten für R im Vergleich zu den anderen Sprachen stark zugenommen. Dieser Trend korreliert natürlich stark mit dem boomenden Zeitalter der Datenwissenschaft, spiegelt jedoch die Nachfrage der R-Sprache nach der Datenwissenschaft wider.
In der Datenwissenschaft gibt es zwei miteinander konkurrierende Werkzeuge. R und Python sind wahrscheinlich die Programmiersprache, die Data Science definiert.
Solltest du R wählen?
Datenwissenschaftler können zwei hervorragende Tools verwenden: R und Python. Möglicherweise haben Sie keine Zeit, beide zu lernen, insbesondere wenn Sie mit dem Erlernen der Datenwissenschaft beginnen. Lernen der statistischen Modellierung und des Algorithmusist weitaus wichtiger als eine Programmiersprache zu lernen. Eine Programmiersprache ist ein Werkzeug zum Berechnen und Kommunizieren Ihrer Entdeckung. Die wichtigste Aufgabe in der Datenwissenschaft ist der Umgang mit den Daten: Importieren, Bereinigen, Vorbereiten, Feature-Engineering, Feature-Auswahl. Dies sollte Ihr Hauptaugenmerk sein. Wenn Sie versuchen, R und Python gleichzeitig zu lernen, ohne einen soliden Hintergrund in der Statistik zu haben, ist das einfach dumm. Datenwissenschaftler sind keine Programmierer. Ihre Aufgabe ist es, die Daten zu verstehen, zu manipulieren und den besten Ansatz aufzuzeigen. Wenn Sie überlegen, welche Sprache Sie lernen möchten, lassen Sie uns sehen, welche Sprache für Sie am besten geeignet ist.
Das Hauptpublikum für Data Science ist Business Professional. In der Branche ist Kommunikation eine große Auswirkung. Es gibt viele Möglichkeiten zu kommunizieren: Bericht, Web-App, Dashboard. Sie benötigen ein Tool, das dies alles zusammen erledigt.
Ist R schwierig?
Vor Jahren war R eine schwer zu beherrschende Sprache. Die Sprache war verwirrend und nicht so strukturiert wie die anderen Programmierwerkzeuge. Um dieses Hauptproblem zu lösen, entwickelte Hadley Wickham eine Sammlung von Paketen namens tidyverse. Die Spielregel hat sich zum Besten geändert. Datenmanipulation wird trivial und intuitiv. Das Erstellen eines Diagramms war nicht mehr so schwierig.
Die besten Algorithmen für maschinelles Lernen können mit R implementiert werden. Pakete wie Keras und TensorFlow ermöglichen die Erstellung von High-End-Techniken für maschinelles Lernen. R hat auch ein Paket für Xgboost, einen der besten Algorithmen für den Kaggle-Wettbewerb.
R kann mit der anderen Sprache kommunizieren. Es ist möglich, Python, Java, C ++ in R aufzurufen. Die Welt der Big Data ist auch für R zugänglich. Sie können R mit verschiedenen Datenbanken wie Spark oder Hadoop verbinden.
Schließlich hat sich R weiterentwickelt und eine Parallelisierungsoperation ermöglicht, um die Berechnung zu beschleunigen. Tatsächlich wurde R dafür kritisiert, jeweils nur eine CPU zu verwenden. Mit dem Parallelpaket können Sie Aufgaben in verschiedenen Kernen des Computers ausführen.
Zusammenfassung
Kurz gesagt, R ist ein großartiges Werkzeug, um die Daten zu untersuchen und zu untersuchen. Aufwändige Analysen wie Clustering, Korrelation und Datenreduktion werden mit R durchgeführt. Dies ist der wichtigste Teil. Ohne ein gutes Feature-Engineering und -Modell liefert der Einsatz des maschinellen Lernens keine aussagekräftigen Ergebnisse.