Faktor in R: Kategoriale Variable & Kontinuierliche Variablen

Inhaltsverzeichnis:

Anonim

Was ist Faktor in R?

Der Faktor in R ist eine Variable, die zum Kategorisieren und Speichern der Daten verwendet wird und eine begrenzte Anzahl unterschiedlicher Werte aufweist. Es speichert die Daten als Vektor von ganzzahligen Werten. Der Faktor in R ist auch als kategoriale Variable bekannt, die sowohl Zeichenfolgen- als auch Ganzzahldatenwerte als Ebenen speichert. Der Faktor wird hauptsächlich in der statistischen Modellierung und explorativen Datenanalyse mit R verwendet.

In einem Datensatz können zwei Arten von Variablen unterschieden werden: kategorial und kontinuierlich .

  • In der deskriptiven Statistik für kategoriale Variablen in R ist der Wert begrenzt und basiert normalerweise auf einer bestimmten endlichen Gruppe. Eine kategoriale Variable in R kann beispielsweise Länder, Jahr, Geschlecht, Beruf sein.
  • Eine stetige Variable kann jedoch beliebige Werte von ganzzahlig bis dezimal annehmen. Zum Beispiel können wir den Umsatz, den Preis einer Aktie usw. haben.

Kategorische Variablen

Kategoriale Variablen in R werden in einem Faktor gespeichert. Überprüfen Sie den folgenden Code, um eine Zeichenvariable in eine Faktorvariable in R zu konvertieren. Zeichen werden im Algorithmus für maschinelles Lernen nicht unterstützt. Die einzige Möglichkeit besteht darin, eine Zeichenfolge in eine Ganzzahl zu konvertieren.

Syntax

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumente:

  • x : Ein Vektor kategorialer Daten in R. Muss eine Zeichenfolge oder eine Ganzzahl sein, keine Dezimalzahl.
  • Ebenen : Ein Vektor möglicher Werte von x. Dieses Argument ist optional. Der Standardwert ist die eindeutige Liste der Elemente des Vektors x.
  • Beschriftungen : Fügen Sie den x kategorialen Daten in R eine Beschriftung hinzu. Beispielsweise kann 1 die Beschriftung "männlich" und 0 die Bezeichnung "weiblich" verwenden.
  • bestellt : Bestimmen Sie, ob die Ebenen in kategorialen Daten in R geordnet werden sollen.

Beispiel:

Lassen Sie uns einen Faktor-Datenrahmen erstellen.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Ausgabe:

## [1] "character"## [1] "factor"

Es ist wichtig, eine Zeichenfolge in eine Faktorvariable in R umzuwandeln, wenn wir eine maschinelle Lernaufgabe ausführen.

Eine kategoriale Variable in R kann in nominale kategoriale Variablen und ordinale kategoriale Variablen unterteilt werden .

Nominale kategoriale Variable

Eine kategoriale Variable hat mehrere Werte, aber die Reihenfolge spielt keine Rolle. Zum Beispiel männlich oder weiblich. Kategoriale Variablen in R haben keine Reihenfolge.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Ausgabe:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Aus der factor_color können wir keine Reihenfolge ableiten.

Ordinale kategoriale Variable

Ordinale kategoriale Variablen haben eine natürliche Reihenfolge. Wir können die Reihenfolge angeben, von der niedrigsten zur höchsten mit order = TRUE und von der höchsten zur niedrigsten mit order = FALSE.

Beispiel:

Wir können eine Zusammenfassung verwenden, um die Werte für jede Faktorvariable in R zu zählen.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Ausgabe:

## [1] evening morning afternoon middaymidnight evening 

Beispiel:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Ausgabe:

## morning midday afternoon evening midnight## 1 1 1 2 1

R ordnete das Level von 'Morgen' bis 'Mitternacht', wie in der Level-Klammer angegeben.

Kontinuierliche Variablen

Kontinuierliche Klassenvariablen sind der Standardwert in R. Sie werden als numerisch oder ganzzahlig gespeichert. Wir können es aus dem Datensatz unten sehen. mtcars ist ein integrierter Datensatz. Es sammelt Informationen über verschiedene Fahrzeugtypen. Wir können es mit mtcars importieren und die Klasse der Variablen mpg, Meile pro Gallone, überprüfen. Es gibt einen numerischen Wert zurück, der eine kontinuierliche Variable angibt.

dataset <- mtcarsclass(dataset$mpg)

Ausgabe

## [1] "numeric"