Einfache statistische Analyse

Siehe auch: Forschung gestalten

Sobald Sie quantitative Daten gesammelt haben, haben Sie viele Zahlen. Es ist jetzt an der Zeit, statistische Analysen durchzuführen, um Ihre Daten zu verstehen und daraus einige Schlussfolgerungen zu ziehen.

Es gibt eine breite Palette möglicher Techniken, die Sie verwenden können.

wie groß ist das Volumen eines Festkörpers in

Diese Seite enthält eine kurze Zusammenfassung einiger der gängigsten Techniken zum Zusammenfassen Ihrer Daten und erklärt, wann Sie die einzelnen verwenden würden.



Daten zusammenfassen: Gruppieren und Visualisieren

Das erste, was Sie mit Daten tun müssen, ist, sie zusammenzufassen, dh sie so darzustellen, dass die Geschichte am besten erzählt wird.

Der Ausgangspunkt besteht normalerweise darin, die Rohdaten in Kategorien zu gruppieren und / oder zu visualisieren. Wenn Sie beispielsweise der Meinung sind, dass Sie an Altersunterschieden interessiert sind, müssen Sie Ihre Daten wahrscheinlich zunächst in Alterskategorien gruppieren, z. B. nach zehn oder fünf Jahren.



Eine der am häufigsten zum Zusammenfassen verwendeten Techniken ist die Verwendung Grafiken Insbesondere Balkendiagramme, in denen jeder Datenpunkt in der angegebenen Reihenfolge angezeigt wird, oder Histogramme, bei denen es sich um Balkendiagramme handelt, die in breitere Kategorien unterteilt sind.

Im Folgenden wird ein Beispiel gezeigt, das drei Datensätze verwendet, die nach vier Kategorien gruppiert sind. Dies können beispielsweise „Männer“, „Frauen“ und „anderes / kein Geschlecht angegeben“ sein, gruppiert nach Alterskategorien 20–29, 30–39, 40–49 und 50–59.

Beispiel Histogramm

Eine Alternative zu einem Histogramm ist a Liniendiagramm , der jeden Datenpunkt zeichnet und mit einer Linie verbindet. Die gleichen Daten wie im Balkendiagramm werden in einem Liniendiagramm unten angezeigt.

Beispiel Liniendiagramm



Es ist nicht schwer, ein Histogramm oder ein Liniendiagramm von Hand zu zeichnen, wie Sie sich vielleicht aus der Schule erinnern, aber Tabellenkalkulationen zeichnen eines schnell und einfach, sobald Sie die Daten in eine Tabelle eingegeben haben, was Ihnen Probleme erspart. Sie werden Sie sogar durch den Prozess führen.

Visualisieren Sie Ihre Daten


Das Wichtigste beim Zeichnen eines Diagramms ist, dass Sie sofort ein Bild der Daten erhalten. Dies ist wichtig, da es Ihnen sofort anzeigt, ob Ihre Daten gruppiert, verteilt, zu hohen oder niedrigen Werten tendiert oder um einen zentralen Punkt gruppiert sind. Außerdem wird angezeigt, ob Sie Ausreißer haben, dh sehr hohe oder sehr niedrige Datenwerte, die Sie möglicherweise von der Analyse ausschließen oder zumindest erneut überprüfen möchten, um zu überprüfen, ob sie korrekt sind.

Es lohnt sich immer, ein Diagramm zu zeichnen, bevor Sie mit einer weiteren Analyse beginnen, um sich Ihre Daten anzusehen.


Sie können auch gruppierte Daten in a anzeigen Kuchendiagramm , wie dieser hier.

Beispiel eines Kreisdiagramms



Kreisdiagramme werden am besten verwendet, wenn Sie an der relativen Größe jeder Gruppe interessiert sind und welcher Anteil der Gesamtzahl in jede Kategorie passt, da sie sehr deutlich zeigen, welche Gruppen größer sind.

Siehe unsere Seite: Diagramme und Grafiken Weitere Informationen zu verschiedenen Arten von Grafiken und Diagrammen.

Standortmessungen: Durchschnittswerte

Das durchschnittlich gibt Ihnen Informationen über die Größe des Effekts von allem, was Sie testen, mit anderen Worten, ob es groß oder klein ist. Es gibt drei Durchschnittsmaße: Mittelwert, Median und Modus.



Siehe unsere Seite auf Durchschnittswerte Weitere Informationen zum Berechnen der einzelnen Elemente und einen schnellen Taschenrechner.

Wenn die meisten Leute Durchschnitt sagen, sprechen sie über das bedeuten . Es hat den Vorteil, dass es alle erhaltenen Datenwerte verwendet und für weitere statistische Analysen verwendet werden kann. Es kann jedoch durch Ausreißer verzerrt werden, Werte, die atypisch groß oder klein sind.

Infolgedessen verwenden Forscher manchmal die Median stattdessen. Dies ist der Mittelpunkt aller Daten. Der Median wird nicht durch Extremwerte verzerrt, ist jedoch für weitere statistische Analysen schwieriger zu verwenden.

Das Modus ist der häufigste Wert in einem Datensatz. Es kann nicht für weitere statistische Analysen verwendet werden.

Die Werte für Mittelwert, Median und Modus sind nicht Aus diesem Grund ist es sehr wichtig, klar zu machen, von welchem ​​„Durchschnitt“ Sie sprechen.

Bewertung zusammenfassender Maßnahmen: Robustheit und Effizienz


Es gibt zwei Konstrukte (Ideen oder Konzepte), die üblicherweise zur Bewertung von zusammenfassenden Maßen wie Mittelwert, Median und Modus verwendet werden. Diese sind Robustheit und Effizienz .

  • Die Robustheit ist ein Maß dafür, wie empfindlich das zusammenfassende Maß auf Änderungen der Datenqualität reagiert.

    Diese Änderungen der Datenqualität können entweder durch Ausreißer, Extremwerte an beiden Enden oder durch während der Analyse ergriffene Maßnahmen wie das Gruppieren der Daten für die weitere Analyse verursacht werden. Eine robuste Maßnahme reagiert NICHT auf diese Änderungen. Der Median ist daher robuster als der Mittelwert, da er nicht von Ausreißern beeinflusst wird und die Gruppierung wahrscheinlich zu sehr wenigen Änderungen führt.

  • Die Effizienz ist ein Maß dafür, wie gut das zusammenfassende Maß alle Daten verwendet.

    Vorteile der Gruppenarbeit im Klassenzimmer

    Eine effizientere Maßnahme verwendet mehr Daten. Der Mittelwert ist daher sehr effizient, da alle Daten verwendet werden.

Diese beiden Maßnahmen sind daher häufig widersprüchlich: Eine robustere Maßnahme ist wahrscheinlich weniger effizient.

Sie müssen entscheiden, was in Ihrer Analyse wichtiger ist.

Ausbreitungsmaße: Bereich, Varianz und Standardabweichung

Forscher wollen sich oft die ansehen Verbreitung der Daten, dh wie weit die Daten über die gesamte mögliche Messskala verteilt sind.

Hierfür werden häufig drei Maßnahmen angewendet:

Das Reichweite ist der Unterschied zwischen dem größten und dem kleinsten Wert. Forscher zitieren oft die Interquartilbereich Dies ist der Bereich der mittleren Datenhälfte von 25% des unteren Quartils bis zu 75% des oberen Quartils der Werte (der Median ist der 50% -Wert). Verwenden Sie zum Ermitteln der Quartile das gleiche Verfahren wie für den Median, verwenden Sie jedoch den Viertel- und Dreiviertelpunkt anstelle des Mittelpunkts.

Das Standardabweichung misst die durchschnittliche Streuung um den Mittelwert und gibt daher einen Eindruck von der „typischen“ Entfernung vom Mittelwert.

Das Varianz ist das Quadrat der Standardabweichung. Sie werden berechnet durch:

  1. Berechnen der Differenz jedes Wertes vom Mittelwert;
  2. Quadrieren jedes einzelnen (um Unterschiede zwischen denen über und unter dem Mittelwert zu beseitigen);
  3. Summieren der quadratischen Differenzen;
  4. dividiert durch die Anzahl der Elemente minus eins.

Dies gibt die Varianz .

Um die zu berechnen Standardabweichung , nimm die Quadratwurzel der Varianz.

Schrägstellung

Das schief Misst, wie symmetrisch der Datensatz ist oder ob er höhere oder niedrigere Werte hat. Eine Probe mit niedrigeren Werten wird als negativ verzerrt und eine Probe mit höheren Werten als positiv verzerrt beschrieben.

Im Allgemeinen fallen der Mittelwert, der Median und der Modus umso weniger zusammen, je stärker die Stichprobe verzerrt ist.

Erweiterte Analyse

Sobald Sie einige Grundwerte von berechnet haben Standort , wie Mittelwert oder Median, Verbreitung , wie Bereich und Varianz, und stellte das Niveau von schief Sie können zu einer erweiterten statistischen Analyse übergehen und nach Mustern in den Daten suchen.

Weiter:
Arten von Daten
Multivariate Analyse