Warum ist die Datenbereinigung so wichtig?
Dies ist Teil 8 unseres Guides zur perfekten Umfrage.
Endlich. Du hast eine Vielzahl an Beantwortungen gesammelt und Unmengen großartiger Daten auszuwerten. Bist du nun soweit und kannst anhand deiner neuen Erkenntnisse richtungsweisende Entscheidungen treffen?
Noch nicht ganz. Es gibt noch einen Schritt zwischen dem Erhalt der Beantwortungen und deren Analyse, der ganz entscheidend ist: die Bereinigung der Umfragedaten.
Beim Bereinigen der Umfragedaten identifizierst und entfernst du Beantwortungen einzelner Personen, die entweder nicht den Kriterien deiner Zielgruppe entsprechen oder die deine Fragen nicht sorgfältig beantwortet haben. Wenn dieser Schritt richtig ausgeführt wird, erhältst du einen Datensatz optimierter Beantwortungen, die dir zu fundierteren Entscheidungen verhilft. Wenn du keine Bereinigung vornimmst oder sie nur halbherzig ausführst, kann das die Aussicht auf weiterführende Erkenntnisse erheblich schmälern und die Glaubwürdigkeit deiner Ergebnisse in Frage stellen.
Wir stellen in diesem Beitrag die häufigsten Fälle vor, in denen eine Bereinigung der Umfragedaten durchgeführt werden sollte. So bleiben deine Ergebnisse authentisch und repräsentativ, bevor du sie analysierst.
Wann müssen Umfragedaten bereinigt werden?
Bei der Entscheidung, welche Befragte aus deiner Analyse auszuschließen sind, musst du die Art der Beantwortungen und ihren Hintergrund überprüfen.
Folge diesen sieben Schritten um herauszufinden, wessen Beantwortungen herausgefiltert oder entfernt werden sollen:
1. Befragte, die nur einen Teil deiner Fragen beantwortet haben
Befragte, die nur einen Teil der erforderlichen Fragen beantwortet haben, können die Gesamtergebnisse aus vielen Gründen verzerren:
- Es kann ein Zeichen dafür sein, dass diese Personen grundsätzlich nicht für die Umfrage geeignet waren (weshalb sie sie nicht beendet haben).
- Es kann darauf hindeuten, dass sie die Fragen nicht so engagiert und überlegt beantwortet haben wie diejenigen, die die Umfrage vollständig beantwortet haben.
- Wenn du mit unvollständigen Daten arbeitest, erhältst du bei der Verwendung von Filtern gegebenenfalls nicht den Gesamtüberblick, sondern stattdessen einen (möglicherweise verzerrten) Teilüberblick.
Hinweis: Wenn viele Befragte deine Umfrage nicht beendet haben, kann dies auch darauf hindeuten, dass dein Umfrageentwurf problematisch war (beispielsweise irrelevante Fragen oder zu viele Fragen enthielt, oder auch eine nicht funktionierende Umfragelogik).
Tipp: Alle auf PollPool gesammelten Beantwortungen sind grundsätzlich vollständig, da die Teilnehmer sonst nicht ihre PollCoins erhalten.
2. Befragte, die nicht den Kriterien deiner Zielgruppe entsprechen
Angenommen, du möchtest Frauen zwischen 18 und 29 Jahren befragen. Dann möchtest du sicherlich nicht, dass die Antworten einer 50-jährigen deine Gesamtergebnisse beeinflussen, richtig?
Ganz gleich welche Zielgruppenvorgaben du dir gestellt hast – du kannst Befragte ignorieren, die diesen Vorgaben nicht entsprechen, indem du sie herausfilterst.
Und wenn du keine Frage gestellt hast, die anzeigt, ob ein Befragter deinen Zielgruppenkriterien entspricht? Dann kannst du die relevanten Informationen immer noch nachträglich durch Erstellen und Ausfüllen eines benutzerdefinierten Datenfelds für jeden Befragten ergänzen (in dem Beispiel oben könnte das benutzerdefinierte Datenfeld das Alter sein). Anschließend kannst du nach den benutzerdefinierten Daten filtern, um dich auf die relevanten Beantwortungen zu konzentrieren.
Tipp: Beim Einstellen der Umfrage auf PollPool kannst du deine Zielgruppe auswählen – allen anderen wird deine Umfrage gar nicht angezeigt!
3. Befragte, die deine Umfrage übermäßig schnell beantwortet haben (Raser/Lurker)
Stell dir vor, du hast einem Befragten eine Umfrage mit 10 Fragen geschickt. Wenn diese Person nur wenige Sekunden zum Ausfüllen der Umfrage benötigt, ist es wahrscheinlich, dass sie durch die Umfrage gerast ist und die Fragen nicht sorgfältig gelesen und beantwortet hat.
Wie entscheidest du nun, ob jemand ein Raser ist? Die Antwort kann je nach Thema deiner Umfrage und den gestellten Fragen unterschiedlich ausfallen.
Um Raser zu identifizieren, ermittle einfach für deine Umfrage die durchschnittliche Beantwortungszeit unter allen deinen Teilnehmern. Damit kennst du die „normale“ Zeit, die es braucht, um deine Umfrage vollständig zu beantworten.
Stell dann bestimmte Regeln auf, um Beantwortungen von Rasern zu ermitteln, beispielsweise: Die schnellsten „x“ Befragten, die an der Umfrage teilgenommen haben, oder die „x %“ der Befragten, die deine Umfrage am schnellsten beantwortet haben. Wenn dir das zu kompliziert vorkommt, wirf einfach solche Einzelpersonen hinaus, deren Beantwortungszeiten sehr viel kürzer sind als der Durchschnitt (doch gehe dabei sehr konservativ vor).
Tipp: PollPool unterbindet zu schnelle Antworten durch eine automatische Zeitkontrolle und verwarnt und sanktioniert entsprechende Benutzer!
4. Befragte, die es sich einfach gemacht haben („Straightlining“)
Von „Straightlining“ wird gesprochen, wenn ein Befragter immer wieder die gleiche Antwortoption wählt (z. B. stets die erste Antwortoption). Bei diesen Personen handelt es sich häufig ebenfalls um Raser/Lurker, die durch die Umfrage hetzen und sich zu den einzelnen Fragen wenige bis gar keine Gedanken machen.
Um Straightlining zu unterbinden, lies diesen Blogartikel zur Datenqualität.
Um nachträglich Straightlining zu erkennen, exportiere die Beantwortungen in ein Excel-Dokument oder in eine Statistiksoftware. Suche dort die Straightlining-Beantwortungen und lösche sie.
5. Befragte, die unrealistische Antworten gegeben haben
Angenommen, du fragst deine Teilnehmer, wie viel sie im Durchschnitt pro Woche fernsehen. Wenn ein Teilnehmer 165 Stunden angibt, neigt er wohl zur Übertreibung (denn: Eine Woche hat nur 168 Stunden).
Bei dieser Art der Antwort wird von einem Ausreißer gesprochen, weil die Antwort außerhalb des Antwortbereichs der anderen Befragten liegt und tatsächlich unrealistisch ist.
Wie bei der Ermittlung von Straightlining kannst du ein Excel-Dokument oder eine Statistiksoftware verwenden, um Ausreißer zu erkennen und die entsprechenden Beantwortungen zu löschen.
6. Befragte, die nicht zusammenpassende Antworten gegeben haben
Wenn die Antwort eines Teilnehmers auf eine bestimmte Frage seiner Antwort auf eine andere Frage widerspricht, ist es offensichtlich, dass er entweder nicht ehrlich ist oder eben nachlässig (oder auch beides!).
Solche Inkonsistenzen kannst du durch Anwenden mehrerer Filter erkennen. Nehmen wir an, du hast deine Teilnehmer in einer Frage gebeten anzugeben, wie viel sie in einer Woche fernsehen. Wenn die Beantwortungen eingegangen sind, filtere sie nach den Personen, die ihrer Angabe nach zumindest ein wenig fernsehen. In einer anderen Frage hast du deine Teilnehmer gefragt, welche Sendungen ihnen am besten gefallen. Sobald du das Feedback hast, filtere auch nach Beantwortungen mit der Antwortoption: „Ich sehe nicht fern“.
Wenn du nun beide Filter anwendest, sind alle danach angezeigten Beantwortungen inkonsistent – denn die Befragten haben einmal angegeben, dass sie nicht fernsehen, und dann in einer anderen Frage zugegeben, dass sie fernsehen.
Alternativ kannst du Inkonsistenzen aussortieren, nachdem du deine Ergebnisse in ein Excel-Dokument oder eine Statistiksoftware exportiert hast.
Tipp: PollPool überprüft inkonsistente Beantwortungen über Testumfragen stichprobenartig und verwarnt und sanktioniert entsprechende Benutzer!
7. Befragte, die in deinen offenen Fragen unsinniges Feedback gegeben haben
Über Antworten wie „Fdsklj“ kannst du dich möglicherweise noch amüsieren, aber in deiner Analyse kommst du damit nicht weiter. Antworten, die eindeutig unsinnig sind, kannst du getrost löschen.
Hinweis: Antworten wie „Keine“, „Nichts“ oder auch Antworten mit Rechtschreibfehlern solltest du nicht löschen. Bei der ersten und zweiten Antwort kann es sein, dass der Teilnehmer die Frage für nicht relevant hielt. Es kann zudem immer sein, dass dem Teilnehmer die richtige Schreibweise nicht bewusst war oder ein schlichter Tippfehler vorliegt.
In allen oben dargestellten Fällen solltest du die entsprechenden Beantwortungen entweder filtern oder löschen. Das Bereinigen von Umfragedaten ist von unschätzbarem Wert. Du kannst dadurch Zeit und Aufwand auf die Auswertung der für dich wichtigen Beantwortungen verwenden, was letztlich dazu führt, dass du schneller fundiertere Entscheidungen treffen kannst.