Zusätzliche Variablen in der Datenausgabe
Vor bzw. nach den eigentlichen Daten finden Sie im Datensatz weitere Variablen. Diese werden im Folgenden kurz erläutert.
Hinweis: Einige Variablen muss man beim Herunterladen der Daten explizit aktivieren.
Hinweis: Die Aufzeichnung der Browser-Daten (Browser, Referer, etc.) muss man vor der Datenerhebung in den Projekt-Einstellungen aktivieren.
Identifikation des Interviews
CASE Eindeutige Nummer der Versuchsperson. In der Regel entspricht die Nummer der Reihenfolge, in der die Versuchspersonen den Fragebogen aufrufen (s. auch PHP-Funktion
caseNumber()
).
Hinweis: Wann immer jemand den Fragebogen aufruft, wird eine neue Nummer vergeben – klickt die Person nicht auf
Weiter oder ruft sie den Fragebogen gleich nochmal auf, so entsteht ein leerer Datensatz. Dieser wird standardmäßig automatisch gelöscht. Außerdem werden auch beim Testen des Fragebogens Fall-Nummern vergeben. In der Folge beginnt die Nummerierung meist nicht bei Null und weist Lücken auf (z.B. 123, 125, 130, 131, 132, …)
Hinweis: Auch für Tests während der Fragebogen-Entwicklung werden Fallnummern vergeben. Es ist daher üblich, dass die Nummer nicht bei 1 beginnt. Damit die Fallnummern pro Befragungsprojekt eindeutig bleiben, lässt sich die Zählung nicht zurücksetzen – dies würde in der Auswertung auch keinerlei Vorteile bringen.
SERIAL Sofern der Fragebogen mit einem personalisieren Link (Teilnahmecode) aufgerufen wurde, erscheint hier die Teilnehmer-Kennung (s. auch PHP-Funktion
caseSerial()
).
-
QUESTNNR Enthält die Kennung des Fragebogens, der ausgefüllt wurde. Die Kennung legt man beim Zusammenstellen des Fragebogens fest. Eine Kennung „del:<nummer>“ bedeutet, dass der Fragebogen, mit dem das Interview durchgeführt worden ist, gelöscht wurde.
MODE Gibt an, ob der Fragebogen in einem speziellen Modus gestartet wurde:
„interview“ bedeutet, dass der Fragebogen normal über den Link aufgerufen wurde
„pretest“ markiert Fragebögen aus dem Pretest (mit Anzeige der Frage-Kennungen und Feedback-Möglichkeit)
„orgtest“ markiert Fragebögen aus dem Pretest, die im Original-Layout gestartet wurden
„admin“ bedeutet, dass der Fragebogen in der Admin-Vorschau gestartet wurde (
)
„debug“ markiert Interviews, die im Debug-Modus (
) getestet wurden
LANGUAGE Sprache, in der das Interview geführt wurde. Diese Variable wird in mehrsprachigen Befragungsprojekten ausgegeben oder wenn die Option „Variablen herunterladen, die nicht im Fragebogen verwendet wurden“ aktiv ist. Falls die Sprache während des Interviews gewechselt wurde, wird die zuletzt verwendete Sprache angegeben.
STARTED Gibt den Zeitpunkt an, zu dem der Teilnehmer den Fragebogen aufgerufen hat.
MAILSENT In Interviews, welches mittels personalisiertem Serienmail-Link gestartet wurden, ist hier der Zeitpunkt des Serienmail-Versands gespeichert. Allerdings nur, wenn der Adresseintrag den
Datenschutz-Modus „personenbezogen“ verwendet. Ansonsten kann u.U. auf die Funktion
panelData()
zurückgegriffen werden.
Interview-Fortschritt
Die folgenden Variablen sind am Ende des Datensatzes zu finden.
LASTDATA Zeitpunkt als der Interviewpartner das letzte mal auf „Weiter“ geklickt und so den Datensatz aktualisiert hat. Der Zeitabstand zwischen STARTED und LASTDATA kann von der Summe der Antwortzeiten abweichen, weil die Verarbeitungszeiten durch den Webserver hier vollständig enthalten sind.
FINISHED Hat der Teilnehmer die „Letzte Seite“ erreicht (1) oder nicht (0).
LASTPAGE Gibt an, welche Seite des Fragebogens zuletzt bearbeitet und mit „Weiter“ abgeschickt wurde. Die Nummer entspricht der Seitennummerierung im Fragebogen (
Fragebogen zusammenstellen).
MAXPAGE Die letzt-platzierte Seite im Fragebogen, die beantwortet wurde. Im Unterschied zu LASTPAGE wird hier nicht die zuletzt bearbeitet Seite angegeben, sondern jene bearbeitete Seite mit der höchsten Nummer. Der Wert entspricht dem von LASTPAGE, es sei denn (a) der Teilnehmer hat den Zurück-Knopf verwendet (etwa wenn er am Ende nochmal die erste Seite ansehen wollte) oder (b) im Fragebogen sind Sprünge „nach vorne“ programmiert.
Antwortzeiten
TIMEnnn In den Variablen TIME001
u.s.w. wird abgespeichert, wie lange (in Sekunden) sich eine Teilnehmer:in auf einer Seite im Fragebogen aufgehalten hat. Angegeben ist die Zeit vom Laden der Seite bis zum Abschicken mittels „Weiter“.
Diese Zeiten sind nur ungenaue Angaben, da sie auch die Ladezeiten enthalten. Die typische Ungenauigkeit liegt im Bereich 1-2 Sekunden, kann im Einzelfall (z.B. bei instabiler Internetverbindung) aber höher liegen. Genauere Messungen sind mittels
JavaScript möglich:
LatencyTimer
Die Zahl im Namen der Variable bezieht sich auf die Seitennummer beim „Fragebogen zusammenstellen“, TIME007
etwas bezieht sich immer auf die Seite 07 – unabhängig davon, an welcher Stelle die Seite während des Interviews angezeigt wurde (etwa weil Seiten übersprungen oder durch Rotation in einer anderen Reihenfolge präsentiert wurde).
Wenn ein Teilnehmer eine Seite mehrfach sieht (z.B. durch Verwendung des Zurück-Knopfes im Fragebogen), dann werden die Zeiten addiert.
Wenn die Funktionen loopPage()
oder loopToPage()
zum Einsatz kommen, dann gibt die Variable die kumulierte Verweildauer für alle Wiederholungen der Seite an.
Wenn eine Befragte das Browserfenster mit Seite 5 des Fragebogens über Nacht offen lässt und am nächsten Tag Seite 5 ausfüllt und dann auf „Weiter“ klickt, wird in TIME005
u.U. eine Verweildauer >20.000 Sekunden (mehrere Stunden) ausgewiesen.
Wenn mehrere Seiten des Fragebogens zugleich angezeigt werden (z.B. weil eine Seite keinen Inhalt zeigt oder weil goToPage()
zum Einsatz kommt), dann wird die Verweildauer für die erste Seite gespeichert, welche Inhalt zeigt. Beispiel: Seite 8 enthält nur einen PHP-Code mit setPageOrder()
, es folgt Seite 9 mit einer Frage und einem goToPage()
zur Seite 10, wo ebenfalls eine Frage gezeigt wird, dann sieht der Teilnehmer die Fragebogen-Seite 8+9+10 alle zusammen auf einer Seite (also 2 Fragen untereinander) und die Verweildauer wird in TIME009
gespeichert.
TIME_SUM Summe der Bearbeitungszeiten (in Sekunden) nach Bereinigung von Unterbrechungen. Unterbricht der Teilnehmer die Befragung und führt sie zu einem späteren Zeitpunkt fort, wird für die entsprechende Seite eine sehr lange Bearbeitungszeit (Stunden oder gar Tage) ermittelt. Als Unterbrechung wird jede Bearbeitungszeit erkannt, die
länger als 2 Stunden dauert oder
den Median der Bearbeitungszeit um mehr als den 3-fachen Interquartilsabstand (IQR) dividiert durch 1.34 übersteigt (entsprechend mehr als 3 Standardabweichungen in einer normalverteilten Stichprobe)
TIME_RSI Ein Index, der angibt, wie viel schneller als der typische Teilnehmer (Median) ein Teilnehmer den Fragebogen ausgefüllt hat. Werte über 1 identifzieren schnellere Teilnehmer, Werte unter 1 langsamere Teilnehmer. Details s. unten.
Hinweis: Die Kennwerte TIME_SUM
und TIME_RSI
enthalten erst dann einen Wert, wenn mindestens 10 Datensätze für den jeweiligen Fragebogen im Download enthalten sind (auswahlkriterien_filterAuswahlkriterien/Filter). Je mehr Datensätze der Download enthält, desto genauer werden die Werte für TIME_SUM
und TIME_RSI
, denn für die Bereinigung von Ausreißern bzw. zur Normierung wird die Verteilung der Antwortzeiten in der Stichprobe herangezogen.
Hinweis: Die Antwortzeiten sind im Datensatz nur dann enthalten, wenn beim Daten herunterladen in der Variablen-Auswahl ein Kreuzchen bei der Option Verweildauer gesetzt wurde. Diese Option ist standardmäßig ausgewählt.
Hinweis: Die Bearbeitungszeiten werden automatisch aufgezeichnet. Um die Aufzeichnung zu deaktivieren, entfernen Sie bitte die Markierung bei Befragungsprojekt → Projekt-Einstellungen → Karteireiter Datenschutz → Zeit und Verweildauer während der Befragung aufzeichnen.
Qualitätsindikatoren
Die Datenqualität in Onlinebefragungen ist zwar meist sehr hoch – um eine Datenbereinigung kommt man aber i.d.R. nicht umhin. SoSci Survey stellt mit der Option Variablen-Auswahl → Kennwerte zur Datenqualität herunterladen drei Variablen zur Verfügung, welche Sie bei der Bereinigung unterstützen:
MISSING Gibt den Anteil der nicht gegebenen Antworten in Prozent an (0 bis 100). Es werden nur die Fragen gezählt, die dem Teilnehmer auch tatsächlich gestellt wurden – auch ein Abbrecher kann also alle Fragen beantwortet haben (0%). Diese Variable kann helfen, jene Teilnehmer herauszufiltern, die den Fragebogen nur durchgeklickt haben.
Bitte beachten Sie, dass bei einer Mehrfachauswahl auch keine Antwort (kein Kreuzchen) eine gültige Antwort ist. Daher liegt der Wert selbst bei absolut leeren Interviews meist deutlich unter 100%.
Fehlende Werte (z.B. „weiß nicht“) werden nicht als fehlende Antworten gezählt.
Bei offenen Texteingabe-Fragen gilt es als fehlende Antwort, wenn der Teilnehmer nichts (oder nur Leerzeichen) einträgt. Dies gilt auch dann, wenn die Angabe eines Textes optional ist (z.B. wenn der Fragebogen vorsieht, dass man anstatt eine Null einzutragen, das Feld auf leer belassen kann).
Bei Auswahlfragen (einfache Auswahl oder Mehrfachauswahl) wird ein leeres Eingabefeld der Antwortoption (
Eingabefelder in einer Auswahlfrage, z.B. „Sonstiges: ___“) hingegen nur dann als fehlende Antwort gezählt, wenn die entsprechende Option in der Auswahlfrage ausgewählt wurde.
MISSREL Anteil fehlender Antworten, gewichtet mit dem Antwortverhalten der anderen Teilnehmer. Fragen, die generell häufig nicht beantwortet werden (z.B. optionale offene Textangaben) fallen hier kaum ins Gewicht. Fragen, die von den meisten Teilnehmern beantwortet wurden, fallen stärker ins Gewicht. Der lineare Gewichtungsfaktor für die Frage bzw. das Item ist die Anzahl gegebener Antworten dividiert dadurch, wie häufig die Frage gestellt bzw. das Item abgefragt wurde.
Hinweis: Dieser Wert ist abhängig davon, welche Datensätze heruntergeladen werden.
TIME_RSI Dieser Kennwert ist im Artikel
Too Fast, too Straight, too Weird genauer dokumentiert (als „relative speed index“). Datensätze mit einem Wert im Bereich von 2,0 und darüber sollten kritisch betrachtet werden. Wissensfragen, die der Teilnehmer evtl. recherchieren muss, können den Wert allerdings verzerren (Teilnehmer mit gutem Vorwissen sind schneller).
Q_VIEWER Im Fragebogen kann man die Option „Option für den Teilnehmer, den Fragebogen anzusehen ohne Pflichtfragen zu beantworten“ aktivieren. Wenn die Funktion aktiv ist, gibt diese Variable an, ob ein Teilnehmer das entsprechende Kästchen („ich will den Fragebogen nur ansehen“) markiert hat.
Ob ein Fragebogen vollständig ausgefüllt wurde lässt sich anhand der Variablen LASTPAGE und FINISHED nachvollziehen (s. oben). Der Anteil fehlender Angaben (MISSREL) ist ein wertvoller Indikator für die Sorgfalt des Teilnehmers bzw. für Datensätze, die vom „nur mal ansehen“ stammen. Die zum Ausfüllen investierte Zeit ist zwar kein direkter Indikator für Datenqualität, aber sehr geringe Antwortzeiten (geringe TIME_SUM und hoher TIME_RSI) deuten darauf hin, dass die Fragen nicht einmal gelesen wurden.