Web-Analytics: Wenn zu große Genauigkeit zu Fehlschlüssen führt

Kawumba-analytics-300x115-250x115 Im Online-Marketing erfüllt sich scheinbar der Traum jedes Unternehmers, der lieber auf harte Zahlen und Fakten statt auf Vermutungen vertraut: Seine Web-Analytics-Daten geben ihm ein genaues Bild über Besucher und Käufer, über gute und schlechte Marketingkanäle. Viele Webmaster begehen allerdings den Fehler, aus den gesammelten historischen Daten uneingeschränkt auf die zukünftige Entwicklung zu schließen. Dabei vergessen sie, dass wir uns zwar aus den Web-Analytics-Daten beispielsweise eine Conversion Rate bis auf die dritte Nachkommastelle ausrechnen können, dass die Genauigkeit, die diese Zahl vorgibt, aber oft genug täuscht.

Jeder Shop-Betreiber weiß beispielweise, dass er einer Conversion Rate von fünfzig Prozent nicht trauen darf, wenn dahinter nur zwei Besucher stehen, von denen einer etwas kaufte. Aber wie viele Besucher brauchen wir, um uns über die Conversion Rate sicher zu sein? Ab wann dürfen wir beispielsweise davon ausgehen, dass die Conversion Rate auf einer Landingpage auch zukünftig bei zehn Prozent liegt? Wenn von zehn Besuchern einer, von hundert Besuchern zehn oder erst wenn von tausend Besuchern einhundert etwas gekauft haben?

Glücklicherweise schlagen sich empirische Wissenschaftler von der Physik bis zur Sozialwissenschaft nicht erst seit gestern mit den statistischen Herausforderungen von kleinen Stichproben herum. Die Lösung, die sie gefunden haben, nennt sich “Konfidenzintervall”. Bevor wir näher darauf eingehen, sollten wir uns das Problem aber noch einmal von einer anderen Seite anschauen.

Wahrscheinliche und unwahrscheinliche Zufälle

Stellen wir uns vor, wir wissen aus jahrelanger Forschung, dass fünf Prozent aller Menschen, die samstags in einer Fußgängerzone einkaufen gehen, zwischendurch an einem Imbiss eine Currywurst essen. Ein skeptischer Forscher will dieses Ergebnis aber noch einmal überprüfen und befragt an einem Samstag in einer Fußgängerzone die Passanten, ob sie heute schon eine Currywurst gegessen haben oder vorhaben, noch eine zu essen. Wie viele von Ihnen, werden die Frage bejahen?

Wenn auch in der Stichprobe genau fünf Prozent Currywurstesser sind, würden fünf Personen seine Frage bejahen. Tatsächlich kann es aber auch vorkommen, dass in der begrenzten Stichprobe des Forschers zufällig dreißig oder sogar vierzig Currywurstesser sind. Wenn 2.000 Menschen gleichzeitig in der Fußgängerzone unterwegs sind, befinden sich unter ihnen annähernd 100 Currywurstesser. Die Chance ist zwar klein, aber so kann es sogar sein, dass der Forscher zufällig alle 100 in seiner Stichprobe hat. Genauso gut kann er aber alle Currywurstesser verpassen und in seiner Stichprobe keinen einzigen haben.

Es ist also gut möglich, dass mehr oder weniger als fünf Personen seine Frage bejahen. Die Wahrscheinlichkeit p(k) in einer Stichprobe von n Personen k Currywurstesser zu haben, lässt sich sogar genau berechnen. Die Werte finden wir in dem folgenden Diagramm für k=0 bis k=10 (bei der Verteilung handelt es sich um eine Binomialverteilung, hierauf werde ich an dieser Stelle aber nicht genauer eingehen):

Kawumba-binomverteilung

Wie man sieht, ist die Wahrscheinlichkeit, auf genau fünf Currywurstesser zu stoßen, am größten. Aber auch sie beträgt lediglich 18 %. Das heißt, dass mit einer Wahrscheinlichkeit von 82 % der Forscher auf mehr oder weniger Currywurstesser stößt. Tatsächlich liegen auch die Wahrscheinlichkeiten, drei, vier, sechs oder sogar sieben Currywurstesser in der Stichprobe zu haben, noch jeweils über zehn Prozent. Auch solche Ergebnisse wären also ein wahrscheinlicher Zufall.

Wir können dieses Ergebnis genauer darstellen, indem wir nicht mehr die einzelnen Wahrscheinlichkeiten betrachten, sondern sie zu Gruppen – Intervallen – zusammenfassen. So können wir sagen, es gibt eine recht hohe Wahrscheinlichkeit dafür, dass der Forscher auf irgendeine Zahl von zwei bis acht Currywurstesser trifft. Die Wahrscheinlichkeit, dass er auf weniger als zwei oder mehr als acht trifft, ist dagegen viel geringer.

In der Forschung hat sich durchgesetzt, Ergebnisse dann als unwahrscheinlichen Zufall (und damit als Hinweise für eine bestimmte Auffälligkeit) zu betrachten, wenn sie sich außerhalb einer zusammenhängenden Gruppe von Werten befinden, in dem sich ein Ergebnis mit einer Wahrscheinlichkeit von 95 % befindet, das heißt zu den 5 % der Ergebnisse gehören, die am unwahrscheinlichsten sind. Aus den Zahlen, die wir oben im Diagramm dargestellt haben, wissen wir, dass mit einer Wahrscheinlichkeit von 98,85 % ein Ergebnis zwischen 0 und 10 herauskommt. Trifft der Forscher also auf 15 Currywurstesser, gehört dieses Ergebnis ganz sicher zu den laut Vorhersage unwahrscheinlichen, und er darf zu Recht vermuten, dass entweder die Annahme oder die Methode seiner Messung einen Fehler hat. Ein Zufall wäre hier zumindest höchst unwahrscheinlich.

Die vermutete Conversion Rate

Verlassen wir an dieser Stelle den Forscher und die Currywurst essenden Passanten und wenden uns wieder den Conversions auf unserer Webseite zu. Hier stehen wir vor dem Fall, dass täglich eine bestimmte Anzahl von Nutzer n unsere Webseite besuchen. Von diesen Besuchern wird jeweils eine kleine Anzahl k einen Kauf tätigen. Wie hoch ist also die Wahrscheinlichkeit, dass ein einzelner Kunde etwas kauft? Beziehungsweise: Wie hoch ist die tatsächliche durchschnittliche Conversion Rate (und nicht nur die beobachtete Conversion Rate)?

Nehmen wir an, von unseren hundert Besuchern haben sieben etwas gekauft. Wäre das bei einer tatsächlichen Conversion Rate von fünf Prozent ein wahrscheinliches Ergebnis? Aus den Daten von oben wissen wir, dass das tatsächlich so ist. Wäre es aber auch bei einer tatsächlichen Conversion Rate von nur 0,5 % noch ein wahrscheinliches Ergebnis? Nein, denn bei tatsächlichen Conversion Rate von 0,5 % und 100 Besuchern, würden sieben Käufe schon zu dem Bereich der sehr unwahrscheinlichen Ergebnisse gehören, hinter denen wir keinen Zufall mehr vermuten wollen.

Wir können also sagen, dass die Conversion Rate in einem bestimmten Bereich liegen kann, in dem unser beobachtbares Ergebnis ein wahrscheinliches Ergebnis wäre. Läge sie außerhalb dieses Bereiches, wäre unser Ergebnis so unwahrscheinlich, dass wir nicht mehr von einem Zufall ausgehen sollten. Dieser Bereich wird in der empirischen Statistik als Konfidenzintervall bezeichnet und ist dadurch gekennzeichnet, dass bei einer Conversion Rate innerhalb dieses Intervalls unser beobachtetes Ergebnis zu den jeweils 95 % der wahrscheinlichen Ergebnisse gehören würde.

Dieses Konfidenzintervall zu berechnen ist nicht ganz einfach. In diesem Excel-Sheet, das ihr hier herunterladen können, habe ich die entsprechenden Formeln aber soweit vorbereitet, dass ihr bloß noch eure beobachteten Werte eintragen braucht: Konfidenzintervall-Rechner (xlsx)

Kawumba-konf-int_rechner-300x255

In die beiden oberen Felder tragt ihr die tatsächliche Zahl Ihrer Besucher und die Zahl der Transaktionen ein. Nun könnt ihr unten die untere und obere Grenze der Conversion Rate ablesen, das heißt die niedrigste oder höchste Conversion Rate, bei der Ihr Ergebnis noch ein wahrscheinliches Ergebnis wäre. Ganz unten ist auch noch das Konfidenzniveau bestimmt (die oben eher zufällig festgelegten 95% als Wahrscheinlichkeit für den Bereich, in dem ein nicht-zufälliges Ereignis liegen soll).

Wie man aus der Beispielrechnung entnehmen kann, müsste man bei sieben Käufern aus hundert Besuchern annehmen, dass die tatsächliche Conversion Rate irgendwo zwischen 2,86 % und 13,89 % liegt. Der Annahme, dass bei diesem Ergebnis die tatsächliche Conversion Rate mit der beobachtbaren Conversion Rate von 7 % genau übereinstimmt, wäre also sehr ungenau.

Fazit

Das Wissen über Konfidenzniveaus hat vor allem Auswirkung auf den Vergleich zwischen der Leistung unterschiedlicher Bestandteile der Webseite. Wenn wir ein Keyword A und ein Keyword B haben, wollen wir zum Beispiel wissen, welches der beiden besser konvertiert. Über Keyword A haben wir 500 Besucher und 45 Käufer, über Keyword B einhundert Besucher und 10 Käufer. Bei welchem sollten wir in bessere Rankings investieren? Am Anfang des Artikels hätten wir gesagt, in Keyword B. Jetzt müssen wir aber feststellen, dass der Unterschied zwischen beiden nicht so groß ist wie angenommen. Bei Keyword A liegt das Konfidenzintervall der Conversion Rate zwischen 7,38 % bis 10,87 %, bei Keyword B zwischen 6,31 % und 14,99 %.

Es kann also durchaus sein, dass die tatsächliche Conversion Rate beider Keywords gleich groß ist. Es wäre sogar nicht unwahrscheinlich, dass die Conversion Rate von Keyword A über der von Keyword B liegt. Bei einem solchen Ergebnis, in dem sich die Konfidenzintervalle überlappen, sprechen wir davon, dass sich die Conversion Rate von Keyword A statistisch nicht signifikant von der von Keyword B unterscheidet. Erst wenn sich die Intervalle nicht mehr berühren, können wir sagen, dass der Unterschied statistisch signifikant ist.

Wie man sieht, befreit einen das Wissen um Konfidenzintervalle nicht von den Unsicherheiten, die auch im Online-Marketing noch bestehen. Sein Nutzen besteht aber darin, dass man mit ihm Unsicherheiten erkennen und messen kann.