Ergebnisse interpretieren: Statistik für SEO-Tests
Das Problem mit SEO-Daten
SEO-Daten sind verrauscht. Immer. Eine Seite, die diesen Monat 200 Klicks bekommt, kann nächsten Monat 180 oder 230 haben – ohne dass sich irgendetwas geändert hat. Das ist normales Rauschen: saisonale Schwankungen, Wettbewerber-Bewegungen, Google-Update-Nachwirkungen.
Das Kernproblem für SEO-Experimente: Es gibt keine einfache Methode, Rauschen von einem echten Effekt zu trennen.
In der Statistik würde man eine Null-Hypothese testen und einen p-Wert berechnen. Das setzt aber voraus: ausreichend groxe Stichproben (wir reden von Hunderten URLs pro Gruppe), gleichartige Treatmentbedingungen und kontrollierte Umgebungen.
Auf den meisten Websites: Alles davon nicht gegeben.
Was also tun?
Das pragmatische Framework
Ich verwende ein vereinfachtes Bewertungsmodell, das ich „Traffic Light Scoring“ nenne:
Schritt 1: Baseline stabilisieren
Vor jeder Messung: 28 Tage Baseline. Prüfen, ob der Baseline-Zeitraum ungewöhnlich ist. Gibt es bekannte Google-Updates in dieser Periode? Starke saisonale Schwankungen?
Wenn ja: Baseline verlängern auf 56 Tage. Wenn das auch nicht reicht (z.B. Weihnachtsgeschäft): Vergleich mit Vorjahresperiode.
Schritt 2: Erwartetes Rauschen berechnen
Für jede URL/Gruppe: Standardabweichung der Baseline berechnen. In Google Sheets:
=STABW(B2:B29) → Standardabweichung der täglichen Klicks über 28 Tage
Der „Rausch-Korridor“ ist: ± 1.5 Standardabweichung.
Beispiel:
- tägliche Klicks: 24
- Standardabweichung: 6
- Rausch-Korridor: 15 bis 33 Klicks/Tag
Alles, was innerhalb dieses Korridors liegt, ist nicht signifikant. Erst auxerhalb = potenzielles Signal.
Schritt 3: Relativen Effekt messen
Veränderung in % (nicht absolut):
Δ % = (Wert_nachher - Wert_vorher) / Wert_vorher 100
Mein Grenz-Schwellenwert: ±15% für die Interventionsgruppe gegenüber der Kontrollgruppe. Darunter: kein belastbares Signal.
Schritt 4: Traffic-Light-Bewertung
| Effekt | Bewertung | Interpretation |
|---|---|---|
| Interventionsgruppe > +15% über Kontrollgruppe | 🟡 Signal | Effekt wahrscheinlich real |
| Interventionsgruppe +5% bis +15% über Kontrolle | 🟡 Unklar | Rauschen nicht ausgeschlossen |
| Kein Unterschied oder unter 5% | xΔ Kein Signal | Intervention hat (vorerst) keinen messbaren Effekt |
Confounder-Checkliste
Bevor du ein „positives Signal“ zu einem Ergebnis erklärst, prüfe:
- Google-Updates: Gab es ein Update im Messzeitraum? Google Search Status Dashboard prüfen
- Saisonalität: Ist das Thema saisonal (z.B. „Heizungsinstallation“ im Winter)?
- Wettbewerber: Hat ein Wettbewerber eine starke Domain verloren (= du gewinnst durch Vacuum)?
- Parallele nderungen: Wurden auf der Domain parallel andere nderungen gemacht?
- Baseline-Drift: Steigt oder fällt die Baseline bereits vor der Intervention?
Was du nicht tun solltest
Cherry-Picking: Nur die URLs herausziehen, die positiv reagiert haben, und die negativen verschweigen. Das ist Confirmation Bias.
Short Windows: Weniger als 28 Tage nach Intervention messen. Google braucht Zeit, um nderungen zu re-crawlen, zu validieren und ins Ranking zu übernehmen.
Impressionen statt Klicks als Primärmetrik: Impressionen schwanken massiver als Klicks. Wenn dein Test auf Impressionen basiert: Vorsicht.
Reporting-Vorlage
Ich dokumentiere jeden Test so:
## [Experiment-Name]
Datum der Intervention: YYYY-MM-DD
Hypothese: [...]
Interventionsgruppe: [n=X URLs]
Kontrollgruppe: [n=Y URLs]
| Metrik | Baseline () | Post-Intervention () | Δ % |
|--------|-------------|----------------------|-----|
| Klicks | X | Y | Z% |
| CTR | X | Y | Z% |
| Ø Position | X | Y | Z% |
Bewertung: 🟡 / 🟡 / xΔ
Confounder: [...]
Fazit: [...]
Dieses Template verwende ich für alle Studien auf seo-geek.de. Es sorgt dafür, dass ich vor der Auswertung ein klares Schema habe – und nicht nachträglich „passe.“