Framework

Ergebnisse interpretieren: Statistik für SEO-Tests

Autor

seo:geek

Veröffentlicht

15.01.2026

Das Problem mit SEO-Daten

SEO-Daten sind verrauscht. Immer. Eine Seite, die diesen Monat 200 Klicks bekommt, kann nächsten Monat 180 oder 230 haben – ohne dass sich irgendetwas geändert hat. Das ist normales Rauschen: saisonale Schwankungen, Wettbewerber-Bewegungen, Google-Update-Nachwirkungen.

Das Kernproblem für SEO-Experimente: Es gibt keine einfache Methode, Rauschen von einem echten Effekt zu trennen.

In der Statistik würde man eine Null-Hypothese testen und einen p-Wert berechnen. Das setzt aber voraus: ausreichend groxe Stichproben (wir reden von Hunderten URLs pro Gruppe), gleichartige Treatmentbedingungen und kontrollierte Umgebungen.

Auf den meisten Websites: Alles davon nicht gegeben.

Was also tun?

Das pragmatische Framework

Ich verwende ein vereinfachtes Bewertungsmodell, das ich „Traffic Light Scoring“ nenne:

Schritt 1: Baseline stabilisieren

Vor jeder Messung: 28 Tage Baseline. Prüfen, ob der Baseline-Zeitraum ungewöhnlich ist. Gibt es bekannte Google-Updates in dieser Periode? Starke saisonale Schwankungen?

Wenn ja: Baseline verlängern auf 56 Tage. Wenn das auch nicht reicht (z.B. Weihnachtsgeschäft): Vergleich mit Vorjahresperiode.

Schritt 2: Erwartetes Rauschen berechnen

Für jede URL/Gruppe: Standardabweichung der Baseline berechnen. In Google Sheets:

=STABW(B2:B29)    → Standardabweichung der täglichen Klicks über 28 Tage

Der „Rausch-Korridor“ ist: ± 1.5 Standardabweichung.

Beispiel:

tägliche Klicks: 24
Standardabweichung: 6
Rausch-Korridor: 15 bis 33 Klicks/Tag

Alles, was innerhalb dieses Korridors liegt, ist nicht signifikant. Erst auxerhalb = potenzielles Signal.

Schritt 3: Relativen Effekt messen

Veränderung in % (nicht absolut):

Δ % = (Wert_nachher - Wert_vorher) / Wert_vorher  100

Mein Grenz-Schwellenwert: ±15% für die Interventionsgruppe gegenüber der Kontrollgruppe. Darunter: kein belastbares Signal.

Schritt 4: Traffic-Light-Bewertung

Effekt	Bewertung	Interpretation
Interventionsgruppe > +15% über Kontrollgruppe	🟡 Signal	Effekt wahrscheinlich real
Interventionsgruppe +5% bis +15% über Kontrolle	🟡 Unklar	Rauschen nicht ausgeschlossen
Kein Unterschied oder unter 5%	xΔ Kein Signal	Intervention hat (vorerst) keinen messbaren Effekt

Confounder-Checkliste

Bevor du ein „positives Signal“ zu einem Ergebnis erklärst, prüfe:

Google-Updates: Gab es ein Update im Messzeitraum? Google Search Status Dashboard prüfen
Saisonalität: Ist das Thema saisonal (z.B. „Heizungsinstallation“ im Winter)?
Wettbewerber: Hat ein Wettbewerber eine starke Domain verloren (= du gewinnst durch Vacuum)?
Parallele nderungen: Wurden auf der Domain parallel andere nderungen gemacht?
Baseline-Drift: Steigt oder fällt die Baseline bereits vor der Intervention?

Was du nicht tun solltest

Cherry-Picking: Nur die URLs herausziehen, die positiv reagiert haben, und die negativen verschweigen. Das ist Confirmation Bias.

Short Windows: Weniger als 28 Tage nach Intervention messen. Google braucht Zeit, um nderungen zu re-crawlen, zu validieren und ins Ranking zu übernehmen.

Impressionen statt Klicks als Primärmetrik: Impressionen schwanken massiver als Klicks. Wenn dein Test auf Impressionen basiert: Vorsicht.

Reporting-Vorlage

Ich dokumentiere jeden Test so:

## [Experiment-Name]
Datum der Intervention: YYYY-MM-DD
Hypothese: [...]
Interventionsgruppe: [n=X URLs]
Kontrollgruppe: [n=Y URLs]

| Metrik | Baseline () | Post-Intervention () | Δ % |
|--------|-------------|----------------------|-----|
| Klicks | X | Y | Z% |
| CTR | X | Y | Z% |
| Ø Position | X | Y | Z% |

Bewertung: 🟡 / 🟡 / xΔ
Confounder: [...]
Fazit: [...]

Dieses Template verwende ich für alle Studien auf seo-geek.de. Es sorgt dafür, dass ich vor der Auswertung ein klares Schema habe – und nicht nachträglich „passe.“

Weiterführende Ressourcen

// AUTOR

seo:geek

SEO-Analyst & Data Engineer

Unabhängige SEO-Analysen auf Basis eigener Messungen. Keine Beratung, keine Affiliate-Links – nur Daten.