Google Universal Analytics Spam bekämpfen: der Problemlöser [mit Video]

Wie ärgerlich. Das Google-Analytics-Konto ist eingerichtet, die Daten laufen rein und nach kurzer Zeit passieren merkwürdige Dinge, die die Traffic-Statistik merkwürdig beeinflussen. Wer in Google Analytics Spam Traffic feststellt (Ghost Referrer, Fake Traffic oder Crawler Spam), möchte am liebsten sofort verärgert sein Konto schließen, denn oftmals ist die Datenqualität mit dem Einfall der Spam-Daten dahin. Doch es gibt vorbeugende Maßnahmen, um die Probleme zumindest zu minimieren.

Dieser Beitrag bezieht sich auf das zum 1. Juni 2023 abgestellten Universal Analytics (bzw. das zum 1. Juni 2024 abgestellte UA360)!

„Was sind das für merkwürdige Traffic-Spitzen?“ „Wieso kommen so viele Besucher aus Russland?“ „Warum verewigt sich der US-Präsident Trump in meinen Statistiken?“ Das höre ich gar nicht so selten. Und die nächsten Fragen lauten dann: „Wie kann ich das verhindern?“ oder „Warum machen die das?“ oder sogar: „Was habe ich denen denn getan?“ Kleine Anekdote – ich habe auch schon durchaus ernst gemeint gehört: „Ich glaube, die Russen wollen meine Website hacken, ich kann das in Analytics sehen!“

Google Analytics Spam im Verweise-Bericht

So sind die Spammer in Google Analytics häufig zu sehen. Hier im Bericht “Verweise”

Ereignis-Bericht mit Spam

Abbildung 2: Und hier mal im Ereignis-Bericht

Analytics Spam im Sprach-Bericht

Abbildung 3: Und auch bei den Sprachen ist noch nicht Schluss

Als PDF zum Download
Du willst den Beitrag als PDF haben? Lade ihn dir hier herunter.

In diesem Beitrag geht es um folgendes:

  1. Was ist Google Analytics Spam?
  2. Unterscheidung zwischen Referrer, Fake Traffic, Ghost Referrer und Crawler Traffic
  3. Vorbeugen ist besser als Heilen
  4. Das hilft NICHT: Verweisausschlussliste
  5. Nachsorge kann Schmerzen minimieren

Was ist Google Analytics Spam?

Da muss ich erstmal aufklären. Mit Google Analytics Spam ist gemeint, dass plötzlich auf verschiedenen Wegen Traffic oder andere Hits in den Statistiken auftauchen, die offensichtlich keinem „echtem Besucher“ zuzuordnen sind.
Wir alle wissen: Spam ist in der Regel auf eine möglichst breite Streuung aus – und daher wird eher auf automatische Prozesse gesetzt als auf echte (Wo)Manpower. Und natürlich geht es bei Spam um Sichtbarkeit. Denn das Ziel von Spam-Maßnahmen in Google Analytics ist es, Aufmerksamkeit zu erzeugen und in verschiedenen Reports sichtbar für den Webanalysten zu werden. Der soll dann die entsprechende Information aufnehmen und zum Beispiel die im Spam-Eintrag genannte fremde Internetseite besuchen.

Unterscheidung zwischen Referrer, Fake Traffic, Ghost Referrer und Crawler Traffic

Bevor wir uns an die Problemlösungen setzen, müssen wir zunächst einige Dinge genauer definieren.

  1. Was ist ein Referrer?
  2. Was ist Fake Traffic?
  3. Was ist das Measurement Protocol?
  4. Was ist Ghost Referrer Spam?
  5. Was ist Crawler Traffic Spam?

Was ist ein Referrer?

Wenn du im Internet auf einen Link klickst, wird ein so genannter Referrer an die Seite übertragen, die du nach dem Klick besuchst. Dieser gibt den Namen der Website preis, von der ein Besucher gekommen ist.

Das kannst du zum Beispiel im Chrome nachvollziehen, wenn du die Developer Tools aufrufst (über Menü oder auf dem PC zum Beispiel mit F12) und dort den Tab „Network“ aktivierst. Klickst du jetzt auf einen Link, der dich zu einer anderen Seite bringt (zum Beispiel von der Google-Suche auf eine andere), und wählst in den Dev-Tools links den Namen der Seite, die geladen wurde, kannst du nachsehen, welcher Referrer übergeben wurde (siehe Screenshots).

chrome-developer-tools-referrer

Abbildung 1: Hier findest du in den Chrome Developer Tools den Referrer

chrome-developer-tools-referrer-vergroessert

Hier nochmal in Groß

Die Übertragung des Referrers funktioniert immer dann, wenn die besuchten Seiten entweder beide unter http, beide unter https oder nur die nach dem Klick besuchte Seite unter https erreichbar ist, während die verweisende http aufweist. Ich denke, das folgende Schema macht das leichter verständlich.

uebergabe-referrer

Abbildung 2: Der Referrer wird nicht immer übergeben.

Wenn die erste Seite also unter https, die nächstfolgende unter http erreichbar ist, wird der Referrer nicht übertragen.

Was ist Fake Traffic?

Unter Fake Traffic wird alles zusammengefasst, was von außen versucht die Statistiken in Google Analytics zu manipulieren, ohne die betroffene Website selbst besucht zu haben. Dabei werden durch einen Bot oder ein Programm vorgetäuschte Treffer (also z. B. Hits wie Seitenaufrufe, Ereignisse, Transaktionen oder andere) an Google Analytics gesendet.

Hierzu werden mithilfe des sogenannten „Measurement Protocols“ (s. weiter unten) diese Hits abgeschickt. Und der Betreiber der Analytics-Property ahnt nichts davon.

Was ist das Measurement Protocol?

Hinter dem Begriff „Measurement Protocol“ steckt eine im Grunde hilfreiche Sache, die es ermöglicht, von einem mit dem Internet verbundenen Gerät Daten an Google Analytics zu übergeben. Das müssen keine Computer sein und es müssen auch keine Website-Aufrufe sein, die solche Daten beinhalten. Da geht also vom Smartphone bis zur Waschmaschine oder Kasse in einer Filiale eine ganze Menge.

Dabei lässt sich ein Aufruf an Google Analytics mit einem simplen http-Request durchführen, bei dem Parameter an Google Analytics übergeben werden. So funktioniert das Tracking natürlich auch auf den Websites. Es lässt sich wiederum im „Network“-Tab der Chrome Developer Tools nachvollziehen (siehe Screenshot), wo einfach nach „collect“ gesucht werden kann, um entsprechende Aufrufe an Analytics zu sehen. Das ist also im Grunde ein normaler Vorgang, der aber durch die Spammer nachgeahmt werden kann und damit für die Probleme mit der Datenqualität sorgen.

Übergabe Daten an Google Analytics

Abbildung 3: So kannst du sehen, wie die Website Daten an Analytics schickt.

Wie das Measurement Protocol genau funktioniert und was ihr dabei übergeben könnt, ist hier zu lesen:

Wichtig zu verstehen: Bei der Übergabe gibt es aktuell keine Sicherheitsschranken! Alles, was jemand wissen muss, um etwas an Analytics zu übergeben, ist die dort vorhandene Property-ID, die immer diesem Muster folgt: „UA-1234567-Y“. Also ein ziemlich einfach zu lösendes „Problem“ für Spammer. Sie benötigen nur gewollt oder zufällig die richtige Property-ID des Analytics-Kontos, um Daten dorthin zu schicken.

Zumindest dem Spammer, der sich tatsächlich DEINE Analytics Property ID automatisiert holen und nicht einfach nur zufällig erwischen möchte, könnt ihr ein kleines Schnippchen schlagen, wenn ihr den Analytics Tracking Code via Tag Manager ausspielt. Denn in dem Fall steht die Property ID nicht mehr, wie bei „Hard coded“ Tracking Code, direkt im Quellcode der Seite, sondern wird durch den Tag Manager nachgeladen. Somit können viele Roboter ihn nicht mehr ohne weiteres auslesen. Das ist zwar keine absolute Sicherheit, wird aber ebenfalls den einen oder anderen Spammer auf eure Seite einladen.

Was ist Ghost Referrer Spam?

Eine spezielle Art des Fake Traffics ist der Ghost Referrer.

Der Verweis-Report in Google Analytics („Akquisition“ > „Alle Zugriffe“ > „Verweise“) zeigt, von welchen anderen Websites Besucher den Weg zu unserer gefunden haben. Doch nicht immer, wenn in diesem Bericht ein Besucher gezählt wird, ist auch tatsächlich ein echter Besucher auf der Seite gewesen. So genannte Ghost Referrer tauchen nämlich in schöner Regelmäßigkeit im Verweis-Bericht auf (siehe Screenshot) und möchten gerne Aufmerksamkeit vom Webanalysten.

Beispiel für einen Fake-Referrer

Abbildung 4: Beispiel für einen Fake-Referrer

Wie findet man die Ghost Referrer? Einfach in den „Verweise“-Bericht navigieren, den Zeitraum auf mind. 2-3 Monate einstellen und den Report ggf. absteigend nach Absprungrate sortieren. Dann dürften die ersten sichtbar werden. Denn die Ghost Referrer „besuchen“ in der Regel nur eine einzige Seite (meist „/“, Seiten pro Sitzung = 1) und verlassen sie dann wieder (Absprungrate = 100 %) – das aber häufig. Wer zu viele Verweis-Besucher bekommt, die eine Absprungrate von 100 % haben, kann zusätzlich die Sitzungszahl filtern (zum Beispiel „größer als 5“), um viele Nichtspammer auszuschließen.

Was ist Crawler Traffic Spam?

Als weiterer wenig schöner Mitspieler im Spiel kann der Crawler Traffic Spam gesehen werden. Dabei ist zunächst einmal wichtig zwischen den „Guten“ und den „Bösen“ Crawlern zu unterscheiden. Die Guten (wie etwa Suchmaschinenbots von Google oder Bing) sind auf der Website auf der Suche nach Informationen und besuchen sie tatsächlich. Die „bösen“ Bots tun das nicht und versuchen zum Beispiel über das Measurement Protocol falsche Referrer vorzutäuschen. Sie halten sich außerdem nicht an sonstige Konventionen für Bots, etwa die robots.txt-Anweisungen oder die Robots-Meta-Tags.

Das perfide daran: Diese Bots lassen sich kaum erkennen, denn sie können vortäuschen, etwas ganz anderes zu sein, indem sie z. B. ihre Browserkennung ändern – oder auch, dass sie von einem gezielt definierten Referrer kommen.

Vorbeugen ist besser als Heilen

In Google Analytics gibt es einige Hebel, die man ziehen kann, bevor die Datenqualität leidet. Ein paar davon möchte ich hier vorstellen. Doch keine Sorge: Selbst wenn „das Unglück“ schon geschehen ist, lässt sich zumindest die Sicht auf die Dinge noch etwas korrigieren.

Ein Tipp noch vorweg: Bevor du in Google Analytics irgendetwas in die Master-Datenansicht schreibst: Teste die Einstellungen, die du tätigen möchtest! Gerade die vorgeschlagenen Filter bitte erst ein einer Test-Datenansicht ändern, bevor Fehler passieren und die Datenqualität der Haupt-Datenansicht rettungslos dahin ist.

Übrigens: Natürlich können neben den hier vorgestellten Methoden auch serverseitig noch Vorkehrungen getroffen werden. Doch der Haken an Sperrungen bestimmter User-Agents, IP-Adressen oder Referrer, die zum Beispiel mithilfe einer .htaccess-Datei auf dem Server vorgenommen werden ist leider folgender: Viele Spammer betreten die Website ja überhaupt nicht. Denn wie schon weiter oben beim Measurement Protocol beschrieben, gibt es bei dem „Rumgespamme“ oftmals keinen tatsächlichen Besuch.

Im Video zeige ich euch in Google Analytics, was euch erwartet. Und unten geht’s mit dem Blogpost weiter.

Datenansicht „bereinigen“

Die einfachste Methode, die zumindest gegen einen guten Teil der Spammer hilft: Einstellungen in der Datenansicht von Google Analytics (s. Screenshot) korrekt setzen. Dort findet sich ein Ankreuzfeld mit dem Namen „Alle Treffer von bekannten Bots und Spidern ausschließen“ und führt dazu, dass die bei IAB hinterlegte Liste von Bots und Spidern bei aufgezeichnetem Traffic herausgefiltert wird. Allerdings passiert das wie geschrieben auf Datenansichtsebene, sodass diese Treffer beispielsweise in einer separaten Rohdatenansicht in Google Analytics immer noch hineinlaufen können (das muss nicht schlimm sein, denn die Daten dort sollen ja „roh“ sein).

Option in Datenansichtseinstellungen gegen Bots und Spider

Abbildung 5: Hier kannst du einen wesentlichen Blocker gegen Bots setzen.

Die Option hilft zwar nicht unbedingt gegen alle Bots, die in zweifelhafter Absicht gekommen sind, denn viele von Ihnen können das gesponnenen Sicherheitsnetz dennoch umschiffen. Doch ohne diesen Haken bist du dem Fake Traffic schonungslos ausgeliefert. Und mit der Aktivierung kannst du zumindest dafür sorgen, dass Google bei künftigen Updates in der Spammer-Abwehr dein Konto nicht vergisst.

Datenansichtsfilter „Referrer sperren“

Filter sind eine fantastische Möglichkeit in Google Analytics für Ordnung in den Datenansichten zu sorgen. Eine von unzählig vielen Filteroptionen ist etwa das Sperren bestimmter Referrer.

HINWEIS: Bitte denke zwei Mal darüber nach, bevor du mit Filtern gleich welcher Art arbeitest. Denn sie verändern die Art, wie Daten erfasst werden, nachhaltig und unabänderlich. Wenn die Daten also einmal durch einen Filter verändert wurden, können sie nicht wieder in den Ursprungszustand versetzt werden.

Dabei werden die identifizierten Spam-Referrer in einen Filter eingetragen und können so künftig keinen Traffic mehr erzeugen.

Der Nachteil gleich vorweg: Man rennt den Spammern hinterher! Denn zunächst musst du erstmal feststellen, dass es überhaupt Spam gegeben hat, bevor du ihn mit diesem Filter bekämpfen kannst.

Und so geht’s:

  • Spammer identifizieren (im Bericht „Akquisition“ > „Alle Zugriffe“ > „Verweise“)
  • regulären Ausdruck erzeugen mit allen Spam-Referrern, z. B. so:
    spammer2\.com|spambot\.net|semalt\.com
    Das Pipe-Zeichen „|“ dient dabei als Abgrenzung zwischen verschiedenen Domains. Der Backslash „\“ als Escape-Zeichen (s. auch weiter unten) vor Sonderzeichen, insbesondere dem Punkt.
  • Filter anlegen

So legst du den Filter an (s. auch Screenshot):

  • Verwaltung, Filter auf Datenansichtsebene, Filter hinzufügen
  • Neuen Filter erstellen, Namen vergeben
  • Filtertyp: „Benutzerdefiniert“
  • „Ausschließen“ > „Kampagnenquelle“ (bitte NICHT „Verweis“ wählen)
  • Filtermuster: regulären Ausdruck mit den Spam-Domains eingeben, z. B. „domain\-spam\-2000\.com|domain4webmasters\.org|clickanswer11079723\.cenoval\.ru“
Spam Referrer ausfiltern, Einstellungen

Abbildung 6: Spam Referrer ausfiltern. Leider erst, wenn man sie kennt und nicht rückwirkend.

Das Filterfeld ist auf 256 Zeichen begrenzt. Es kann also sein, dass du mehrere solcher Filter anlegen musst, um alle zu erwischen.

Bitte unbedingt die „Filter prüfen“-Funktion nutzen, die beim Anlegen von Filtern unten angezeigt wird. Und um auf Nummer Sicher zu gehen, das ganze zunächst in einer Testdatenansicht.

Meine Meinung: Referrer-Filter? Kannst du machen, wenn die nachfolgende Methode nur unzureichend funktioniert. Ansonsten ist es leider eine Methode, die dir erst nach dem Spam-Einfall eine Sperrung ermöglicht. Und Spammer sind durchaus findig was die Schaffung neuer Referrer angeht. Es bleibt also ein Katz- und Maus-Spiel, bei dem deine Aufgabe ist, die Spam-Filter aktuell zu halten. J

Datenansichtsfilter Hostname

Eine der bislang effektivsten Methoden, um Spammern den „Zutritt“ zum Analytics-Konto zu verweigern, ist: die Sperrung von Nicht-eigenen Hostnames (Negativ-Filter) bzw. das Zulassen nur eigener Domains (Positiv-Filter). Ich zeige hier die Positiv-Filter-Variante, weil ich sie für effektiver halte. Denn bei einem Negativ-Filter rennt man den Spammern immer hinterher, da sie zuerst auftreten müssen, bevor man sie sperren kann.

Was steckt dahinter?

Wann immer wirklich Traffic auf deiner Website stattfindet – ganz gleich, ob durch echte Benutzer oder durch Spam-Bots, zeigt der Hostname auf deine Domain. Im Gegensatz dazu ist der Hostname entweder leer oder mit etwas gefüllt, das nicht deine Domain ist, wenn es sich um Ghost Referrer handelt.

Das passiert, weil die Urheber der meisten Spam-Attacken nicht wissen, auf welche Domain sie gerade zielen. Sie haben oftmals nur die Analytics Property ID zufällig generiert und „feuern“ auf diese ihren Spam. Ausnahme: Ein Spider hat zuvor explizit die Website besucht, um die Analytics Property ID herauszufinden.

Wenn du also Traffic von Hostnames, die du nicht kennst, aussperrst, hast du eine gute Chance auf Minimierung des Spam-Anteils in deinem Traffic. Du solltest allerdings darauf achten, wirklich dein gesamtes Analytics-Universum zu berücksichtigen. Wenn dein Tracking also nicht nur auf deiner Domain www.domain.de läuft, sondern auch auf blog.domain.de oder auf anderen Seiten (zum Beispiel bei YouTube, hier eine Anleitung), musst du das berücksichtigen.

Um sicher zu gehen, dass du nicht aus Versehen einen eigenen Host beim Anlegen eines Filters übersiehst, schaue dir vorher den Google-Analytics-Bericht „Zielgruppe“ > „Technologie“ > „Netzwerk“ an. Dort findest du oberhalb des Berichts den Reiter „Hostname“ – und in ihm zeigen sich mitunter überraschende Daten.

Netzwerk-Bericht mit Hosts in Google Analytics

Abbildung 7: Im Netzwerk-Bericht sind die Hosts zu sehen

Neben den vermuteten Hosts (im Beispiel oben www.domain.de und domain.de) sind auch noch andere zu finden. Zum Beispiel

  • translate.googleusercontent.com
    Wenn deine Website mithilfe des Google Übersetzers übersetzt wurde, findet der Traffic auf diesem Host statt. Eure Entscheidung, ob ihr der Meinung seid, dass das Traffic ist, den ihr einschließen wollt oder nicht.
  • webcache.googleusercontent.com
    Wenn eure Website im Cache von Google betrachtet wird, könnte dieser Host hier auftauchen. Auch hier bleibt es eure Entscheidung, ob dieser Traffic in euren Statistiken auftauchen soll oder nicht.
  • Demo- oder Entwicklungsseiten der eigenen Domain
    Wenn in dem Bericht dev.domain.de oder stage.domain.de usw. zu finden sind, überlege genau, ob du diesen Traffic mit dem „realen“ Traffic vermengen willst – oder vielleicht doch lieber filtern.

Mach dir einfach eine Liste, mithilfe derer du am Ende den Filter erstellen kannst.

Wie funktioniert der Hostname-Filter?

In der Verwaltung muss im Bereich Datenansicht ein neuer Filter hinzugefügt werden.

Neuen Filter in Datenansichtseinstellungen anlegen

Abbildung 8: Ein neuer Filter für Hostnames in den Datenansichtseinstellungen

Dort muss dann einfach ein „Benutzerdefinierter Filter“ mit den Einstellungen

  • Einschließen
  • Filterfeld: „Hostname“
  • Filtermuster: „domain\.de“ (bitte die eigene Domain einsetzen)

gesetzt werden.

Wenn du mehrere gültige Hosts eintragen möchtest, nutze einen regulären Ausdruck, mit dem du die verschiedenen Hosts sogar auf unterschiedlichen Domains verbindest. Bindeglied ist dabei der senkrechte Strich, auch Pipe-Zeichen genannt („|“). Einige Beispiele für solche regulären Ausdrücke:

  • (www\.)?domain\.de
    sorgt dafür, dass sowohl domain.de als auch domain.de berücksichtigt werden
  • (www\.|blog\.|shop\.|^)domain\.de
    sorgt dafür, dass www.domain.de, blog.domain.de, shop.domain.de und auch domain.de berücksichtigt werden
  • (www\.)?domain\.de|translate\.googleusercontent\.com
    sorgt dafür, dass www.domain.de, domain.de und translate.googleusercontent.com berücksichtigt werden.

Bei regulären Ausdrücken bitte unbedingt daran denken, etwaige Sonderzeichen „zu escapen“ mit dem vorangestellten Zeichen „\“. Diese könnten in regulären Ausdrücken ansonsten Steuerfunktionen darstellen – mit der Pipe werden sie aber als einfaches Zeichen interpretiert. Du kannst das oben bereits im Einsatz sehen, vor allem vor den Punkten.

Filtereinstellungen Hostnames

Abbildung 9: Die Filtereinstellungen für Hostnames (benutzerdefiniert)

Damit dürftest du jetzt einen guten Teil der Spammer von deinen Statistiken entfernt halten.

Data Collection Keys

Eine weitere hervorragende Möglichkeit, Spammern recht sicher das Handwerk zu legen, sind Data Collection Keys. Das Prinzip hat Julian Coquet hier sehr schön beschrieben. So schön, dass ich es nicht nochmal komplett aufführe. Aber ich fasse es nochmal in aller Kürze zusammen.

Du legst einfach eine Art Passwort fest, das bei jeder Übertragung an Google Analytics von deiner Seite als „benutzerdefinierte Dimension“ mitgeliefert wird. Besonders leicht ist das mithilfe des Google Tag Managers zu machen. Auf Seite von Google Analytics filterst du den Traffic dann raus, der das Passwort in der benutzerdefinierten Dimension NICHT enthält. Fertig.

Schau dir einfach die Anleitung bei Julien Coquet an – schöner hätte ich es auch nicht schreiben können. 😉

Das hilft NICHT: Verweisausschlussliste

In den Property-Einstellungen von Google gibt es eine so genannte Verweisausschlussliste. Diese verhindert, dass bestimmte Referrer-Daten in den Berichten erscheinen, genauer: das alte Verweise durch diese überschrieben werden. ALLERDINGS verhindern sie nicht, dass der Traffic von den dort ergänzten Referrern stattfindet, sondern nur, dass sie als Verweis-Traffic Referrer auftauchen. Heißt: Würdest du hier alle Spam-Referrer auflisten, würdest du die Referrer zwar nicht mehr in den Verweisberichten finden – allerdings wäre der „Traffic“ mit all dem zugewiesenen Benutzerverhalten trotzdem auf deiner Website erfasst worden – und im Endeffekt hast du nichts gewonnen.

Also: Verweisausschlussliste hilft nicht beim Spam-Problem.

Nachsorge kann Schmerzen minimieren

Was tun, wenn die Spammer jetzt schon in den Statistiken enthalten sind? Keine Sorge, die Daten sind nicht hoffnungslos verloren, denn wenn du die Spammer über Verweisquellen oder bestimmte Hosts eindeutig identifizieren konntest, kannst du sie zum Beispiel über Segmente oder benutzerdefinierte Berichte ausschließen.

Segmente, um Spammer nachträglich auszuschließen

Segmente sind toll. Sie ermöglichen dir immer neue Sichten auf die bestehenden Daten –vor allem auf die Daten der Vergangenenheit. Und das einfach nur, indem sie Filterregeln folgen, die du definierst. Für unser Spam-Problem hast du jetzt vermutlich schon einige Filter angelegt – und genau diese kannst du Nutzen, um alte Daten in neuem Glanz erscheinen zu lassen. Indem du sie in Segmenten berücksichtigst.

So geht’s (Spam-Referrer ausschließen):

  • Nimm‘ dir die Spam-Referrer und erstelle wie oben schon beschrieben einen regulären Ausdruck, der alle berücksichtigt (z. B. domain\-spam\-2000\.com|domain4webmasters\.org|clickanswer11079723\.cenoval\.ru)
  • Erstelle ein neues benutzerdefiniertes Segment, mit den Parametern „Bedingungen“ > „Sitzungen“ > „ausschließen“ > „Quelle“ > „stimmt mit regulärem Ausdruck überein“ > „domain\-spam\-2000\.com|domain4webmasters\.org|clickanswer11079723\.cenoval\.ru“ (als Beispiel)(siehe auch Screenshots)
Segment hinzufügen

Abbildung 10: Oberhalb der Tabellen ein neues Segment hinzufügen

Neues Segment Button

Abbildung 11: “Neues Segment” klicken

Parameter Segment

Abbildung 12: Mit diesen Parametern und entsprechenden Domains anlegen

Wenn du willst, kannst du auch noch eine zusätzliche „Oder“-Verknüpfung ergänzen, die den Traffic auf fremden Spam-Hosts aussperrt.

Hostname-Erweiterung im Segment

Abbildung 13: … erweitern um gültige Hostnamen

Denke bitte daran: Du hast das gesamte Segment als ausschließendes Segment eingerichtet, also musst du beim Hostname „stimmt NICHT mit regulärem Ausdruck überein“ setzen und danach deine Domain(s) aufführen.

Gibt’s da einen Haken?

Der Haken an Segmenten: Sobald du anfängst sie zu nutzen, bist du gerade bei Websites oder Zeiträumen mit vielen Sitzungen sehr schnell im Sampling der Daten gefangen. Das heißt Analytics nimmt aus Performancegründen „nur noch“ Stichproben aus dem Gesamt-Traffic und zeigt dann oberhalb der Berichte so etwas:

Problem Sampling

Abbildung 14: Das Problem des Samplings

Damit werden die Daten ein Stück weit ungenau. Für viele Auswertungen sollte das statistisch gesehen kein Problem sein, dennoch kann das Sampling auch schon mal die Statistik arg verfälschen. Gerade, wenn man sehr kleine Teilmengen versucht zu untersuchen und man plötzlich ein Sampling von < 20 % oder sogar < 10 % hat.

Das verfälscht dann vor allem die kleineren Einträge in Tabellen immer besonders. Besonders auffällig ist dann, wenn in den mittleren bis hinteren Reihen einer Tabelle alle Zeilen nur noch gleiche Sitzungszahlen haben. Daher sind segmentierte Daten in der Hinsicht immer auch etwas kritisch zu sehen, wenn sie Sampling unterliegen.

Mein Fazit: Zwar Katz und Maus – aber du hast Möglichkeiten

Spammer sind lästig. Und sie können dir deine Webanalyse
verhageln, indem sie die unnütze Daten an Google Analytics
senden. Sie nutzen dafür mit Ghost Referrern und Crawler Spam
zwei Möglichkeiten – doch beide sind nicht ultimativ, sondern
lassen sich durch verschiedene Einstellungen, Filter und in Grenzen
sogar nachträglich in Schach halten.

Das beste Mittel ist jedoch: Prävention. Nutze also mindestens einen positiven Host-Filter, um dir das Gros der „Nervensägen“ vom Hals zu halten.

Ich hoffe, das hilft euch bei einem möglichen Spam-Problem oder als Vorsorge weiter.

Habe ich etwas vergessen? Poste es mir in die Kommentare, dann ergänze ich den Beitrag gerne.

Maik Bruns

Noch mehr Insights

Top