Die Sendung mit der Metrik #dsmdm

#63: “Wie du Bots erkennst und aus Analytics heraushältst"

mit Christian Gust

by Maik Bruns

Die Sendung mit der Metrik #dsmdm

#63: “Wie du Bots erkennst und aus Analytics heraushältst"

mit Christian Gust

by Maik Bruns

by Maik Bruns

Wer die Qualität seiner Analytics-Daten hoch halten möchte

und Entscheidungen mit Tragweite fällen möchte,kommt nicht umhin, Bot-Traffic zu berücksichtigen und Gegenmaßnahmen einzuleiten. Wie das gehen kann kläre ich mit Christian Gust von Zalando in der neuen Folge.

Viel Spaß beim Hören.

Wenn du das Ganze lieber lesen möchtest, unten gibt’s das komplette Interview in Textform.

Lade die Folge runter (Rechtsklick und „Speichern unter“)

Abonniere auf Android Abonniere auf iTunes

In dieser Folge außerdem:

  1. Shownotes
  2. Die Folge zum Nachlesen
  3. Kommentare

Meine Bitte: Wenn dir diese Folge gefallen hat, hinterlasse bitte eine 5-Sterne-Bewertung bei iTunes oder wo immer du abonniert hast, gerne ein Feedback im Blogpost oder bei Facebook und abonniere diesen Podcast. Zeitinvestition: Maximal ein bis zwei Minuten. Dadurch hilfst du mir den Podcast zu verbessern und die Inhalte zu liefern, die du gerne hören möchtest. Ich danke dir jetzt schon dafür. Oder hinterlasse auch gerne einfach einen Kommentar hier.

Shownotes

Links:

Allgemein

Das war die Folge “Wie du Bots erkennst und aus Analytics heraushältst” mit Christian Gust/Zalando

Hallo? Die Sendung mit der Metrik, der Webanalyse-Podcast mit Maik Bruns und seinen Gästen. Heute mit Christian Gust. Viel Spaß!

Intro

Maik Bruns: Hey Analyse-Held, hier ist der Maik, herzlich willkommen zu einer neuen Folge „Die Sendung mit der Metrik“. Heute auch mit einem speziellen Gast, auf den ich mich schon sehr gefreut habe. Aber ich möchte euch erstmal ein bisschen Kontext geben, wo wir hier gerade sind, in welcher Sendung wir hier gerade sind.

Ich möchte das Thema Datenqualität hier nochmal auf den Zettel heben, denn Datenqualität ist bei vielen Websites ja eigentlich jederzeit ein Thema. Doch es gibt eben nicht immer nur diese hausgemachten Probleme, die wir ja alle kennen, also sowas wie, wir messen falsch, wir müssen zu viel, wir messen zu wenig oder irgendwas läuft völlig schief bei der Datenerhebung. So, und manchmal gibt’s auch Störungen von außen, zum Beispiel durch unerwünschten Traffic, zum Beispiel durch Bots oder Spider oder anderen Spam, den wir unglaublich gerne im Webanalyse-Tools sehen. Während das bei vielen kleinen Websites vielleicht nur ich sag mal so ein kleines Ärgernis ist und vielleicht noch nicht so wichtig, aber sobald Geld ins Spiel kommt, müssen wir eben wissen, ob wir da gerade einem Bot Aufmerksamkeit schenken oder vielleicht einer echten Person und ob wir einer echten Person hier gerade Werbung zuspielen möchten oder einem Bot. Was wir tun können, um Bot-Traffic zu erkennen und ob wir auch eventuell schon etwas gegen diesen Bot-Traffic machen können, das bespreche ich jetzt gleich mit meinem Gast Christian Gust von Zalando. Und den möchte ich euch gerne noch eben vorstellen.

Bevor es losgeht, ein guter Hinweis in eigener Sache vorab. Wenn du Webanalyst werden willst, dann stehst du zu Beginn da und weißt vermutlich nicht so recht, wie du an das Thema herangehen kannst, was du wissen musst, was du verdienen kannst und welche Unternehmen für dich vielleicht interessant sein könnten als Arbeitgeber. Genau für dich habe ich jetzt ein Hörbuch herausgebracht und das bringt dir in über 5 Stunden genau diese Infos für dich.

Die Infos, die sind zum größten Teil von mir, aber viele weitere schlaue Köpfe aus der Branche haben ebenfalls wirklich, wirklich guten Input gegeben. Also, wenn du eine Abkürzung gehen willst zu deinem beruflichen Erfolg als Webanalyst, dann schau am besten jetzt direkt in die Shownotes und hol dir das Hörbuch. Und zwar ist Christian Senior Product Specialist und Lead Tracking für Infrastruktur bei Zalando. Intern trainiert er Leute und einer seiner Schwerpunkte ist eben dabei das Thema Datenqualität. Deswegen eignet er sich hervorragend, um mit mir über das Thema zu sprechen, mal abgesehen davon, dass es auch noch von ihm selber so halb vorgeschlagen kam. Ganz dann nebenher ist er auch Mitorganisator beim MeasureCamp in Berlin. Das findet auch in diesem Jahr wieder statt. Termin steht noch nicht genau fest, aber ich kann relativ sicher sagen, dass sie auf der Suche nach Sponsoren sind, da können wir gleich nochmal kurz drüber sprechen, aber erstmal herzlich willkommen Christian. #00:02:55.8#

Christian Gust: Ja, vielen Dank, Maik. Danke für die Intro. #00:02:57.7#

Maik Bruns: Sehr gerne. Ich fand das ja toll, dass wir uns beim MeasureCamp kennengelernt haben. Es hat mir Spaß gemacht dir zuzuhören, wir waren in einer Session gemeinsam, und ich konnte da relativ schnell merken, dass du durchaus vom Fach bist und nicht jemand, der nur so zwischendurch mal Webanalyse macht. Wie bist du denn zur Webanalyse gekommen? #00:03:15.9#

Christian Gust: Ja, eine gute Frage. Ich bin einfach ein Mensch, der schon immer gerne mit Zahlen gearbeitet hat. Also ganz klassisch merkt man das, wenn mich Freunde fragen zum Beispiel wie es mir geht, dann kriegen sie meistens eine Zahl zwischen 0 und 10 von mir zu hören. Weil was ist schon gut, weißt du, gut ist einfach so, was ist das schon? Ist es eine 5, ist es eine 7, ist es eine 9 von 10? Keiner weiß es. Nein, mein Metier ist schon immer so, dass ich sehr zahlengetrieben bin. Und so ergab sich das auch klassischerweise, dass ich irgendwann gesagt habe, okay, ich muss auch was mit Zahlen machen in meinem Job. Ja, und hier sind wir. #00:03:46.8#

Maik Bruns: Ja. Sehr cool. Frage eines interessierten Hörers, Zalando oder Zalando (englisch ausgeprochen)? #00:03:55.4#

Christian Gust: Zalando. #00:03:55.8#

Maik Bruns: Zalando, ne, meine ich auch. Ja. Deswegen habe ich es auch eben im Intro schon so gesprochen. #00:03:59.9#

Christian Gust: Alles richtiggemacht. #00:04:00.8#

Maik Bruns: Aber muss ja alles international sein heute. #00:04:02.7#

Christian Gust: Richtig, richtig. #00:04:03.4#

Maik Bruns: Was machst du denn täglich bei Zalando? Was ist dein Job? #00:04:06.0#

Christian Gust: Du hast es eigentlich schon ganz richtig gesagt. Ich bin eben der Product Specialist für Tracking, das heißt, damit auch mit meinem Team zusammen verantwortlich für die Tracking-Infrastruktur bei Zalando. Das heißt klassischer Weise das Erheben von Daten, das Prozessieren von Daten, das zur Verfügung stellen von Daten, zum Beispiel für Google Analytics, aber auch für viele andere Abnehmer von den User Behaviour Daten. In den letzten Jahren habe ich mich immer mehr auch spezialisiert auf den Bereich Data Quality und Data Governance, da passiert ja auch immer mehr und da passierte auch schon viel vor GDPR natürlich und deswegen leite ich da eine Task-Force sozusagen. Da kümmern wir uns auch unter anderem um Bot-Traffic. #00:04:47.7#

Maik Bruns: Ja. Das nächste Problem steht ja schon an, ITP, aber das ist eine andere Folge, die machen wir dann mal später. #00:04:53.8#

Christian Gust: Ja, da machen wir noch mal eine andere Folge drüber. #00:04:57.5#

Maik Bruns: Lass uns mal grundsätzlich erstmal darüber sprechen, was sind überhaupt Bots oder wo können wir da auch Abgrenzungen setzen, mal so aus deiner Sicht? #00:05:05.6#

Christian Gust: Okay. Also ganz grob praktisch kann man sagen, Bots sind erstmal Software-Anwendungen, die übers Internet laufen und automatisch irgendwelche Aufgaben erfüllen. Das können ganz unterschiedliche Aufgaben sein, da können wir nachher nochmal vielleicht kurz drauf eingehen. Um das auch einzuordnen vom Größenverhältnis her, je nach Studienlage spricht man davon, dass ungefähr 40 bis 60 Prozent des gesamten Internetverkehrs auf der Welt durch Bots verursacht werden. #00:05:29.0#

Maik Bruns: Oha. #00:05:29.5#

Christian Gust: Das heißt, wenn nicht heute schon mehr als die Hälfte durch Bots (unv. #00:05:32.8#), wird es auf jeden Fall in der nahen Zukunft so sein, dass das Traffic-Aufkommen im Internet nicht mehr von Menschen dominiert ist, sondern eben von diesen Bots. Und Bots greifen dabei auch, ist auch noch mal wichtig zu verstehen, auf Websites zu, aber auch eben auf APIs und auch auf Mobile-Apps. Das ist sowas, was ich öfters schon gehört habe in Gesprächen, dass Leute glauben, Bots ist nur in Web-Problem und wenn ich eine App habe, dann muss ich mich um das Thema nicht kümmern, aber das ist leider nicht mehr so. Auch wenn man zugeben muss, dass Bots immer noch in der Mehrheit im Web und Environment unterwegs ist, aber es ist nur eine Frage der Zeit. #00:06:03.7#

Maik Bruns: Das finde ich schon mal eine sehr interessante Aussage, weil gerade das App-Tracking ist ja durchaus gerade bei großen Anbietern immer mal wieder ein Thema und wenn das auch noch mit Bots hinterlegt wird. Wir klären gleich mal, was überhaupt Bot-Traffic bedeutet, auch für unsere Webanalyse überhaupt oder was wir damit überhaupt so anstellen, aber das hat natürlich massiven Einfluss. Also grundsätzlich, ein Bot ist erstmal nicht unbedingt was Schlechtes, also erstmal ist es nur eine Software, die irgendwie durchs Internet rennt. #00:06:28.4#

Christian Gust: Genau. Und manchmal wollen wir Bots ja auch haben und so gibt es halt gute und schlechte Bots. Wie in einem Märchen, es gibt die Guten und es gibt die Schlechten. Und gute Bots beispielsweise, kann man ganz klassisch sagen, die unterstützen dein Business in irgendeiner Art und Weise. Ein gutes Beispiel sind die Search Engine Crawlers, die kennt vielleicht noch der ein oder andere. Die Google Bots zum Beispiel, die auf deine Seite gehen und die Inhalte aus deiner Seite auslesen, also Text oder Bilder zum Beispiel und auch schauen, wo hast du interne und externe Links. Und damit eben so ein Spidering quasi machen in (unv. #00:07:01.6#) verstehen, welche Seiten linken wohin, aber auch welche Daten haben deine Seiten, um deine Seiten besser zu verstehen, um dann auch zum Beispiel die Texte und Bilder, die du hast, in so Suchergebnissen anzuzeigen. Das wollen wir ja auch, das ist ja wichtig. Damit wir unbezahlten Traffic bekommen über Google und andere Search Engines, wollen wir ja, dass die Search Engines auf unserer Internetseite Zugriff haben und sich Daten dort ziehen. Ist eine super Sache am Ende des Tages. Ein anderes gutes Beispiel sind auch Monitoring-Bots, die zum Beispiel regelmäßig schauen, ob deine Webseite überhaupt noch online ist oder irgendwie gecrasht ist an einer Stelle. Feed-Fetcher ist ein ganz klassisches Beispiel, eigentlich die größte Art von guten Bots mittlerweile vom Traffic-Aufkommen. Das ist vor allen Dingen, Facebook und Twitter sind hier sehr populär, die eben auch auf deine Seite gehen und versuchen sich bestimmte Website-Informationen zu speichern, damit sie dann vorab schon angezeigt werden können, wenn du den Link einfügst, zum Beispiel in dem Facebook-Feed oder in einem Tweet selbst. Das kommt auch, weil ein Bot vorher auf deine Seite gegangen ist und sich die Informationen gezogen hat. Chatbots mittlerweile auch in aller Munde, ein Beispiel von guten Bots, die wir haben wollen. Und dann gibt’s eben noch die bösen Jungs. Zum einen ganz klassisches Beispiel so der Competitive Data Miner. Das sind Bots, die versuchen zu verstehen zum Beispiel, was hast du gerade für Produkte online in deinem Webshop und wie viel kosten die eigentlich gerade bei dir, sodass ich dann im Zweifelsfall einen günstigeren Preis anbiete. Oder noch schlimmer, ich kopiere mir gleich deine Daten, die Produktbeschreibung und deine Produktbilder, weil es kostet mich ja dann viel weniger, wenn ich das von dir kopiere als wenn ich das alles selber machen muss die ganzen Bilder. Oder Personal Data Harvester, das sind so die Bots die versuchen eben User Accounts zu übernehmen, um sich dann persönliche Daten da raus zu klauen. Zum Beispiel das Geburtsdatum von einem Kunden oder das Geschlecht, die Adresse, im schlimmsten Fall sogar Kreditkarteninformationen. Man kennt auch vielleicht noch die Spammer. Spammer sind so Bots, die versuchen auf deiner Internetseite Zugriff zu bekommen, um dort Schadsoftware zu installieren, damit dann zum Beispiel Kunden, die deine Internetseite besuchen, plötzlich irgendwelche Popups angezeigt werden, die dich dazu animieren einen Kredit abzuschließen oder diverse Körperteile zu vergrößern oder was auch immer. Das willst du natürlich nicht im Endeffekt. Eine ganz fiese Art von bösen Bots sind auch noch die Inventory Denier, das sind Bots, ganz klassisch zum Beispiel auf Ticketing-Seiten, wo du Tickets dann für 15 Minuten reserviert hast in deinem Warenkorb, damit du Zeit hast dich noch einzuloggen und kein anderer in der Zwischenzeit das Ticket irgendwie von dir abgreift. Eigentlich ja eine super Sache und genau das nutzen die Bots eben aus. Das heißt die gehen tausendfach, millionenfach im schlimmsten Fall auf deine Internetseite, ins Ticketsystem und legen alle Tickets, die du hast, in den Warenkorb, und plötzlich kann kein echter Kunde mehr diese Tickets kaufen. Ist natürlich blöd, aber gut für den Konkurrenten im Zweifelsfall, der vielleicht die gleichen Tickets anbietet, dann müssen sie alle zu dem gehen. #00:09:53.2#

Maik Bruns: Also du zeigst mir gerade einige Bots auf, die ich in meinem Leben noch nicht persönlich kennengelernt habe und ich bin auch sehr dankbar dafür. #00:10:00.5#

Christian Gust: Sei froh. Aber ich glaube, ich hoffe, dass zumindest immer mehr Leuten bewusst wird, also wir haben ja das auch in der Presse in letzter Zeit gehabt, es gab kurz ja noch mal diese Announcement, dass Twitter schon wieder ganz viele Fake Accounts gelöscht haben, dass einfach die auch von Bots angelegt wurden, um zum Beispiel die Followerschaft von bestimmten Twitter-Usern künstlich in die Höhe zu treiben. Da gibt’s eine richtige Agentur, da kannst du das kaufen. Da kannst du dann 1000 Follower kaufen für deinen Twitter-Account und schlimmsten Fall versuchen sie dann auch noch die öffentliche Meinung zu beeinflussen. Das hatten wir gerade das Thema bei den US-Wahlen. Das kommt eben auch durch Bots zustande. #00:10:35.3#

Maik Bruns: Jetzt sind natürlich viele Bots, hast du ja schon gesagt, grundsätzlich erstmal sinnvoll, also die Search Engine Bots sind natürlich irgendwo haben einen Zweck, den wir auch gutheißen in der Regel. Oder so Tools wie Sistrix, die ja auch mit Bots über die Seiten mitunter rennen. #00:10:47.8#

Christian Gust: Genau. #00:10:48.0#

Maik Bruns: Oder andere Optimierungstools wie RYTE, auch das sind ja irgendwo Programme, die erstmal irgendeinen Zweck erfüllen. Die Frage ist natürlich, inwieweit die uns dann in unserer Webanalyse irgendwie beeinflussen? Weil da müssen wir vielleicht noch mal eine Abgrenzung zu treffen, was tut denn ein Bot, was ein normaler Nutzer tut oder was tut denn ein Bot, was ein normaler Nutzer vielleicht nicht tut? Was zeichnet so Besucher aus? #00:11:12.1#

Christian Gust: Ich glaube, du hast es schon angesprochen, wir haben durchaus ein Problem mit Bots in dem Sinne, dass sie eventuell unsere Daten verunreinigen. Das heißt, wir wollen ja eigentlich Analysen machen basierend auf den Daten von den echten Nutzern unserer Produkte unserer Webseite. Und wenn im schlimmsten Fall tatsächlich da auch Bot-Traffic mit drunter ist, was der Fall ist, dann müssen wir die natürlich gut erkennen und isolieren. Ansonsten hilft uns das nicht. Was da eben erstmal ganz klassisch hilft, ist zu verstehen, welchen Zweck können Bots haben? Denn anhand des Purpose von einem Bot kannst du halt ein Verhalten ableiten. Bestimmte Dinge, das ist richtig, tun bestimmte Bots, die Kunden eher nicht tun würden oder auch gar nicht in der Lage sind zu tun. Dann gibt’s aber eben noch das große Feld von Bots, die ziemlich gut darin sind so zu tun als wären sie ein Kunde. Denn viele Bots, gerade die schlechten Bots, wollen ja gar nicht, dass man sie erkennt, weil dann könnte man ja Gegenmaßnahmen ergreifen. Das ist dann auch deutlich schwieriger an der ganzen Stelle. Da kann man aber auch einiges machen. Aber was man auch nicht unterschätzen darf neben der Verunreinigung von deinen Daten an sich, ist es auch, dass Bots ein Kostentreiber sind am Ende des Tages, denn der ganze Traffic, der auf deine Internetseite kommt und das sind halt eben laut Studien im Durchschnitt zwischen 40 und 60 Prozent des Traffics, je nachdem wie groß deine (unv. #00:12:30.7#) sind, die musst du ja auch bezahlen. Der ganze Bot-Traffic, der muss ja prozessiert werden, du musst dafür Serverinstanzen zur Verfügung stellen, du musst den Datentransfer bezahlen, du musst den Storage der Daten bezahlen, und das ist bei guten Bots eventuell noch gerechtfertigt, weil du profitierst davon, aber wenigstens bei den schlechten Bots, die möchtest du ja am liebsten gar nicht mehr, dass du überhaupt noch was für die bezahlst. Das heißt, neben der Tatsache, dass die schlechten Bots ja auch noch etwas Böses tun mit deiner Webseite, kosten sie dich auch noch obendrauf Geld und du bezahlst dafür. Deswegen ist eben so eine Bot-Erkennung so ein ganz wichtiges Thema an der ganzen Stelle. Da gibt’s eben die Möglichkeit zu versuchen zu verstehen, okay, was würde ein Mensch eher nicht tun und was würde eher ein Bot tun? Da kommt es eben drauf an, welche Datengrundlage man hat, auf die man hier zugreifen kann. #00:13:17.2#

Maik Bruns: Da müssen wir natürlich noch mal überlegen, wie funktioniert denn so ein Bot-Traffic grundsätzlich? Das heißt, so ein Programm, das kann ja in der Regel, wenn es zum Beispiel auch ein Browser hat, auch selber eine Seite quasi besuchen und so tun als wäre es ein Besucher. #00:13:33.6#

Christian Gust: Ja. #00:13:34.0#

Maik Bruns: Und dann gibt es natürlich noch diesen anderen Fall, wo zum Beispiel, ohne dass die Website jemals betreten wird, zumindest in den Webanalyse-Daten auch Daten auftauchen, die ja quasi auch von Robotern auftauchen, die gar nicht durch einen Echt-Besuch entstanden sind, sondern über das Measurement Protocol. Also das wird jetzt zum Beispiel nicht jedem was sagen, aber grundsätzlich für alle Hörer da draußen, die noch nichts mit Measurement Protocol anfangen können, das ist eigentlich nichts anderes als, dass irgendwer eine URL aufruft, wo vorne Google Analytics drinsteht zum Beispiel, dahinter ganz viele Parameter und wenn er diese URL abschickt in seinem eigenen Browser oder mit einem Programm oder wie auch immer, dann taucht quasi in Analytics ein Treffer auf, ein Pseudo-Seitenbesuch oder ein Pseudo-Ereignis, was auch immer, der nie bei euch auf der Website echt stattgefunden, aber in Analytics würde so getan als ist das so. Das ist ja noch so eine zusätzliche Instanz, die wir auch noch sehen können. Das heißt, also entweder besuchen die tatsächlich die Seite oder die feuern von außen irgendwas da drauf. #00:14:31.8#

Maik Bruns: Genau. Das stimmt. Und beim Measurement Protocol ist es so, das nutzen ja nicht nur Bots an sich, das kann man ja selber auch benutzen, das hat ja durchaus Vorteile. Also es ist ja eben die Art und Weise, wie man nicht durch den Browser selbst einen Request an GA schickt, sondern von seinen eigenen Servern aus und da gibt’s ja berechtigte Use-Cases, wo man das selber auch machen möchte. #00:14:50.3#

Christian Gust: Absolut. #00:14:50.9#

Maik Bruns: Also ein gutes klassisches Beispiel, was ich immer wiedersehe, ist zum Beispiel bei irgendwelchen Bestellungen, die abgegeben werden, wo es eine externe Bezahlmethode gibt, sei es PayPal zum Beispiel. Das heißt, was du noch tracken kannst auf deiner Webseite, ist, dass der Kunde gesagt hat, ich möchte jetzt kaufen, aber ob der Kunde tatsächlich auch danach mit PayPal bezahlt hat, das weißt du nicht mehr, weil es ja nicht mehr auf deiner Internetseite stattfindet, das ist ja auf einer anderen Seite mittlerweile. Aber schlussendlich weißt du das hoffentlich in deinem Datawarehouse am Ende des Tages, weil die Order sollte ja, wenn sie wirklich bezahlt, über PayPal auch wirklich prozessiert werden von dir. Das ist so ein klassisches Beispiel, wo du sagst, okay, und für die Fälle schicke ich dann die Order, das Order-Event an GA eben Server-to-Server über das Measurement Protocol statt das aus dem Browser zu tun. Hier ist schon mal die hohe Kunst dafür sicherzustellen, dass dieser Traffic, der von dir selbst geschickt wird, nicht auch aussieht wie ein Bot-Traffic, der von sonst wo kommen könnte. Das ist auch insofern wichtig, weil natürlich Google Analytics selbst auch eine Bot-Erkennung. Viele kennen das sicherlich, in den Account-Einstellungen gibt’s ja da diesen Wortfilter, den man aktivieren kann und da muss man aber aufpassen, dass man nicht selber seine eigenen Requests rausschmeißt am Ende des Tages. Was (unv. #00:16:00.1# ) passieren kann, und da gibt’s zwei Dinge, die man beachten muss, sollte man das Measurement Protocol benutzen. Zum einen muss man die User IP-Adresse mitschicken, weil klassischerweise wird die IP-Adresse, wenn du sie nicht überschreibst mit der des Nutzers, eben die IP-Adresse deines Servers sein, das heißt irgendeine Data Center. Das ist genau das, was Bots halt auch ganz oft tun, was man ganz oft sieht. Damit ermöglichst du auch weiterhin Dislocation, mal davon abgesehen, weil die IP-Adresse wird ja für Google auch noch für andere Zwecke benutzt. Da gibt’s den Paramenter, der heißt UIP und den musst du halt setzen in deinem Measurement Protocols und da eben die IP-Adresse des tatsächlichen Nutzers mitschicken. Und das ist völlig unabhängig davon, ob du später die IP-Adresse anonymisieren lösst oder nicht, aber die muss gesetzt werden. #00:16:45.4#

Maik Bruns: Ja. Je echter desto besser. #00:16:48.0#

Christian Gust: Ja, genau, richtig, richtig. Und der zweite Punkt, der auch wichtig ist, ist den User Agent des Nutzers auch mitzuschicken. User Agent, da stehen ja ganz typische Informationen des Web Environments drin wie zum Beispiel welchen Browser du nutzt, in welcher Version, welche Auflösungen im Zweifelsfall und auch welches Gerät zum Beispiel verwendet wird. Und so einen User Agent würde es klassischerweise nicht geben in so einem Server Environment oder müsstest du einen Fake Useragent darstellen, das lässt sich natürlich schnell rausfinden. Insofern musst du auch hier den echten Nutzer, äh des Useragents des Nutzers mitschicken in dem Parameter UA. Das ist ehrlichgesagt nicht so gut dokumentiert, muss ich sagen. (unv. #00:17:24.9#) hat vielleicht auch seinen Sinn, dass Google das nicht so gut dokumentiert. #00:17:27.9#

Maik Bruns: Ich denke, auch. (unv. #00:17:29.5#) #00:17:27.8#

Christian Gust: Aber am Ende des Tages ist es tatsächlich, wenn man so ein Setup hat, wo man sowohl Daten übers Frontend schickt als auch eben Server to Server wie das Measurement Protocol und hier sicherstellen möchte, dass die Daten zumindest nicht an erster Hand sofort als Bot erkannt werden, sind das zum Beispiel zwei Dinge, die du tun musst. Das gibt dir immer noch keine hundertprozentige Sicherheit, denn auch Bot-Betreiber im Zweifelsfall wissen das oder können das tun, aber das macht es zumindest einfacher an der Stelle. #00:17:51.6#

Maik Bruns: Wie können wir denn jetzt erkennen, dass es sich Bot-Traffic handelt? Also gibt’s da so bestimmte Dinge, wo du sagst, ja, das ist eindeutig zum Beispiel, ich meine, Klassiker ist ja sowas wie Traffic Peaks, also das heißt, es gibt dann so von heute auf morgen irgendwie die zehnfache Menge an Treffern oder so und solche Dinge. Was fällt dir sonst noch ein? #00:18:11.5#

Christian Gust: Genau. Also es gibt ein paar Sachen, die sind relativ eindeutig, dass es von Bots kommen kann, ein paar sind eher, ich nenne das immer Signale, wo ich denke so, das ist ein Hinweis und dann versucht man am besten noch weitere Signale zu finden und dann ist eine Kombination von verschiedenen Signalen schon ein Hinweis dafür, dass es sich mit hoher Wahrscheinlichkeit um einen Bot geht. Relativ einfach, was man machen kann, ist erstmal, wenn man einen Traffic-Anstieg feststellt aus komischen geographischen Regionen, von denen man keinen Traffic eigentlich erwartet, wenn man jetzt zum Beispiel nur seinen Service in Deutschland anbietet und plötzlich hat man hohe Zugriffszahlen aus Bolivien, dann sollte einem das komisch vorkommen in irgendeiner Art und Weise. Und dann am besten noch gleich mal schauen, ob das nicht nur aus einer einzelnen Stadt aus Bolivien kommt, und dann bist du dir schon ziemlich sicher, okay, das werden wahrscheinlich nicht echte Nutzer sein am Ende des Tages. Auch eben ganz klassisch eben der Traffic aus den Data Centers, wir hatten es gerade schon mit der IP-Adresse. In Google Analytics kann man das nutzen, ich glaube das nennt sich Service-Provider, genau, und Big Query nennt sich das Network Domain. Für normale Kunden steht da eben der Internetanbieter drinnen wie, weiß nicht, Telekom zum Beispiel oder Vodafone, solche Daten, aber für Bots, die benutzen ja ganz oft Data Centers, wo sie gehostet sind. Also sowas wie Amazon Web Services, kennt man vielleicht. Und dann findet man eben genau solche Einträge da drinnen. Das funktioniert auch, wenn man seine IP Adresse anonymisieren lässt übrigens bei Google, weil das Resolvement, diese Auflösung von IP-Adresse zur ISP findet statt noch bevor die IP-Adresse von Google anonymisiert wird. Also das ist kein Hindernis an der ganzen Stelle. Trotzdem natürlich keine hundertprozentige Garantie, denn auch Bots sind eben in der Lage das zu verschleiern und ihre IP-Adresse zu verschleiern. Aber trotzdem das machen nicht alle Bots und deswegen kann man auch das erstmal probieren, das ist relativ einfach auch diesen Schritt zu gehen. Was auch ganz gut funktioniert (unv. #00:20:02.1#), ist sich die Bildschirmauflösung mal anzuschauen, und wenn man da so merkwürdige Werte drin findet wie zum Beispiel 10 x 10 Pixel, ist sehr unwahrscheinlich, dass das ein User ist, der noch in der Lage ist seine Website zu benutzen in der Auflösung. Solange man sichergestellt hat, dass man die Bildschirmauflösung richtig trackt auf seiner Seite, könnte das ein guter Hinweis sein dafür, dass es eher von einem Browser kommt. Das muss man immer noch mal mit sagen. #00:20:23.5#

Maik Bruns: Ja. Oder jemand, der sehr schlecht lesen kann. #00:20:25.1#

Christian Gust: Ja, genau. Was auch funktioniert, das ist immer ganz schön mal anzusehen, wenn man sich die Browserversionen mal anschaut. Es gibt die sogenannten Out-of-date Browsers, das sind Browser, eine Browser-Version vor allem, die kein echter Kunde mehr benutzen kann, weil die überhaupt nicht mehr supportet werden an irgendeiner Stelle. Die gibt’s eigentlich gar nicht mehr, die kann kein echter Kunde mehr benutzen. Ein klassisches Beispiel ist hier der Internet Explorer 5. Der feiert gerade sein 20-jähriges sozusagen Jubiläum und den kann halt kein Kunde mehr nutzen, den könnte auch keiner mehr öffnen und die kann schon gar nicht einer noch nutzen, um deine Internetseite zu verwenden. Aber bei Bots kommt das durchaus vor. Warum? Weil das zum Beispiel sehr alte Bots sind, die zum Beispiel nie geupdated wurden an irgendeiner Art und Weise, die auch nie mal, diese Useragent-Verschleierung-Technologie, die die haben, geupdated wurde auf eine neuere Browserversion, die teilweise auch außer Kontrolle geraten sind an irgendeinem Punkt mal und einfach nur noch das Internet ziellos durchforsten und ab und zu vielleicht mal auf deiner Seite landen. Das kann durchaus noch ein guter Hinweis sein. Was ich persönlich immer noch sehr empfehle, ist, den User Agent selber noch mal mit zu tracken. Weil den User Agent, den kann man im Frontend ja auslesen in der Zeit und selber noch mal mitschicken am besten in einer Custom Dimension, weil der ist ein bisschen länger vom String her, und dann kann man den eben auch noch mal analysieren. Das hilft ungemein, insbesondere bei den guten Bots. Denn gute Bots, ein klassisches Beispiel, Merkmal von denen ist eben, dass sie sich selber zu erkennen geben, dass sie Bots sind und in der Regel machen sie das über die User Agent. Das heißt da gibt’s dann einen Eintrag, wo zum Beispiel für den Google Search Bot drinnen steht Googlebot. Für den Bing Bot heißt es eben Bingbot und im Internet findet man eine ganze Menge Libraries, die einmal ermöglichen so einen Lookup zu machen. Da sind es dann hunderte oder tausende von Einträgen von User Agents, User Agent Werten, über die sich eben solche Bots erkennen lassen, die guten Bots. Und das kann unglaublich helfen. #00:22:18.3#

Maik Bruns: Das sind auf jeden Fall schon mal so harte Werte, wo man es direkt sehen kann. #00:22:22.7#

Christian Gust: Also wo es ziemlich eindeutig ist. Man wird damit aber nicht, das wird nicht reichen am Ende des Tages. Das ist ein guter Anfang, aber das wird nicht reichen, um alle Bots zu erkennen. Was man auch machen sollte, ist, man sollte sich das Verhalten noch mal genauer anschauen. Wie gesagt, man muss verstehen, was Bots erreichen wollen, um ein Verhalten daraus ablesen zu können und Muster zu finden. Was zum Beispiel ganz interessant ist, man kann sich mal User anschauen, wenn man jetzt Traffic identifiziert hat, ein Segment gebildet hat aus Traffic, der einem irgendwie komisch vorkommt und man sucht jetzt noch nach Möglichkeiten, um zu gucken, ist es ein Bot oder nicht, kann man sich für diese User einmal anschauen, wie viele User Agent Einträge es gibt für einen User. Eigentlich dürfte ein User nicht sehr viele User Agent Einträge haben, aber wenn der gleiche Kunde, gleiche User, plötzlich einmal in einer Session von einem Chrome-Browser kommt auf einem Laptop und beim nächsten vom Safari Browser aus dem iPhone, aber die gleiche User ID hat, dann ist da irgendwas nicht ganz richtig an der ganzen Stelle. Also wir reden hier von der Client ID, (unv. #00:23:23.4#) User klassisch in einem GA Term, auch die, wenn man mal ein Verhältnis erstellt zwischen der Session-Dauer und der Anzahl der aufgerufenen Seiten, wenn man so einen klassischen Bot hat, zum Beispiel so einen Data Harvester, der auf die Produktdetailseiten geht und eben die Preise auslesen möchte von dir, na ja, wenn der halt das schafft in einer Minute 500 Seiten aufzurufen, das wird ein normaler User halt nicht hinbekommen an der ganzen Stelle. Also auch grundsätzlich Hits pro User, das ist ein ganz guter Hinweis an der ganzen Stelle. Aber genauso auch andersrum, die Anzahl an Sessions, die eine ganz geringe Anzahl von Pageviews, haben oftmals nur einen. Denn was Bots ganz oft tun, sie resetten ihre Cookies, sie löschen also ihre Cookies jedes Mal bevor sie zur nächsten Seite weitergehen. Was natürlich ein bisschen nervig ist, weil sie jedes Mal eine neue Client ID erstellen, aber damit auch eine neue Session beginnt in Google Analytics. Da ist ein ganz kleiner Hinweis, ein Anstieg der Bounce Rate, weil sie ja nur eine Seite besuchen, bevor sie wieder weiternavigieren und eine neue Session starten und natürlich ein Anstieg dann an New Users. Also, wenn man so ein Segment mal gebildet hat, wo man sich nicht sicher ist, ist es Bot-Traffic oder nicht, mal sich die Bounce Rate anschauen und die ins Verhältnis von New Users, gibt einen ganz guten Hinweis ganz oft dafür. Was dann auch nochmal ganz interessant sein kann, wenn man das schon trackt, ist die Anzahl an nicht erfolgreichen Login-Versuchen oder nicht erfolgreichen Versuchen eine Gutscheinkarte oder sowas einzulösen. Man sollte das sowieso tracken, um zu schauen, wie gut die Seite funktioniert und ob es da nicht irgendwelche Probleme gibt. Und ein Anstieg dieser Events, gerade in so einem Segment, im verdächtigen Segment, kann eben ein guter Hinweis darauf sein. Oh, da handelt es sich um einen Bot, der eben versucht persönliche Daten abzugreifen oder hier Fake Orders abzugeben. Und last but not least, was ich auch noch ganz interessant finde, ist, man könnte versuchen auf seiner Seite einen Link einzubauen, der eigentlich nur über den Source Code oder den Quellcode der Seite verfügbar ist, also der hat gar keine wirkliche visuelle Repräsentation auf deiner Seite. #00:25:23.7#

Maik Bruns: Klassischer Honeypot quasi. #00:25:25.1#

Christian Gust: Genau. Und dann mal schauen, wie viele Besucher man auf diese Seite bekommt und wer so die Seite besucht. Und ganz auch schöne Beobachtung auch, der Bot-Traffic ist vor allen Dingen nachts besonders hoch der Anteil. Warum? Weil die Bots halt nicht schlafen müssen, die Kunden müssen das halt schon irgendwann mal. Man kennt das, man hat irgendwann so eine abfallende Kurve so wahrscheinlich um Mitternacht, 1 Uhr oder so spätestens, dann hat man so eine Talsohle und dann geht’s dann irgendwann am nächsten Morgen wahrscheinlich um 8 Uhr oder um 10 Uhr dann irgendwann wieder nach oben. Trotzdem hat man dann immer noch so ein bisschen Grund-Traffic, der nachts so durchrauscht und man fragt sich manchmal so, wer sind so die Leute, die meine Webseite so um 4 Uhr morgens besuchen? Das sind vielleicht im Zweifelsfall gar keine Menschen, sondern im großen Umfang halt Bots, weil Bots kennen keine Uhrzeit, Bots besuchen Seiten auch sehr regelmäßig. Auch noch mal ein guter Hinweis, eben so eine Regelmäßigkeit in den Daten zu finden, und vor allen Dingen, die mögen das auch, wenn nachts Websites zu besuchen, weil da wenig anderer Traffic drauf ist. Das heißt, die Websites sind sehr, sehr schnell auch darin ihre Anfragen zu bearbeiten, was den Bots sehr gut gefällt, weil sie wollen ja möglichst in kurzer Zeit möglichst viele Seiten besuchen. Deswegen sind sie gerade gerne auch mal nachts unterwegs. Also gerade, wenn man mal explorativ auf der Suche ist und sagt, ich will mal gucken, wie viel Bot-Traffic ich habe und ich finde gerade nichts, guckt man sich noch mal genauer das an, was so nachts passiert auf seiner Webseite. #00:26:43.7#

Maik Bruns: Ja, das sind schon einige Indikatoren. Also ich habe zum Beispiel auch häufiger mal festgestellt, es gibt auch Bots, die zum Beispiel jeden Tag immer eine konstante Anzahl an Abrufen machen. Das heißt, wenn du die isolierst, dann siehst du jeden Tag irgendwie, der hat jeden Tag 10 Seiten abgerufen so ungefähr. Oder eben dieses, viele Seiten in kurzer Zeit abzurufen. Aber manchmal eben auch, dass Bots vielleicht nur ganz spezielle Zielerreichungen auch durchführen können überhaupt, weil alles andere gar nicht möglich ist oder es auch Bots gibt, die überhaupt gar keine Zielerreichung in ihrem Leben gemacht haben. Ich glaube, das Schwierige ist einfach irgendwo das Muster erstmal zu identifizieren. Jeder Bot kann im Prinzip ja anders unterwegs sein und andere Dinge tun. #00:27:21.7#

Christian Gust: Absolut. #00:27:22.1#

Maik Bruns: Und da kommst du natürlich so als Product Specialist dann so ins Feld und musst dann irgendwie gucken so, wie kriege ich die denn hier isoliert und was mache ich denn jetzt mit denen überhaupt? Weil Datenqualität ist uns sehr wichtig. #00:27:35.8#

Christian Gust: Absolut. #00:27:36.3#

Maik Bruns: Das heißt, wir müssen ja zusehen, dass diese Daten idealerweise überhaupt nicht stattfinden. Um sie zum Nichtstattfinden zu bekommen, haben wir erstmal so zwei Möglichkeiten, nämlich irgendwie verhindern oder eben bereinigen. Wo setzt man da am besten an? Was ist so die ideale Voraussetzung dafür? #00:27:55.7#

Christian Gust: Genau. Da kommt es ein Stück weit drauf an, was man jetzt schon für eine Infrastruktur hat, mit der man arbeitet, inwieweit man in der Lage ist den Bot-Traffic vorab schon abzufangen. Aber ich gebe dir Recht, natürlich idealerweise kommt so ein Bot-Traffic ja gar nicht mehr bei dir an, entweder gar nicht mehr bei deinen Servern, das ist dann halt eben der schlechte Bot-Traffic, den du ja gar nicht mehr durchlassen möchtest, für den du ja auch nicht bezahlen willst am Ende des Tages, oder zumindest für die guten Bots oder die Bots, wo du dir nicht sicher bist, ob sie gut oder schlecht sind. Die lässt du vielleicht im Zweifelsfall noch durch, aber die willst du dann nicht mehr an dein Analyse-Tool, sei es Google Analytics oder was auch immer für ein Tool ist, mitschicken, die willst du aber auch nicht an deine Marketing-Tools mitschicken. Also eigentlich nirgendwohin, höchstens vielleicht ein internes Reporting würde ich noch machen an der Stelle. Was hilft, ist natürlich, wenn man die Möglichkeit hat so eine Art Gatekeeper einzurichten. Das heißt, bevor irgendein Request auf deinen Servern landet, muss der erstmal durch so einen Gatekeeper durch, so ein Router zum Beispiel. Das kann man sich vorstellen wie so ein Sieb. Jeder Request muss dadurch und bestimmte Requests bleiben halt hängen, weil du ein Regelwerk hast, das sagt, bestimmte Sachen lasse ich einfach nicht durch, weil ich das als Bot identifiziere und als Bot wahrnehme und das landet halt erstmal nirgendswo. Die Sachen, die durchgehen, wo du aber trotzdem festgestellt hast, okay, das Bot-Traffic, aber den will ich erstmal haben, weil es ist eben so ein Google-Bot, von dem ich ja profitiere, den musst du dann am besten markieren in irgendeiner Art und Weise. Da gibt’s mehrere Möglichkeiten, du könntest jetzt einen Cookie droppen zum Beispiel, wo dann irgendein drinsteht. Cookie Dropping ist nur wieder schwierig, weil Bots natürlich die Cookies auch gerne mal löschen oder verhindern, dass bestimmte Cookies gedroppt werden. Du könntest auch dem Event Header selbst einen Wert hinzufügen, also jedes Event, jeder Request hat eine Header-Information, wo so Meta-Informationen quasi drinstehen zu dem Request. Und da könnte man eben auch noch eine weitere Information hinzufügen und sagen, dieser Request kommt von einem Bot gemäß meiner Erkennung. Und dieser Request, der kann in späteren Prozessen downstream ausgelesen werden. Und dann kann man sich eben Regeln erstellen, wo man zum Beispiel im Google Tag Manager sagt, wenn dieser Cookie vorhanden ist, dann habe ich eine Blocking Rule implementiert, oder wenn dieser Event Value vorhanden ist, dann schreibe ich das entsprechend in meinen Data Layer rein und schicke es nicht ab oder ich lade schon gar nicht mehr in den Google Tag Manager, das wäre sogar noch bessere, eine Seite, dann wird schon gar nichts mehr getrackt in dem Moment. Grundsätzlich hilft aber da immer glaube ich ein systematisches Vorgehen, weil dieser Bot-Traffic ist grundsätzlich schon ein sehr komplexes Thema, auch ein teilweise sehr technisches Thema und was hilft, das ein bisschen strukturierter anzugehen. Ich unterteile immer grundsätzlich die Strategie hier in 4 verschiedene Schritte. Das erste ist tatsächlich das Erkennen von Bots. Da haben wir ja schon ein bisschen drüber gesprochen und das zweite ist das Klassifizieren von Bots, also guter Bot, schlechter Bot, unbekannter Bot, dann die Reaktion, da gibt’s auch verschiedene Möglichkeiten, wie man eben auf Bot-Traffic reagieren sollte und wann welche Reaktion sinnvoll ist. Und schlussendlich und das wird ganz gerne mal vergessen, auch das Reporting. Also nur den Bot-Traffic zu blockieren, aber keine Einsicht zu haben, wie oft man das tut, ist nicht besonders hilfreich am Ende des Tages. Ich (unv. #00:30:55.3#) hilfreich, um zu überstehen, wie effizient meine eigene Strategie eigentlich ist, aber auch im Zweifelsfall, um meine Strategie anzupassen und zu reagieren. Das kann zum Beispiel ganz nützlich sein, so ein Reporting zu haben, wenn man plötzlich feststellt, da gibt’s immer mehr Bots, die versuchen sich einzuloggen oder die Zugriff nehmen auf meine Login-Seite. Wenn das plötzlich durch die Decke geht bei einem und man das nicht mitbekommt, dann kann das durchaus ein Problem sein, weil das ist ein guter Hinweis dafür, dass die Login-Daten von meiner eigene Website irgendwo geleakt sind, im Darknet jetzt irgendwo rumschwirren. Und die hat sich dann halt jemand abgegriffen und versucht jetzt eben mit den gestohlenen Zugangsdaten eben noch weitere Daten abzuziehen von dieser (unv. #00:31:37.7# versucht sich einzuloggen jetzt und zum Beispiel eben das Geschlecht, das Geburtsdatum, die Adresse, die Kartenzahlen Daten et cetera raus zu lesen. Und deswegen ist so ein Reporting auch so wichtig, um zu verstehen, okay, was passiert mit dem Bot-Traffic auf meiner Seite und welche Trends mache ich gerade aus? #00:31:52.8#

Maik Bruns: Das ist sehr, sehr spannend. Nochmal ganz kurz zwischengegrätscht. Eigentlich die Frage lautet, also grundsätzlich kann ja nicht jeder Bot ein Analytics-Tracking ausführen. Was muss er dafür können? #00:32:06.4#

Christian Gust: Ja, das stimmt. Und ich höre das relativ oft, dass so ein bisschen die Leute sagen, naja, Bot ist eigentlich gar nicht so wirklich für uns ein Problem, weil die führen ja eh kein JavaScript aus und damit wird in der Regel auch kein Tracking ausgelöst. Das stimmt so nicht mehr ganz, eigentlich schon seit einer ganzen Weile nicht mehr. Da haben sich die Technologien einfach weiterentwickelt und es gibt auch noch Tracking-Möglichkeiten, wo kein JavaScript notwendig ist. Irgendwelchen Pixel einzubauen, um zu gucken, ob irgendein ein Teaser, ein Banner angezeigt wurde, dafür braucht man nicht mehr JavaScript. Also das Problem lässt sich so leicht nicht abschreiben. Man unterscheidet hier die Bots in 3 verschiedene Entwicklungsstufen. Es gibt einmal die ganz, ganz einfachen Bots. Die haben auch nur eine einzige IP-Adresse und die verbinden sich eben mit den Webseiten über irgendwelche automatisierten Scripts, die benutzen auch keinen Browser und die versuchen auch keinen Browser zu imitieren. Die sind in der Regel eher nicht das Problem und die machen ungefähr nach Studienlage sagt man so, etwa ein Viertel aller Bots noch aus, die es gibt auf der Welt. Aber schon mehr als die Hälfte der Bots benutzt sogenannte Headless Browser. Das sind also Browser, die auf Data Centers, also auf einem Server ausgeführt werden, die kein User Interface haben. Also das heißt, von einem echten Menschen könnten sie nicht benutzt werden, sondern die werden nur über Code tatsächlich benutzt, aber sind in der Lage Browserverhalten damit zu simulieren. Und sie sind auch in der Lage JavaScript auszuführen. Sie ändern ständig ihre IP-Adressen, sie ändern ständig ihre User Agents und sie löschen ständig ihre Cookies, und damit ändern sie auch ihre Client IDs für deine Analytics Tools. Und dann sagt man noch mal ungefähr, 20 bis 25 Prozent sind dann besonders fortschrittlich von den Bots, die sind auch besonders schwer zu erkennen, denn die sind sogar in der Lage die Cursor Movements nach zu imitieren und wirklich menschliches Browserverhalten zu imitieren. Zum Beispiel verzögern sie die Requests künstlich. Dann funktioniert nicht mehr diese Erkennungsregel von soundso viele Requests pro Minute sind unauffällig. Sie wollen halt unter einem gewissen Request damit bleiben und sie nutzen zum Teil sogar echte Browser dafür. Wenn zum Beispiel Kunden in ihrem Browser eine Schadsoftware installiert haben, zum Beispiel irgendein Plugin, was nicht so ganz vertrauenswürdig ist, dann kann dieses Plugin eben auch im Hintergrund noch echte Websites aufrufen, ohne dass man das mitbekommt, und dann wird es besonders schwierig diesen Bot noch zu erkennen. #00:34:19.9#

Maik Bruns: Ich hätte nicht gedacht, dass schon 25 Prozent diese Advanced-Klasse quasi schon haben. Das ist ja wirklich schon eine ganze Menge. Und gerade bei der Anzahl der Browser oder bei der Anzahl der Bots, die existieren, muss man ja schon Datenqualitätsprobleme überall eigentlich befürchten. #00:34:36.1#

Christian Gust: Muss man eigentlich am Ende des Tages. Das Problem ist einfach, das kann man nicht mehr wegignorieren mittlerweile und man muss sich drum kümmern. Und Gott sei Dank kann man ja verschiedene Dinge machen, manche Sachen sind relativ einfach, andere da wird es schon komplexer. Aber vielleicht, was man auch noch mal verstehen muss, ist diese Verteilung, auch gerade die Verteilung der sehr fortschrittlichen Bots ist unterschiedlich, je nachdem ich sag mal so, in welchem Industriesegment man sich bewegt. Also man weiß zumindest, was so Studien zeigen, dass besonders die fortschrittlichen Bots besonders im E-Commerce Bereich unterwegs sind. Warum? Weil sich hier natürlich sehr viel Geld verdienen lässt und auch sehr viel Schaden anrichten lässt im Zweifelsfall und da auch ein großer Konkurrenzdruck ist. Dann wird es halt wirklich interessant, welche technischen Methoden hat man noch diese Bots zu erkennen, im besten Fall schon vorzeitig zu erkennen. Wie gesagt, wenn man so einen Gatekeeper hat im besten Fall, der vorab schon vor der eigenen Infrastruktur liegt, dann kann man all diese Mechanismen, all diese Signale, über die wir schon gesprochen haben, die man auch in den Google Analytics Daten nachvollziehen kann, kann man natürlich da auch schon einbauen im Moment. Da auch schon schauen, aus welcher Location kommt das. Dann gibt’s zum Beispiel die Möglichkeit ein sogenanntes Geofencing zu machen. Das heißt, man lässt bestimmten Traffic, der von bestimmten Ländern kommt, einfach gar nicht mehr durch. Man sagt halt, alle Leute, die aus Bolivien eben kommen, die haben einfach grundsätzlich gar keinen Zugriff mehr auf meine Webseite. Punkt, aus, Ende. Das hat natürlich immer so ein bisschen Gefahr, ich muss dann gucken, wenn Leute dann gerade Urlaub machen irgendwo und dann vielleicht doch mal die Seite nutzen wollen, da können schon noch valide User Requests dahinter sein. Und wie gesagt, Bots haben auch die Möglichkeit ihre IP-Adressen zu faken, aber macht es den Bots auf jeden Fall schwieriger und das ist grundsätzlich ein Ansatz, den man fahren muss. Man muss es ihnen so schwierig wie möglich machen. Man wird keine hundertprozentige Garantie bekommen. #00:36:18.4#

Maik Bruns: Das Gefühl habe ich auch immer wieder. Also es war ja auch eine Weile so, zum Beispiel es gab ja auch viel Spam-Traffic in Google Analytics, das muss nicht unbedingt ein Bot gewesen sein, das kann ja auch sonst irgendwas gewesen sein, was da seine Spuren hinterlässt, aber das war halt ewiges Katz-und-Maus-Spiel. #00:36:34.0#

Christian Gust: Ist es. Ja. #00:36:34.9#

Maik Bruns: Das bleibt’s auch. #00:36:36.4#

Christian Gust: Das ist so ein klassisches Kopf-an-Kopf-Rennen, was man auch so vom Google Search Algorithmus und SEO halt kennt, wo man auch versucht natürlich seine Seite zu optimieren, damit der Algorithmus einem eine möglichst gute Bewertung gibt, und dann wird der Algorithmus irgendwann angepasst oder Dinge entwickeln sich weiter und dann muss man sich auch wieder anpassen an der ganzen Stelle und so ist es hier auch. Aber man hat natürlich mit so einer Lösung wie einem Gatekeeper, einer technischen Lösung, auch noch weitere Möglichkeiten, die man nicht hat, wenn man nur auf die Daten selbst schaut. Also man kann zum Beispiel hier versuchen zu analysieren, ob der Rest von einem Headless Browser kommt, also welches JavaScript Framework wird zum Beispiel verwendet. Ist es zum Beispiel PhantomJS, ganz klassisch, was beim Headless Browser verwendet wird? Ist JavaScript deaktiviert? Auch ein interessantes Thema. Dann kann man sich mal anschauen, ist immer noch ein valider Punkt, die wenigsten User haben ihr JavaScript deaktiviert, wahrscheinlich so gut wie niemand mehr heutzutage, Bots aber immer noch wie gesagt zu einer gewissen Prozentzahl. Device Fingerprinting, ein anderes Thema. Auch zur besseren User-Bot-Erkennung, denn wie gesagt, Bots löschen sehr gerne ihre Cookies und dann wird es schwieriger sie nachzuvollziehen, sie nachzuverfolgen. Mit einem Device Fingerprinting wird es einfacher. Aber Obacht, GDPR, Device Fingerprinting ist nicht gerne gesehen und da muss man schon ein klares Business Interesse haben, das hier die Rechte der User abwiegt quasi. Ich glaube aber, das ist durchaus gegeben. Bei einer Bot-Erkennung ist das durchaus gegeben, wenn man sagt, man möchte ja hier eigentlich auch sein eigenes Unternehmen und auch die Daten der Kunden besser schützen durch so ein Device fingerprinting mit dem Ziel der Bot-Erkennung. Man muss das allerdings dann aber auch entsprechend kommunizieren und auch in seiner Datenschutzerklärung zum Beispiel sichtbar machen. Und man darf natürlich das Device Fingerprinting dann nur für die Bot-Erkennung benutzen und nicht für irgendwas anderes noch. Keinen Cross Device Graph erstellen damit oder sowas in der Richtung. #00:38:20.4#

Maik Bruns: Aber in der Regel ist das alles ja auch, so ein Gatekeeper, der wird das in der Regel über Regeln auch machen, denke ich mal. #00:38:26.6#

Christian Gust: Ja. #00:38:27.0#

Maik Bruns: Also es steckt jetzt irgendwie keine künstliche Intelligenz dahinter, die dann irgendwo schon die Muster von sich aus komplett erkennt und die das irgendwie für ein merkwürdiges Verhalten hält, die vielleicht Cluster bilden kann und so weiter. #00:38:36.5#

Christian Gust: Gibt es auch, also kann man auch machen. #00:38:39.1#

Maik Bruns: Okay. Ja. #00:38:39.6#

Christian Gust: Ist die Frage, ob man dazu in der Lage ist tatsächlich eben hier Machine Learning und künstliche Intelligenz tatsächlich zu verwenden. Anomalie Detection ist so ein ganz klassisches Beispiel, was man auch aus anderen Gründen vielleicht auch in der Firma schon verwendet. Es gibt ja auch andere Use Cases für Anomalie Detection. Und wenn es das schon gibt in der Firma, dann ist Bot-Erkennung ein klassisches Beispiel, wo man das auch nutzen könnte. Also es geht ja nicht immer nur darum zu schauen, man muss was komplett Neues bauen. Viele Unternehmen haben vielleicht auch schon Router an irgendeiner Stelle, nutzen den aber nicht als einen Gatekeeper, sondern eben für andere Zwecke aktuell, um das Routing eben zu optimieren. Man muss immer schauen, habe ich vielleicht schon eine Infrastruktur, auf der ich aufbauen kann? Oder ich muss ja nicht immer alles neu erfinden an der ganzen Stelle. #00:39:21.0#

Maik Bruns: Gut. Das sind jetzt die Dinge, die wir tun können, bevor der Traffic bei uns aufschlägt quasi. Wir setzen einen Gatekeeper davor und geben ihm zig Millionen Regeln mit, die wir stetig erweitern natürlich. Dann gibt’s natürlich noch die andere Sicht, das heißt, was könnten wir in Webanalyse-Tools tun, um möglicherweise bereits vorhanden Fake-Traffic oder Bot-Traffic noch mal auf ein Minimum zu reduzieren oder dort auch vielleicht zu verhindern oder zu löschen, wenn es irgendwie geht? Ist ja in vielen Fällen gar nicht möglich, aber was könnten wir da tun? #00:39:55.6#

Christian Gust: Das stimmt. Also es ist erstmal ganz nützlich, wenn man Zugang hat zu den Rohdaten. Also bei Google Analytics, wenn man sich damit beschäftigt, Big Query, dass man die Rohdaten in Big Query eben hat, um dann entsprechend auf die Daten irgendwie einwirken zu können, ist ziemlich hilfreich an der ganzen Stelle. Man wendet eben diese Regeln, die man jetzt für einen Gatekeeper hätte, auch dort an, man versucht sie dort zu etablieren, wenn man es kann. Man hat dann bestimmte Grenzen, aber vieles kann man auch dort machen schon. Dann geht es darum, eben diese Session-Tabellen zu bereinigen und dann am besten den Analysten im Unternehmen nur noch diesen Zugang zu geben zu den bereinigten Session-Tabellen, die dann eben diese Tabellen benutzen für Analysen. Aber jetzt ist immer die Frage, was ist eigentlich dein Reporting Interface am Ende des Tages? Denn wenn du das Google Analytics Interface benutzt hauptsächlich, dann werden überreichte Tabellen in Big Query wahrscheinlich wenig helfen. #00:40:49.9#

Maik Bruns: Exakt. #00:40:51.0#

Christian Gust: Und das ist so ein bisschen die Schwierigkeit. Manchmal hast du auch beides. Es gibt ja Kunden, die haben ein Google Analytics Interface und Data Studio, ist ja auch berechtigt. Und dann benutzt Data Studio im Zweifelsfall natürlich die bereinigten Session-Tabellen in Big Query und das GA Interface nutzen auch die unbereinigten und dann passen die Daten natürlich überhaupt nicht mehr zusammen, und dann gibt’s ein großes Chaos und jeder fragt sich, was ist denn jetzt die wirkliche Wahrheit? Was man da versuchen kann natürlich, im GA Interface entweder mit Segmenten zu arbeiten, hat aber auch den Nachteil, man muss jedem erklären, dass sie nicht das Standard-Segment All Users verwenden können, sondern eben ein spezielles Segment, und auch Segmente haben irgendwo ihre Limitations, wie viele Regeln du da implementieren kannst. Oder was eine bessere Alternative sicherlich sein wird, ist dort mit Filtern zu arbeiten. Aber auch hier wieder die Vorsicht, man kann viel kaputtmachen auch mit den Filtern. Deswegen ist es da auch eine Empfehlung, immer nochmal zu schauen, möchte ich nicht auch noch einmal eine Property haben oder einen View haben, wo es unfiltered ist und ein View mindestens, wo es gefiltert ist, um im Zweifelsfall auch nochmal einen Abgleich zu machen. Ja, es ist gefährlich zum Beispiel einfach pauschal sämtlichen Traffic, der nicht außerhalb deines eigenen Landes kommt, in dem du den Service anbietest, einfach pauschal zu blockieren … #00:42:02.4#

Maik Bruns: Ja. #00:42:02.9#

Christian Gust: … und zu sagen, das ist kein gültiger Traffic. Zum Beispiel gerade an den Grenzen ist die Zuordnung von IP-Adressen zu Regionen nicht mehr ganz eindeutig, und wenn jemand in Frankfurt/Oder lebt zum Beispiel, kann der Traffic auch mal als polnisch geflaggt sein. #00:42:19.3#

Maik Bruns: Oder wenn du nur bestimmte Browser zulässt und Google vielleicht bestimmte Browserversionen sogar nur zulässt, dann kommt eine neue Browserversion und dann stehst du da. #00:42:28.8#

Christian Gust: Genau. Ja. #00:42:30.2#

Maik Bruns: Sowas wie Safari zum Beispiel, und plötzlich stehst du da und hast weniger Traffic und weißt gar nicht so richtig, warum. Also da muss man tatsächlich mit Filtern sehr vorsichtig sein. #00:42:38.9#

Christian Gust: Ja. Musst du auf jeden Fall. Und du musst eine sehr gute Dokumentation haben. Das ist unglaublich wichtig, weil wahrscheinlich bist du ja nicht die einzige Person im Unternehmen, die mit den Zahlen arbeitet, weder von der Analyse-Seite her, aber auch nicht mit den Zahlen umgeht, um zum Beispiel Entscheidungen zu treffen. Und deswegen ist es sehr wichtig, dass man hier auch eine gute Dokumentation hat und alle Leute klar informiert, was man mit den Zahlen getan hat, bevor man selber dazu Zugang bekommt und sie eben für Analyse und Entscheidungen treffen verwendet. Und wo man auch ein bisschen vorsichtig sein muss, ist, was ist mit Zahlen, die du vielleicht schon öffentlich kommuniziert hast? Das gibt’s ja auch, manchmal muss man auch bestimmte Zahlen öffentlich kommunizieren, aber andere Sachen, da gibt’s ja auch manchmal auch eine Pressemitteilung vielleicht, die ein paar Mal rausgeht im Jahr, und sagt, wir haben irgendwie einen neuen Besucherrekord auf der Webseite gehabt und soundso viele Visits gehabt, und dann fängt man an plötzlich mit der Bot-Bereinigung, am besten noch natürlich historisch gesehen, und dann plötzlich ändern sich die Zahlen und dann ist es plötzlich sehr viel weniger geworden. #00:43:35.7#

Maik Bruns: Ja, das ist unglücklich. #00:43:36.7#

Christian Gust: Und dann fängt man aber … #00:43:37.6#

Maik Bruns: Steckt nicht das Vertrauen in die Daten. #00:43:38.9#

Christian Gust: Nee, tatsächlich nicht. Aber trotzdem sollte einen das ja nicht hindern daran plötzlich die Daten zu bereinigen. Nur muss man halt eben so eine Backwards-Kompatibilität haben in dem Moment, denn man hat jetzt Daten kommuniziert in der Öffentlichkeit und wenn man jetzt das nächste Mal diese Daten kommuniziert und die plötzlich geringer und man spricht aber wieder von einem Anstieg des Traffic, dann wirft es in Zweifelsfall Fragen auf. Da muss man halt einmal sagen, wirklich in die Richtung gehen und kommunizieren, wir haben einfach eine neue Art der Messung oder unsere Messung verbessert, aber welches Licht wirft es dann auf die Daten, die ich vorher kommuniziert habe? Oder geht man eher den Weg, sagt, so, wir reporten jetzt einmal die Zahl nach der alten Messmethode, einmal die Zahl nach der neuen Messmethode, deswegen ist die Backwards-Kompatibilität hier sehr wichtig, und dann beim nächsten Mal kommuniziert man nur noch die Zahlen nach der neuen Messungsmethode. So gibt man noch mal den Leuten ein gewisses Gefühl, okay, diese neue Messungsmethode, eben die Bot-Bereinigung führt dazu, dass x Prozent der Traffic sich verringert hat in dem Moment. Aber da muss man auch vorsichtig sein. #00:44:41.0#

Maik Bruns: Ja, das macht die Sache natürlich zu einem Politikum am Ende des Tages. Da muss man natürlich immer ein bisschen vorsichtig sein, auch wie man vorher über Daten überhaupt spricht und wie man sie kommuniziert. Du hast ja auch gerade schon gesagt, man muss halt sehr vorsichtig sein, welche Zahl man reportet, aber auch mit welchem Disclaimer man das vielleicht versehen muss. Dass man sagt, okay, ist Stand der Dinge heute und Bots haben wir da jetzt nicht weiterverfolgt oder ist immer noch die gleiche Bot-Schiene, die wir sonst gefahren sind und so weiter. Also da muss man natürlich immer viel, viel Politik dann am Ende betreiben, insbesondere wenn man viel Geld mit diesen Websites verdient. Ich habe es ja eben schon gesagt, wenn wir jetzt hier über kleine Websites sprechen, die ein paar tausend Euro damit im Monat machen, dann mag sich das noch nicht so riesig auswirken. Aber ich meine, wenn ich jetzt euern Store anschaue, da sieht die Sache natürlich anders aus, insbesondere wenn ihr Entscheidungen damit fällen wollt, in welche Richtung ihr künftig vielleicht investieren wollt oder müsst, dann ist das natürlich ein wichtiges Kriterium. #00:45:32.7#

Christian Gust: Absolut. Und gerade deshalb ist es eben so wichtig, dass man auch die Zahlen, die Daten, die man hat, eben bereinigt vom Bot-Traffic dann. Wie gesagt, man möchte sein Produkt im Endeffekt optimieren auf die echten Nutzer und nicht optimieren auf die Bots. Da geht’s auch um ein Thema wie A/B-Testing am Ende des Tages. Da muss man sich auch fragen, wird in jedem Fall immer sich der Bot-Traffic gleichmäßig verteilen auf beide Varianten oder gibt’s vielleicht in bestimmten Punkten auch einen Use Case, wo sich der Bot-Traffic auf die eine Variante stärker auswirken würde als auf die andere, weil man plötzlich zum Beispiel eine Locking Wall eingeführt hat. Da muss man auch schauen, ob das nicht im schlimmsten Fall sogar ein A/B-Test Result verfälscht. #00:46:14.0#

Maik Bruns: Ja. Gibt’s in deinen Augen sowas wie eine grundsätzliche Architektur, die wir brauchen, um Bot-Traffic es so schwer wie möglich zu machen? Also sagst du, du brauchst auf jeden Fall einen Gatekeeper oder regele auf jeden Fall vieles schon über Filter oder mache mit deinen Datenansichten schon einiges oder wie würdest das so von der Grundsätzlichkeit her sehen? #00:46:34.3#

Christian Gust: Ich glaube, eine gute Architektur muss eben alle 4 Schritte, die du durchgehen musst in so einem systematischen Bot-Prozess halt ermöglichen. Also es muss einmal die Bot-Erkennung ermöglichen, die Bot-Klassifizierung ermöglichen, das eventuell auch auf einem Regelwerk klassifizieren, ist ein guter Bot, ist ein schlechter Bot, ist ein unbekannter Bot oder ist vielleicht ein Bot und ich weiß es einfach noch gar nicht. Darauf abgeleitet musst du halt entsprechend ein Regelwerk für Reaktionen ermöglichen und eben die Analyse, das Reporting muss möglich sein. Alle diese 4 Dinge muss eine Architektur können, eine gute Architektur können und natürlich gilt es, je früher du das machen kannst in deinem Datenverarbeitungsprozess, also noch am besten bevor die Daten auf deinem Server landen, desto besser ist es am Ende des Tages. Aber auch, wenn das nicht möglich ist und man die Daten erst nachträglich bereinigen kann, dann hat man auch schon eine ganze Menge gewonnen. Also man muss ja nicht immer versuchen die 100-Prozent-Lösung zu fahren, sondern das ist auch ein schrittweises Herantasten an das ganze Thema hierbei. Was sicherlich hilfreich ist, wenn so eine Architektur geteilt wird zwischen dem Web Environment, dem App Environment und deinen APIs, die du womöglich auch noch hast. Weil es sind oftmals gleiche Bots, die versuchen auf alle Environments zuzugreifen und vielleicht merken sie, oh Gott, ich komme im Web nicht mehr weiter und mache jetzt bei App weiter. Weil da habe ich halt zum Beispiel keinen Gatekeeper implementiert und da kümmere ich mich nicht um Bot-Traffic. Also hier geht’s auch darum die Hintertüren zu schließen, dass Bots nicht uns einfach ausweichen können, auf eine andere Art und Weise auf deinen Service zuzugreifen. #00:48:06.6#

Maik Bruns: Ganz grundsätzlich kannst du wahrscheinlich aber auch unterstützen, dass je mehr Traffic da ist, desto mehr muss man sich um dieses Thema bemühen, oder? #00:48:13.1#

Christian Gust: Absolut. Das ist auch das, was hier auch wieder Untersuchungen zeigen, je größer deine Seite ist, das heißt, vom Traffic her gesehen, desto größer ist der Anteil auch von Bad Bots. Also gerade, wenn du in, so ein Alexa Ranking ist eine ganz gute Orientierung auch so, in den Top 1000 bist für dein Land, vielleicht sogar in den Top 10.000 deines Landes, dann hast du auch mehr schlechten Bot-Traffic als guten Bot-Traffic auf deiner Seite. Was man aber auch sieht, dass der Anteil des menschlichen Traffics zunimmt, je größer deine Webseite wird. Aber trotzdem reden wir immer noch von Größenordnungen von um bis zu 40 Prozent, die ungefähr von Bots kommen in deinem Traffic, ist immer lohnenswert sich darum zu kümmern, man kann sich da nicht ausruhen, nur weil die Seite so großgeworden ist. #00:48:55.9#

Maik Bruns: Kümmerst du dich bei Zalando ausschließlich darum oder andersrum gefragt, bist du der Einzige, der sich bei euch darum kümmert und dieses Thema weiter mit den Entwicklern wahrscheinlich zusammen befeuert oder machen das alle in deinem Team herum? #00:49:08.3#

Christian Gust: Ich bin bei weitem nicht der Einzige, der daran arbeitet, und es gibt auch nicht nur ein Team, was sich nur darum kümmert, sondern ist auch eine Zusammenarbeit aus verschiedenen Teams. Wie gesagt, dadurch, kommt immer auch drauf an, welche Infrastruktur man halt hier benutzt, aber da arbeiten mehr als eine Person daran. #00:49:25.2#

Maik Bruns: Das dachte ich mir schon. #00:49:26.6#

Christian Gust: So viel kann ich dir sagen. #00:49:28.9#

Maik Bruns: Mehr musst du mir nicht verraten. Mehr wollte ich doch gar nicht wissen. #00:49:33.0#

Christian Gust: Okay. #00:49:33.4#

Maik Bruns: Ja, aber ich finde das Thema einfach extrem spannend. #00:49:37.1#

Christian Gust: Was man vielleicht noch machen könnte, wir müssen uns vielleicht ganz kurz mal über die Reaktionen unterhalten, also wenn man jetzt Bots erkannt hat, weil daraus lassen sich auch bestimmte Requirements für eine Architektur ableiten. Also zum einen wie gesagt die Bad Bots, wenn du einen Bot erkannt hast und bist dir sicher, das ist ein schlechter Bot, natürlich so gut es geht blockieren, also gar keinen Zugriff mehr geben auf deine Infrastruktur. Einen guten Bot eben durchlassen, aber du musst in der Lage sein in deiner Infrastruktur eben diesen Traffic zu markieren in irgendeiner Art und Weise und ihn so zu markieren, dass du ihn später wieder auslesen kannst, spätestens in der Datenanalyse, aber am besten schon im Trackingsystem selbst, also zum Beispiel im Google Tag Manager oder so in einer Art und Weise. Für die Bots, wo du denkst, das ist ein Bot, aber ich weiß nicht, ob der jetzt gut ist oder schlecht, und es wird, wenn du gerade anfängst mit der ganzen Geschichte, am meisten wahrscheinlich der Faktor sein, der am meisten eine Rolle spielt für dich, dass du zwar Bots erkennst, aber du weißt nicht, ob sie gut oder schlecht sind. Was hier hilft und was man versuchen kann zu tun, ist, diesen Request künstlich zu verzögern. Das heißt, bevor der Request tatsächlich an deine Server weitergeleitet wird und prozessiert wird und derjenige, der Bot, eine Antwort bekommt, einfach mal um ein paar Sekunden verzögern und schauen, was passiert. Die schlechten Bots brechen in der Regel dann ab. Die haben so ein Limit quasi, die sie warten und dann sagen sie, okay, vergiss es, ich mache weiter mit dem nächsten Request oder ich gehe halt zu der nächsten Seite, weil die Seite ist mir zu langsam in dem Moment. Weil Bad Bots sind ja gerade darauf angewiesen in kurzer Zeit möglichst viele Seiten zu besuchen, in der Regel zumindest die meisten Bad Bots sind das. Und dann dauert es ihnen eben zu lange und sie gehen. Die guten Bots in der Regel warten ein Stück weit. Hier muss man aber auch wieder gucken, wenn man das natürlich mit guten Bots macht, von denen man nicht weiß, dass sie gute Bots sind, also mit irgendwelche Search Engine Crawlern, dann kann es vielleicht zu einer Abwertung kommen in seinem SEO-Ranking, weil man eine sehr langsame Seite hat. Also da muss man auch wieder schauen, also wie gut ist man schon in der Bad-Bot-Erkennung, wie gut ist man in der Good-Bot-Erkennung, wieviel bleibt noch übrig in den anderen Bots. #00:51:43.3#

Maik Bruns: Also grundsätzlich eher Rantasten als sofort ein Ultimatum setzen, sage ich mal? #00:51:46.8#

Christian Gust: Ja, würde ich sagen. Also mit den Good Bots wie gesagt, wenn man da eine Erkennung schon schafft über den User Agent, dann hat man schon sehr, sehr viel gewonnen, dann hat man schon den Großteil der Good Bots erkannt. Denn Good Bots zeichnen sich einfach dadurch aus, dass sie sich selber zu erkennen geben, und der klassische Weg dazu ist eben der Eintrag im User Agent. Und dann nochmal, es gibt da einige Libraries im Internet, auf die man kostenlos zugreifen kann, die auch regelmäßig gepflegt werden, wo man eben solche Einträge findet in dem Moment und einen Abgleich machen kann. Immer trotzdem muss man in der Lage sein diese anderen Bots zu monitoren, das heißt, man sagt erstmal, im Zweifelsfall durchlassen den Traffic, wenn man im Moment da in die Richtung gehen möchte, aber dann trotzdem natürlich markieren und später eben analysieren. Und dann später zu entscheiden, okay, ist es vielleicht doch ein Bad Bot gewesen. Wenn ich mir sicher bin und ich sehe, aber der geht immer irgendwie auf meine PDPs oder er versucht sich sogar einzuloggen und versucht sogar auf den Check-Out zuzugreifen, dann ist es tendenziell wahrscheinlich nicht mehr ein guter Bot, was sein Hauptziel ist. Wenn man dann noch, und das ist halt so der 4. Case, den man hat, wenn man dann noch Traffic hat, wo man sich einfach nicht sicher ist, ist es ein Bot oder nicht, irgendwie sieht‘s komisch aus, aber irgendwie so richtig hundertprozentig sicher bin ich mir nicht, was man machen könnte zum Beispiel ist ein Redirect auf eine Seite mit einem Captcha. Captcha kennen ja bestimmt viele von uns, wo du dann eben, wähle alle Bilder aus, wo ein Auto drauf ist oder solche Sachen, oder tippe diese zwei Wörter ein, die da angezeigt werden. Das ist eine Möglichkeit auch nochmal es den Bot auf jeden Fall schwieriger zu machen, auch wenn man da sagen muss, man hat natürlich ein bisschen die Gefahr, dass es vielleicht die Conversion Rate verringern könnte. #00:53:20.6#

Maik Bruns: Mhm (bejahend). Die User mögen die nicht unbedingt immer. #00:53:22.4#

Christian Gust: Nee, nicht wirklich. Ich finde deswegen die neueste Version von dem Google reCaptcha gar nicht schlecht. Was die ja machen, ist, die versuchen ja auch komplett schon das Browser-Nutzerverhalten mit zu tracken die ganze Zeit und von dem schon abzuleiten, ob das eher von einem Menschen kommt oder nicht. Weil Menschen verhalten sich manchmal einfach unlogisch mit ihrem Browserverhalten und Bots halt nicht, die haben ein sehr stringentes Vorgehen. Die meisten, es gibt ein paar Bots, die sind da sehr gut darin Human Traffic zu identifizieren, aber der Gros der Bots ist ziemlich stringent unterwegs. Und wenn das reCaptcha eben schon vom Browserverhalten ablesen kann, okay, das ist ziemlich wahrscheinlich ein User, dann kommt diese Abfrage mit den lustigen Bildchen halt gar nicht mehr, sondern es gibt ja nur noch diese Checkbox „I’m not a robot“, die du einfach nur bestätigten musst und dann bist du schon wieder einen Schritt weiter. Also zumindest musst du weniger machen als du es vorher tust. #00:54:11.0#

Maik Bruns: Haben wir echt eine Chance diese Nutzer oder diese Bots auch nachher wieder raus zu löschen aus den Daten? Also ich meine in der UI, also in Google Analytics oder wo auch immer? Siehst du, dass das auf einem einigermaßen einfachen Wege möglich ist? #00:54:27.7#

Christian Gust: Eine Frage, was für einen als einfach erscheint, aber wie gesagt ich würde tatsächlich in dem Fall entweder, also das Einfachste finde ich immer auch die Filter, auch wenn es ein gewisses Risiko beinhaltet. Ansonsten wird es schwierig, wird es wirklich schwierig an der ganzen Stelle. #00:54:46.4#

Maik Bruns: Es gibt ja tatsächlich sogar die Möglichkeit einzelne Nutzer zumindest zu löschen in Google Analytics zum Beispiel. Da kannst du im Nutzerfluss-Report glaube ich einzelne Nutzer sogar löschen. Ich glaube, man kann es auch über die API machen. #00:54:56.6#

Christian Gust: Genau, durch GDPR haben sie das eingeführt. Richtig. #00:55:00.4#

Maik Bruns: Gottseidank. #00:55:00.8#

Christian Gust: Ja, Gottseidank. Richtig. Ja, stimmt. Hast du Recht, das wäre auch noch eine Möglichkeit, wenn du es auf einen einzelnen Nutzer runterbrechen kannst in dem Moment. Aber das ist natürlich ein Prozess, der ist … #00:55:08.8#

Maik Bruns: Bei wechselnden Client IDs. Hm. #00:55:10.2#

Christian Gust: Ja, das ist natürlich ein Prozess, der kommt mit einem gewissen Overhead um die Ecke, deswegen ist so das auf einer Client-ID-Basis zu machen vielleicht nicht der beste Weg, sondern tatsächlich auch schon ein gewisses Verhaltenspattern oder andere Signale reinzugehen, schon nicht verkehrt in dem Moment. Das Problem ist halt auch, wenn du es jetzt wieder löschst, dann bist du nicht mehr in der Lage das nochmal später zu analysieren und hier eben einen Report, du verbaust dir ein Reporting über den Bot-Traffic, den du hast. Wie gesagt, das kann durchaus sehr wichtig sein, um bestimmte Trends zu erkennen und plötzlich zu sehen, oh, die Bots gehen jetzt durch die Decke. Und ein gutes Beispiel ist nochmal dieses Account Takeover, wo Bots plötzlich sich vermehrt versuchen einzuloggen, auf deine Login-Seite zugreifen, was eben für dich ein Hinweis sein kann, oh, meine Zugangsdaten sind irgendwo geleakt, jemand hat vielleicht Zugang bekommen zu unserer Datenbank mit den Login-Daten. #00:55:55.5#

Maik Bruns: Mhm (bejahend). Sehr spannend. #00:55:56.2#

Christian Gust: Deswegen würde ich mir diese Möglichkeit, wenn möglich, nicht verbauen, sondern sie nur versuchen, quasi eine Isolation zu schaffen, eine Separierung zu schaffen zwischen Nutzerdaten und den Bot-Daten. Das kannst du natürlich historisch machen auch, das ist ja das Gute daran. Also ich würde nicht, wenn du jetzt ein neues Pattern erkannt hast, nicht anfangen, so, ab heute werden die rausgefiltert, sondern bitte auch, wenn möglich, historisch. Aber immer einmal nochmal gucken, was macht das mit den KPIs des Unternehmens, wenn ich das jetzt historisch zurücknehme. Wenn es wirklich da eine größere Änderung gibt, dann auf jeden Fall eine Rücksprache mit dem Management halten und im Zweifelsfall auch mit Corporate Communications oder so in der der Richtung zu sagen, oh, haben wir solche Zahlen vielleicht mal kommuniziert, was passiert jetzt, wenn wir die rückwirkend ändern. #00:56:40.0#

Maik Bruns: Sehr spannend, Christian, sehr spannend. Guck mal, wir haben jetzt schon fast eine Stunde über Bots gesprochen. Ich glaube, ich habe noch nie eine Stunde über Bots gesprochen. Du wahrscheinlich schon. #00:56:48.8#

Christian Gust: Herzlichen Glückwunsch! Dann weißt du, wie es mir geht. #00:56:51.7#

Maik Bruns: Willkommen im Club. #00:56:52.9#

Christian Gust: Ja. #00:56:54.9#

Maik Bruns: Finde ich total spannend, also wirklich. Du hast mir auch ein paar Perspektiven aufgezeigt, die ich bisher noch nicht so gesehen habe, muss ich sagen. #00:57:02.1#

Christian Gust: Ist auch ein total spannendes Thema. Was ich da wirklich toll finde an dem Thema, es ist, auch wenn es vielleicht ein technisches Thema ist, kann man sich als Analyst da durchaus auch ran wagen und man kann mit einfachen Schritten schon auf Datenebene ziemlich viel erreichen. Und es lohnt sich einfach. Es geht hier um eine bessere Datenqualität am Ende des Tages und damit kann man bessere Entscheidungen treffen und es geht schlussendlich auch um ein hohes Kosteneinsparungspotenzial. Wenn man sich mal überlegt, dass auch die großen Seiten im Durchschnitt 20 Prozent Bad-Bot-Traffic haben, wie viel Geld würde man einsparen, wenn man 20 Prozent weniger Hosting-Kosten hätte. Das ist schon lohnenswert für größere Seiten. #00:57:37.5#

Maik Bruns: Definitiv. #00:57:38.0#

Christian Gust: Deswegen finde ich, ist es auch ein gutes Projekt als Analyst, um damit ein bisschen zu glänzen auf der Arbeit sozusagen. Also wenn man mal noch ein paar Pluspunkte sammeln möchte in seinem Unternehmen, ist Bot-Traffic-Analyse und Bot-Traffic-Filtering ein sehr gutes Projekt wie ich finde. #00:57:52.2#

Maik Bruns: Ja. Ich finde sowieso, Datenqualität ist immer ein Investment wert. Es gibt ja auch einen Grund, warum ich Audits mache mit Unternehmen. Weißt du, die Unternehmen wollen das und sie brauchen es auch, weil sie wissen oftmals gar nicht, in welche Fallen sie da ständig tappen. Ich meine, Bot ist ja nur eine mögliche Falle von vielen Sachen. #00:58:10.4#

Christian Gust: Genau. #00:58:10.9#

Maik Bruns: Sicherlich aber eine, die viel Traffic und auch viel Schaden verursachen kann. Du hast ja gerade schon Host-Kosten angesprochen und so. #00:58:17.9#

Christian Gust: Absolut. Das ist Schöne ist aber deswegen, dass du es hier sehr leicht in Kosten auch umrechnen kannst. Viele andere Datenqualität-Investments, da kannst du schwer greifen, okay, wieviel hat uns das jetzt schon an Geld gekostet? Weil so eine Frage kommt ganz oft natürlich auch berechtigter Weise von Management, wenn es sagt, okay, ihr wollt jetzt da was aufbauen, ihr wollt da Ressourcen reinstecken, das kostet uns ja auch erstmal wieder Geld, rechnet sich das überhaupt? Warum soll ich das tun? Das kann man eben mit diesen Kosteneinsparpotenzialen zum Beispiel mit dem Traffic, den man blocken könnte und die man sich spart, diese Kosten, schon sehr, sehr gut da rangehen und das aushebeln. Das kann man nicht immer ganz gut machen bei den Datenqualitätsthemen. Deswegen gefällt mir das Thema auch ganz gut. #00:58:55.8#

Maik Bruns: Ja, ich sehe schon, also du bist jetzt nicht nur Technikfuchs, sondern du bist auch jemand, der das Betriebswirtschaftliche gut im Blick hat und das ist, ich finde ja immer, mindestens genauso wichtig bei Webanalyse. Du musst halt einfach das Business auch irgendwie im Blick haben, das ist ja alles kein Selbstzweck, was wir da machen, sondern das geht ja immer am Ende des Tages um das Überleben und das Weiterkommen des Unternehmens. #00:59:16.2#

Christian Gust: Ja. So sieht’s aus. #00:59:17.0#

Maik Bruns: Weil von Tracking alleine können wir ja auch nicht leben. #00:59:20.1#

Christian Gust: Leider nein. #00:59:22.3#

Maik Bruns: Obwohl, ich könnte das. #00:59:26.2#

Christian Gust: Ah ja, herzlichen Glückwunsch! #00:59:28.6#

Maik Bruns: Sehr gut. Christian, ich würde sagen, nach einer Stunde da können wir jetzt mal bald auch Richtung Ende tendieren, weil ich glaube, da werden jetzt viele erstmal eine ganze Menge Arbeit auch vor sich haben. Aber am Ende des Tages würde ich von dir gerne noch 3 Tipps haben, die du den Leuten da draußen mitgeben möchtest, die sich so mit Bot-Traffic auseinandersetzen oder die sich damit intensiv auseinandersetzen wollen oder müssen. Was wären deine 3 Tipps? #00:59:54.0#

Christian Gust: Mal überlegen, wir haben ja schon sehr viel angesprochen heute. #00:59:57.4#

Maik Bruns: Ja. #00:59:57.8#

Christian Gust: Was super ist. Vielleicht eine Sache auf jeden Fall, die ich mitgeben würde, ist, wenn man sich mit Bot-Erkennung beschäftigt, das muss man ja zwangsläufig als ersten Schritt, immer ein bisschen die False Positive Rate im Blick haben. Also wie viele User sind vielleicht doch echte User, die ich gerade als Bots flagge. Hier hilft es sich zu überlegen, was ist so Verhalten, das nur Nutzer an den Tag legen würden, aber kein Bot machen würde. Also mal genau die andere Perspektive einzunehmen, nicht versuchen Bots zu erkennen, sondern echte Menschen zu erkennen. Es gibt so bestimmte Interessen, an denen hat ein Bot grundsätzlich erstmal, es gibt bestimmte Events, an denen hat ein Bot grundsätzlich gar kein Interesse, es bringt dem Bot keinen Mehrwert. Zum Beispiel ein Besuch auf einer FAQ-Seite, auf einer Hilfeseite zum Beispiel, ist eher uninteressant für einen Bot. Auch so ein „Add to wishlist“ Button Klick, wenn man sowas hat auf der Website, ist sehr uninteressant für einen Bot. Natürlich kann es immer passieren, dass ein Bot das trotzdem ausführt, weil der Bot einfach technisch überall draufklickt, was halt passiert. Aber wenn man mehrere von diesen Signalen auch wieder hat und die kombiniert miteinander und sagt, so, ein echter Kunde ist für mich jemand, der von diesen 20 verschiedenen Signalen mindestens x ausgeführt hat im letzten Monaten, dann ist es wahrscheinlich eher ein User und kein Bot, hilft auch. Oder wenn man natürlich Orders auch hat, also wenn man natürlich ein E-Commerce-Unternehmen ist, auch zu schauen, wurden die Orders tatsächlich auch bezahlt von dem Kunden am Ende des Tages? Denn Fake Orders können Bots erstellen, aber sie bezahlen tun sie in der Regel nicht. Also deswegen auch ganz wichtig, weil man hat immer das Risiko auch beim Bot-Filtering, dass man auch echte Menschen rausfiltert, und das will man ja auch wieder nicht. Deswegen ein bisschen auch einen Blick haben auf die False Positive Rate, ist ganz wichtig. Ich würde als weiteren Tipp noch mitgeben auch Third Party Solutions in Betracht zu ziehen. Man muss nicht alles selber bauen, vor allen Dingen nicht am Anfang, wenn man noch gar nicht weiß, worauf es am Ende hinausläuft. Da kann es auch durchaus sinnvoll sein sich eine Drittlösung anzuschauen, davon gibt es mehrere auf dem Markt, und hier eben dann, auch wenn sie natürlich Geld kosten, günstig sind die guten in der Regel nicht, einfach die Abwägung zu machen, okay, zum Einsparungspotenzial wiederum, was ich habe, mit den Hosting-Kosten, aber auch im Hinterkopf behalten, dass ich ja das Risiko minimiere, was den Datendiebstahl angeht in meinem Unternehmen und damit auch das Risiko minimiere von einem Vertrauens- und Reputationsverlust von den Kunden am Ende des Tages. Das ist etwas, was Gold wert ist, und das ist unglaublich schwierig wieder aufzubauen, wenn man das einmal verloren hat. Das sollte einem auch ein bisschen Geld wert sein als Unternehmen. Das darf man nicht unterschätzen. Und wenn du jetzt drei gefragt hast, ah ja, vielleicht einen noch, dann machen wir die drei voll. Die, ich sagte ja, man sollte die Bad Bots blockieren im besten Fall, also keinen Zugang geben auf die eigene Infrastruktur. Auch hier clever zu sein und zu sagen, ich blockiere die nicht gerade in dem Sinne, weil indem, wenn du sie hart blockierst, bekommen sie einen Statuscode zurück, zum Beispiel einen 403, und der Bot kann daraus lernen. Das heißt, du gibst dem Bot zu verstehen, ich habe dich erkannt und ich habe dich blockiert. Es ist nicht zwangsläufig sinnvoll, weil du willst ja dem Bot-Betreiber nicht erklären, ich habe dich erkannt, weil das motiviert den Bot-Betreiber im Zweifelsfall seinen Bot zu ändern, zu verbessern. Das willst du ja nicht, sondern was du machen könntest, ist einfach die Verbindung offenhalten, aber keine Response zurückschicken. Damit machst du es dem Bot sehr, sehr viel schwieriger zu verstehen, was gerade mit seinem Request passiert in dem Moment. #01:03:20.5#

Maik Bruns: Okay. Das ist ein sehr hackiger Tipp. #01:03:24.4#

Christian Gust: Ein bisschen, ja, aber kann etwas helfen. Vielleicht eine letzte Anmerkung noch aus der ganzen Geschichte. Wir haben uns ja sehr aus der Analysesicht natürlich mit dem Thema beschäftigt, aber GDPR spielt ja auch durchaus eine Rolle. GDPR hat ja das Privacy by Design eingeführt als ein Konzept und hier geht’s ja auch darum mit State-of-the-art Infrastruktur seine Daten zu schützen, und eine Bot-Erkennung gehört meiner Meinung nach mit dazu. Das heißt, ein Investment in eine Bot-Erkennung und Bot-Filtering kann auch aus einer Datenschutz-Brille sehr, sehr wichtig sein und einen auch vor bestimten Strafen schützen. #01:04:01.2#

Maik Bruns: Das war ein sehr wertvoller Tipp, ja. Das wäre mal etwas, was ich mit einem Anwalt noch mal besprechen müsste. #01:04:08.0#

Christian Gust: Ja. Schöne Grüße. #01:04:10.0#

Maik Bruns: Ja, Christian … #01:04:11.2#

Christian Gust: Also da gibt’s natürlich noch nicht viele Gerichtsurteile, aber mich würde wundern, wenn es nicht früher oder später mal in die Richtung gehen wird. #01:04:16.7#

Maik Bruns: Ja, finde ich total spannend den Ansatz. Habe ich so noch gar nicht gesehen, dass das auch eine Implikation sein könnte. Ja, insofern vielen Dank dafür. Ich habe wieder unglaublich viel gelernt heute, das ist toll. Also ich lerne ja sowieso immer, aber heute sehr viel, meine Lernkurve heute war sehr steil, muss ich sagen. #01:04:31.7#

Christian Gust: Ich freue mich, dann hat es sich ja gelohnt. #01:04:34.0#

Maik Bruns: Ja, das ist halt, weißt du, in der Regel beschäftigst du dich als Analyst ja oder als Tracking-Implementierer nicht in erster Linie mit dem, was hinten raus an negativen Sachen passiert, sondern in erster Linie mal darum, dass überhaupt gemessen wird und dass die echten Besucher überhaupt erst mal gemessen werden. Das andere kommt dann immer spätestens dann zum Tragen, sobald es erste Fake Traffics gibt, und dann wirst du meistens erst mal, ja, du bist eigentlich reaktiv unterwegs in der Regel. #01:04:58.0#

Christian Gust: Ja. #01:04:58.5#

Maik Bruns: Jetzt hast du heute schon mal ein paar Wege gezeigt, die ich total wertvoll finde, die auch mal ein aktives und nicht ein reaktives Vorgehen einfach mal zeigen und das hilft auf jeden Fall. Ich bin mir ziemlich sicher, dass da draußen jetzt einige sehr hellhörig sind und morgen gut was zu tun haben. #01:05:11.8#

Christian Gust: Cool, das würde mich freuen. #01:05:12.8#

Maik Bruns: Ja, Christian, auf jeden Fall, habe vielen Dank dafür. #01:05:16.4#

Christian Gust: Ja, ich danke dir. #01:05:17.3#

Maik Bruns: Ich hoffe, dass wir uns auf dem MeasureCamp auch wiedersehen. #01:05:19.6#

Christian Gust: Ich hoffe doch. #01:05:20.2#

Maik Bruns: Das würde mich sehr freuen. Also du hattest ja im Vorgespräch schon erwähnt, so Richtung wird es sein, und ihr sucht noch, wie war das, Sponsoren, ne? #01:05:26.5#

Christian Gust: Genau, ja. Also MeasureCamp Berlin dieses Jahr wieder, voraussichtlich im Q4, vielleicht wieder Oktober, November in der Richtung. Tolle Gelegenheit auch sich hier wieder auf den Analytics-Bereich zu markieren als Unternehmen und seinen Service anzubieten und natürlich als Sponsor aufzutreten und natürlich auch überhaupt dabei zu sein. Also ist ja auch als ganz normaler Teilnehmer, ist eine tolle Veranstaltung, eine tolle Konferenz, wo jeder einen Vortrag geben kann, wenn er möchte. Ich kann es nur empfehlen, seid alle dabei. #01:05:57.2#

Maik Bruns: Ich auch. Und ich würde mich freuen, wenn wir uns da wiedersehen, Christian. #01:06:00.6#

Christian Gust: Ja, würde mich freuen. #01:06:01.8#

Maik Bruns: Habe vielen Dank. #01:06:01.9#

Christian Gust: Vielen Dank dir. Cool. #01:06:04.5#

Maik Bruns: Viele Grüße an alle da draußen und bis zum nächsten Mal. Und nicht vergessen, wenn du so wie ich oder viele andere meiner Gäste in der „Sendung mit der Metrik“ Webanalyst werden möchtest, dann hole dir jetzt mein Hörbuch mit über 5 Stunden superviel Input zu dem Thema. Den Link zu den vielen Infos dort findest du natürlich in den Shownotes. #01:06:21.2#

Abonniere auf Android Abonniere auf iTunes

Maik Bruns

Gründer und Inhaber bei Metrika e. K.
Der Webanalyse-Professional und -Coach ist seit Jahren der Webanalyse mit Google Analytics und dem Google Tag Manager stark verbunden. Sein breites Hintergrundwissen aus Marketing, Technik und Analyse ist bei der Optimierung von Websites immer wieder gefragt und mit seiner Art hat er viele Unternehmen für Webanalyse begeistert.

Er schreibt und bloggt zu diesen Themen, wenn er nicht gerade unterwegs oder bei seiner Familie ist. Ferner ist er in verschiedenen sozialen Netzwerken zu finden, um dort sein Wissen zu teilen.

Er hostet den Podcast "Die Sendung mit der Metrik", spricht zu Webanalyse-Themen auf diversen Konferenzen und gibt Seminare/Workshops u. a. zu den Themen Google Analytics, Google Tag Manager und Google Data Studio.

Twitter Facebook Instagram LinkedIn XING

Der Webanalyse-Professional und -Coach ist seit Jahren der Webanalyse mit Google Analytics und dem Google Tag Manager stark verbunden. Sein breites Hintergrundwissen aus Marketing, Technik und Analyse ist bei der Optimierung von Websites immer wieder gefragt und mit seiner Art hat er viele Unternehmen für Webanalyse begeistert. Er schreibt und bloggt zu diesen Themen, wenn er nicht gerade unterwegs oder bei seiner Familie ist. Ferner ist er in verschiedenen sozialen Netzwerken zu finden, um dort sein Wissen zu teilen. Er hostet den Podcast "Die Sendung mit der Metrik", spricht zu Webanalyse-Themen auf diversen Konferenzen und gibt Seminare/Workshops u. a. zu den Themen Google Analytics, Google Tag Manager und Google Data Studio. Twitter Facebook Instagram LinkedIn XING

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Top