Regex-Sex
gepostet von Johan am
Für unsere Kunden haben wir häufiger das Problem, dass man den Traffic über Erotik-Keywords filtern möchte. Das ist Traffic, der in der Regel nicht toll konvertiert und daher meistens unspannend ist. Ist ja auch klar: Menschen, die gerade eine Vorlage zur Befriedigung spezieller Bedürfnisse suchen sind in der Regel gerade nicht auf einer Shopping-Tour oder auf der Suche nach interessanten Nachrichten aus Wissenschaft, Gesellschaft und Politik.
Daher hab ich mir – quick und dirty – einen kleinen regulären Ausdruck gebastelt, der die häufigsten Anfragen und Keywords zu Erotik-Themen abdeckt. Durch das durchgehen eines Fallbeispiels musste ich dafür noch nicht mal groß den Kopf anstrengen und mir überlegen, wonach man suchen würde, sondern konnte einfach etwas bauen, was die meisten Suchanfragen beinhaltet (Daher ist die Reihenfolge auch zufällig, war ja kein strukturiertes Vorgehen):
br[üue]+st|busen|nackt|sex|les[bp](e|isch|ian)|geil|tit+en|blasen|porn|eroti[gck]|fick|erotisc?h|[aä]rsch|nip+el|bum+sen|strip+|pop+en|f[au]ndorado|fkk|nudist|luder|intim|amat[öeu]+r|squirt|nackig|strapse|m[öoe]+p?se|[vf][oeö]+geln|boobs|penis|luder|schlampe|stellungen|maste?u?r?u?bie?ren|petting|fetisc?h|pervers|puss[iy]|[vf]otze|youp[ro]+n|orgasmu?s?|tits|titt[es]|wichs|sperma|adult|gangbang|(beate[- ]{0,2}uhse)|blow[- ]{0,2}job|cunt|cum |dil+do|dolly[- ]{0,2}b[au]ster|domina|anal|muschi|schwanz|gina[- ]{0,2}wild|hardcore|jen+a[ -]{0,2}j[ae]me?s[oe]n|kam+a[zs]utra|vibrator|naked
Zur Erklärung (In der Firma hieß es, das sieht nach Sonnenstich aus):
- | – Trennt die Begriffe von einander. Es werden auch (zumindest in Analytics, für andere Tools müsste man etwas umbauen) sämtliche Kombinationen mit dem Begriff gefiltert
- [] – Fasst Buchstaben zusammen
- + – gibt an, dass der vorangegangene Ausdruck (Buchstabe oder Buchstabengruppe) mindestens einmal, gern auch öfter gefunden werden darf
- ? – gibt an, dass der vorangegangene Ausdruck vorkommen kann, aber nicht muss
- {0,2} – gibt an, dass der vorangegangene Ausdruck mindestens 0 Mal, maximal 2 Mal gefunden werden soll
Wie gesagt, die RegEx ist fix zusammengeschraubt und geht bestimmt auch schöner, wenn man die mal häufiger braucht.
Bei der Verwendung ist ein wenig Vorsicht geboten. Schließlich werden auch Dinge mitgefiltert, wie „Wie geil ist das denn?“ oder „Ich habe einen sexy-Vornamen“.
Wenn mir Jemand eine schöne Blacklist gibt, dann bau ich die RegEx auch mal um für regelmäßige Verwendung.
ps: Hiermit ist das Blog jetzt offiziell Sex-verseucht.