Jak se měří nesnášenlivost na českém internetu?

https://en.wikipedia.org/wiki/File:ParisCafeDiscussion.png

Monitoring webového prostoru v projektu HateFree je zaměřený na témata jemu blízká, tedy oblast nesnášenlivosti, násilí z nenávisti a tzv. „hatespeech“. Jak takový sběr dat probíhá vysvětluje Petr Zavoral, jednatel společností Yeseter Now a Yeseter Technologies.

Tento článek popisuje způsob, jakým je nástroj Yeseter využíván pro přípravu podkladů a reportů pro projekt Hate Free.

Podle zadávacích požadavků byl zvolen relevantní online prostor pro sběr příspěvků. Ve výchozím nastavení zahrne tento prostor veškeré webové prostředí relevantní k většinové populaci (příspěvky na různých fórech, sociálních sítích a blozích). Tento výběr vychází co do rozsahu a obsahu z našich zkušeností s používáním nástroje Yeseter pro obdobné projekty monitoringu. Výchozí rozsah webových zdrojů je neustále automaticky aktualizován.V tomto projektu se zaměřujeme na online prostory relevantní k většinové populaci (v analýze bereme ohled na cílovou skupinu 15-25 let). Příspěvky ze zvolených online zdrojů jsou dále tříděny podle metainformací (internetová doména, datum a čas, autor,…), sentimentu a zvolené taxonomie, která je založena na zvolených klíčových slovech (viz níže). Ve výsledku tak máme možnost pracovat se sadou příspěvků k různým oblastem buzzmonitoringu.

Oblasti buzzmonitoringu

Monitoring webového prostoru v projektu HateFree je zaměřený na témata jemu blízká, tedy oblast nesnášenlivosti, násilí z nenávisti a tzv. „hatespeech“. Pro tyto účely je Buzzmonitoring proto z lingvistických a sémantických důvodů zaměřen mimo jiné na monitoring zmínek, týkajících se skupin osob, které jsou nejčastěji cílem nesnášenlivosti a násilí z nenávisti. Na základě toho jsou kromě obecných zmínek o nesnášenlivosti či nenávisti sledovány přednostně zmínky o (1) Romech (v souvislosti s touto skupinou budou sledována i různá sub-témata, např. bydlení, gambling, integrace, kriminalita, příživnictví, tradice, vzdělání, nezaměstnanost, prostituce atp.). Dále se monitoring kampaně Hate Free zaměřuje na skupiny, které jsme pracovně nazvali (2) muslimové, a (3) homosexuálové. V případě všech těchto skupin (1) – (3) jsou monitorovány zmínky v celém spektru sentimentu, tj. negativní, neutrální a pozitivní komentáře na daná témata.

Kvantitativní oblasti buzzmonitoringu

Protože v buzzmonitoringu pracujeme s velkým množstvím zmínek různého typu, klademe velký důraz na kvantifikaci výsledků do několika srozumitelných ukazatelů. Tím je umožněno získat rychlý přehled o vývoji a trendech buzzu, graficky zobrazovat vývoj v čase apod.

Pro dlouhodobé, šestnáctiměsíční, měření definujeme sadu konkrétních témat (podložených klíčovými slovy), která zůstanou konstantní a neměnná v průběhu celého životního cyklu projektu – a to z toho důvodu, aby relevance jejich měření byla jednoznačná a vypovídající i z pohledu měření dlouhodobého trendu pro celé období průběhu projektu. Tato neměnná témata se budou týkat buzzmonitoringu témat blízkých kampani a budou založena na klíčových slovech, která jsou uvedena v kapitole „Taxonomie“.

Kromě toho pracujeme s druhou skupinou tzv. ad hoc témat vycházejících z konkrétní situace v různých obdobích projektu. Tato ad hoc témata (a klíčová slova, která je určují) jsou stanovována v návaznosti na aktuální dění ve společnosti.

Yeseter – slovník základních pojmů

Příspěvek

Text ve webovém prostoru, od jednoho autora, ve kterém je zmíněno klíčové slovo nebo sousloví předem definované taxonomií konkrétního projektu. Pod příspěvkem rozumíme např.:

  • článek na blogu
  • článek na zpravodajském serveru
  • diskuzní příspěvek pod článkem na blogu
  • komentář pod článkem na zpravodajském serveru
  • komentář na diskuzním fóru
  • příspěvek či komentář na Facebooku
  • příspěvek na Twitteru
  • textový komentář na YouTube
  • příspěvek či komentář na Google+

Jedním příspěvkem tedy může být celý článek na zpravodajském serveru (např. idnes.cz, aktualne.cz, novinky.cz) nebo článek na blogu, ale stejně tak třeba i zmínka sestávající z pouhých dvou slov v komentáři pod článkem.

Pro korektní hodnocení významu jednotlivých příspěvků je podstatné kvantitativně hodnotit nejen vlastnosti samotného příspěvku, ale i vlastnosti kontextu tohoto příspěvku. Ty měříme např. počtem diskuzních vláken připojených k příspěvku nebo počtem lajků (Like) na Facebooku. To znamená, že například příspěvek typu komentář na Facebooku, který má větší počet lajků, je v nástroji Yeseter hodnocen větší vahou než komentář s menším počtem lajků. Vážení příspěvků je důležité pro správné a korektní měření buzzu na internetu.

Průběžný buzzmonitoring

Pod průběžným buzzmonitoringem rozumíme nepřetržitý online provoz nástroje Yeseter v režimu 24 hodin denně, 7 dní v týdnu. Nástroj Yeseter tak sbírá z relevantních online prostorů příspěvky, třídí je na základě předem definovaných taxonomických kritérií a vytváří analytické podklady.

Online prostor

Nástroj Yeseter umožňuje sledování jakékoli veřejně přístupné webové stránky do libovolné hloubky vytěžování příspěvků. Běžně jsou v projektech monitorovány řádově tisíce webových stránek s důrazem na plošné pokrytí všech relevantních online prostorů a tak tomu bude i v tomto poptávaném projektu.

Nástroj Yeseter umožňuje uživateli identifikovat a analyzovat sdílení odkazů mezi jednotlivými internetovými servery. Speciální nástroj Links identifikuje odkazy ve všech zachycených zmínkách, počet jejich výskytu a servery, na kterých byly odkazy sdíleny.
Díky tomu lze identifikovat, z jakých domén byly odkazy nejvíce sdíleny (zda šlo o post na sociálních sítích nebo například články ze zpravodajských webů), kolikrát byly odkazy dále sdíleny a na kterých serverech (tedy kde všude se odkaz objevil a v jakém počtu).

Taxonomie

Sada klíčových slov či sousloví, na jejichž základě monitorovací nástroj Yeseter vyhodnocuje jednotlivé příspěvky. U klíčových slov rutinně pracujeme s českým skloňováním a různými tvary synonym, slangových obratů, slov s chybějící diakritikou apod.

Určení nálady příspěvku, sentiment

Určení přesné nálady příspěvku je velmi sofistikovanou záležitostí, kde významnou roli hraje několik aspektů při práci s automatickým rozpoznáváním jazyka:
ironie a sarkazmus, kdy rozpoznávací nástroj musí pracovat s mnohovýznamovostí slov;
nálada se hodnotí za celý příspěvek, ten ale může obsahovat více kategorií s různým sentimentem – zde tedy dochází ke zprůměrování sentimentu.

Sdílení

Nástroj Yeseter umožňuje měřit počty sdílení příspěvků. Například, kolikrát bylo v daném časovém období sdíleno konkrétní video publikované na Stream.cz nebo na YouTube.

Metodika a kategorizace webového obsahu v nástroji Yeseter

V následující části představujeme metodiku a klasifikaci zpracování analýz z dat získaných v prostředí internetu, tj. diskusních příspěvků na fórech, sociálních sítích a blozích vycházející z  nástroje Yeseter pro monitoring webu a sociálních sítí.

Metodika vyhledávání a zařazování příspěvků

Za jeden příspěvek je považován souvislý úsek textu jednoho autora na jedno téma. V případě častého střídání autorů, např. v internetových diskuzích, je tedy za jeden příspěvek považován každý diskuzní příspěvek. V případě autorského článku ze zpravodajského serveru jeden článek rovněž odpovídá jednomu příspěvku.

Každý příspěvek kromě samotného textu obsahuje tyto metainformace:

  • datum a čas publikace (rok, měsíc, den, hodina, minuta, sekunda)
  • jméno autora
  • příznak, zda byl příspěvek označen jako nerelevantní (hozen do koše)
  • doména příspěvku (internetový zdroj definovaný url adresou)
  • nalezená klíčová slova
  • témata a tematické skupiny
  • automaticky přiřazený sentiment, resp. jeho případná manuální korekce
  • nadpis, pokud je k dispozici
  • uživatelské značky (tagy – štítky) přiřazené příspěvku

Zařazení příspěvku probíhá tak, že po jeho prvotním očištění od formátovacích a jiných značek je provedeno vyhledání všech klíčových slov obsažených v příspěvku. Toto vyhledávání bere v potaz morfologické varianty slov včetně nespisovných, umí vyhledávat fráze (slovní spojení) a dokáže se vypořádat i s chybějící diakritikou příspěvku.

U jednotlivých klíčových slov lze nařídit potlačení vyhledání morfologických variant a hledání slova pouze v konkrétním slovním tvaru. Po nalezení klíčových slov se vyhodnocuje, kterým tématům klíčová slova odpovídají.

Každé téma je definováno sadou klíčových slov a frází, které je navíc možné kombinovat za použití logických operátorů AND, NOT, OR a MINUS. Tyto operátory umožňují sofistikované filtrování příspěvků do jednotlivých témat. Témata jsou dále řazena do tematických skupin, které slouží k efektivní statistické analýze počtu nalezených příspěvků z různých oblastí. Počet témat, která jsou nalezena v jednom příspěvku, není nijak omezen.

Vyhledávání příspěvků se provádí dvěma základními způsoby. Nejjednodušší je použití grafů v dashboardu srovnávajících počet příspěvků v každém tématu za vybrané období, ať už celkově, nebo v libovolné tematické skupině. Velmi jednoduše lze vytvářet krostabulace různých tematických skupin, autorů i internetových zdrojů (internetové adresy anebo dělení podle článků, diskusí pod články, blogy, diskusními fóry či konkrétními sociálními sítěmi) a ve výsledných grafech na jedno kliknutí zobrazit všechny příspěvky odpovídající daným kritériím.

Další možností je použití online vyhledávacího nástroje, rovněž v dashboardu, který umožňuje filtrování podle výše uvedených metainformací za libovolné časové období, a navíc ad hoc zadané dotazy na klíčová slova, fráze a jejich kombinace logickými operátory AND, NOT a OR. Vyhledávání podle klíčových slov také zohledňuje českou morfologii, k dispozici je i fuzzy vyhledávání podobných slov.

Příspěvky odpovídající zadanému dotazu a všem filtrům se uživateli ihned zobrazují
a aplikace umožňuje okamžité stažení nalezených výsledků ve formátech Excel a CSV.

Kategorizace příspěvků

Vlastní kategorizace (klasifikace) příspěvků je vyhledávacím analytickým nástrojem Yeseter definována ve dvou základních úrovních: nastavením taxonomie a seřízením grafického uživatelského prostředí, dashboardu, přes které uživatel systému nahlíží na monitorované příspěvky.

Systémové metainformace

  • Doména
  • Kategorie
  • Datum a čas
  • Konfigurovatelná taxonomie

Skupina

  • Téma
  • Klíčová slova a fráze
  • Logické operátory
  • Sentiment

Uživatelské metainformace

  • Uživatelské značky
  • Zadaný sentiment

Vlastní klasifikační schéma se skládá z několika základních prvků:

  • Skupina
  • Téma
  • Doména
  • Kategorie
  • Klíčové slovo, fráze
  • Logické operátory
  • Autor
  • Období
  • Sentiment
  • Uživatelské značky, tagy

Kombinací těchto základních kategorizačních entit ve spojení se širokou paletou grafických výstupů lze dosáhnout vysoce efektivního způsobu třídění informací a maximálního uživatelského komfortu.

Skupiny a témata

Kategorizace příspěvků je definována nastavením taxonomie vyhledávacího nástroje Yeseter. Taxonomie umožňuje třídit výsledky podle skupin a témat, přičemž každá skupina sestává z libovolného počtu témat. Příspěvek může být systémem klasifikován do více témat a tudíž i skupin.

Skupiny a témata je možné mezi sebou vzájemně kombinovat a zároveň selektovat, tj. pro analýzu tuzemských politických osobností lze ze skupiny Osobnosti vybrat pouze představitele domácí politiky a v jiném případě např. pouze ženy.

Kategorie

Kategorie je základním rozdělením jednotlivých typů příspěvku. Hlavními kategoriemi jsou:

  • článek
  • blog
  • diskuzní příspěvek k článku, blogu
  • recenze
  • sociální síť (FB, Twitter, G+, YT apod.)

Domény
Systém umožňuje klasifikovat příspěvky podle domén, tj. konkrétních webových zdrojů, jednoznačně definovaných svou url adresou. Tedy např. url idnes.cz reprezentuje jednu doménu, stejně jako facebook.com. Systém vytěžuje nejfrekventovanější domény pro konkrétní projekt a pravidelně je doplňován o další relevantní domény pro danou oblast.

Klíčová slova a fráze
Každé téma je definováno sadou charakteristických klíčových slov a frází. V jejich nastavení napomáhá uživateli i samotný systém, který pracuje se stemmingem (ohýbáním, resp. skloňováním slov) včetně řešení nespisovných slovních tvarů, takže uživatel se při nastavování klíčových slov nemusí detailně zabývat vyjmenováváním všech možných tvarů slov.

Logické operátory
Klíčová slova a fráze je možné vzájemně kombinovat za použití logických operátorů AND, NOT, OR a MINUS. Operátory umožňují efektivní klasifikaci a řazení příspěvků do jednotlivých témat. Systém umožňuje testování efektivity logických operátorů před jejich nasazením.

Autor
Kromě příspěvku samotného umí systém třídit informace i podle jejich autora. Autorem příspěvku může být autor diskuzního příspěvku publikující pod svým vlastním jménem nebo přezdívkou (nickem). Autorem článku zase může být novinář, podepsaný pod článkem uveřejněným na zpravodajském serveru.

Období
Příspěvky lze třídit a podrobit je vyhledávání i z pohledu času. Časové rozpětí lze libovolně nastavovat a posouvat zpět do historie za pomoci jednoduchého kalendáře. Nejmenší časovou jednotkou pro vyhledávání je den.

Sentiment
V rámci taxonomie je jednou ze skupin i mandatorní skupina SENTIMENT obsahující jazykové korpusy pozitivního a negativního sentimentu, pomocí kterých systém určuje zabarvení nálady jednotlivých příspěvků. Každému příspěvku je systémem automaticky přidělen sentiment s číselným zobrazením váhy sentimentu.

Základní členění sentimentu je – pozitivní, negativní, neutrální a smíšený – to když se v příspěvku zároveň sejdou negativní a pozitivní nálady najednou a se stejnou intenzitou.
Sentiment může být použit jako hodnotící kritérium u libovolné skupiny, tématu, autora či domény.

Uživatelská příručka, tag
Dalším prvkem pro upřesnění klasifikace je možnost přiřazení vlastní uživatelské značky (štítku, tagu) k příspěvku. Kategorizace tak získává další rozměr, resp. ještě jemnější granulitu zařazení příspěvku.

Uživatel má prostřednictvím přiřazení vlastní značky k libovolnému příspěvku možnost vytvořit si vlastní subkategorie, které s ním mohou sdílet i ostatní uživatelé. Podle těchto značek (tagů) lze v systému rovněž i vyhledávat.

Dashboard – personalizovaná nástěnka

Základním nástrojem pro vizualizaci, analýzu, filtrování a prezentaci sbíraných dat je uživatelský panel (nástěnka, dashboard) grafického rozhraní, která v prezentační rovině umožňuje pokročilou vizualizaci libovolné kombinace výše uvedených metainformací.

Uživatelské prostředí je tvořeno bohatou sadou grafů pro snadnou vizualizaci výsledků dle široké palety grafických knihoven. Kromě vizualizačních grafů poskytuje dashboard zároveň i tvrdá zdrojová data ve formátu Excel, CSV a PDF.

Kromě výše popsaného grafického ztvárnění výsledků, umožňuje uživatelský panel též sofistikované vyhledávání dle zadaných uživatelských dotazů, které lze tímto způsobem atomizovat až na úroveň informačních zlomků.

Mechanizmus kontroly zařazování příspěvků

Při manuálním procházení výsledků se občas může stát, že systém zařadí příspěvek do nesprávné kategorie anebo příspěvku přiřadí nesprávný sentiment apod. Pro tyto případy existuje velmi snadná náprava.

Systém disponuje jednoduchými mechanismy, kdy na jedno kliknutí lze příspěvek zařadit do jiné nebo další kategorie nebo jej zcela vymazat.

Stejně tak je možné upravit systémem automaticky přiřazenou náladu příspěvku, kdy u každého příspěvku má uživatel k dispozici emotikony pro pozitivní, negativní, neutrální nebo smíšený sentiment.

Tímto způsobem lze rovněž za použití statistických nástrojů naučit vyhledávač pracovat se sentimentem charakteristickým pro daný projekt.
V případě, že uživatel potřebuje z nějakého důvodu smazat příspěvek, je možně tento příspěvek hodit do koše. Tento příspěvek se následně již v dané kategorii nezobrazí, v systému však zůstává pro možnost dalšího zpracování.

Budeme rádi za jakoukoli zpětnou vazbu, která nám pomůže danou metodiku zdokonalit a také za náměty, jaké další informace zpracovat a na co se v našich analýzách zaměřit.

Taxonomie Yeseter monitoringu v projektu HateFree

Nastavení klíčových slov je promítnuto do taxonomie projektu a zaměřuje se na tři sledované skupiny

  • Romové
  • Muslimové
  • Homosexuálové

Romové – Příklad klíčových slov
Všechny tvary slov: Rom, romština, romák, romulán, cikán, cigán, cikorka, tmavočech, hnedočech, apač, nepřizpůsobivý, nejmenovaná menšina a další.

Muslimové – Příklad klíčových slov
Všechny tvary slov: muslim, mohamedán, machometán, musulman, islámista, arab, arabáč, arabák, ručníkář apod.

Homosexuálové – Příklad klíčových slov
Všechny tvary slov: homosexuál, gay, teplouš, teplý spoluobčan, buzerant, buzík, buzna, buznička, homokláda, homouš, hulibrk, kuřbuřt, spermohlt, řiťomil, řiťopich, lesba, lesbička a jiné.

Monitoring rovněž automaticky přes tři sledované skupiny pracuje s kategoriemi:

Bydlení
Postoj k bydlení, bytová otázka, ubytovny
Klíčová slova: byt, bydlení, dům, ubytovna, čunkodomky, ghetto a další.

„Černý“ rasismus
Tedy projevy nesnášenlivosti vůči majoritní společnosti
Klíčová slova: černý rasismus, bílý svině, běloši, gádžové apod.

Gambling
Hazard, gamblerství, herny a hrací automaty
Klíčová slova: gambling, gambler, hazard, herna, hrací automat apod.

Hygiena
Čistota prostředí, vztah k hygieně
Klíčová slova: hygiena, čistota, svrab, smrad, špína, úklid, uklizeno a další.

Integrace
Asimilace a integrační snahy
Klíčová slova: integrace, asimilace, smír, smíření, usmíření apod.

Kriminalita
Trestné činy, kriminalita, okrádání
Klíčová slova: kriminalita, kriminálník, příživník, trestat, trestaný, zloděj, krádež, zabít a jiné.

Kultura
Kulturní dění a směry
Klíčová slova: kultura, festival, koncert, hudba, tanec a jiné.

Multikulturalismus
Multikulturní prostředí
Klíčová slova: multikulturalizmus, multi-kulti, pluralita.

Nezaměstnanost
Hledání práce, bez práce, žebrání
Klíčová slova: nezaměstnanost, zaměstnanost, bez práce, nemakačenko, práce, pracovat, žebrák a další.

Náboženství
Náboženské otázky
Klíčová slova: náboženství, víra, věrozvěst, prorok, apoštol, křesťan, islám, Bůh, Ježíš, Alláh, Mohamed, islám, bible, korán apod.

Prostituce
Prostituce, nevěstince, bordely
Klíčová slova: prostituce, prostitutka, děvka, běhna, kurva, šlapka, bordel apod.

Příživnictví
Sociální dávky a příživnictví
Klíčová slova: příživník, sociální dávky apod.

Rasismus
Rasistické nálady, volání po rasové segregaci
Klíčová slova: rasismus, nácek, nacista, fašista fašoun, segregace, holokaust, koncentrák, do plynu a jiné.

Rodina
Rodina, rodinné prostředí, výchova a starostlivost o děti
Klíčová slova: rodina, rodinné prostředí, výchova, starostlivost a péče o děti a další.

Sex
Erotika a sex
Klíčová slova: erotika, erotický, sex, sexuální, pohlavní a další.

Terorismus
Šíření terorismu, někdy ve studii též popisovaný jako černý rasismus
Klíčová slova: teror, terorista, terorismus, molotovův koktejl a další.

Tolerance
Tolerance, smír a smíření
Klíčová slova: tolerance, netolerance, smír, smíření a další.

Tradice
Postoj k tradicím, odívání, kuchyně, stravování
Klíčová slova: tradice, odívání, burka, kuchyně, jídlo, dějiny, historie, zvyky, svatba apod.

Vzdělání
Školství, vzdělání a vzdělávání
Klíčová slova: vzdělávání, vzdělání, učení, škola, školství, učeň, maturita, středoškolák, student, žák, univerzita apod.

Dále jsou monitorovány výstupy organizací, které se tématům věnují.


Autor: Petr Zavoral
Jednatel společností Yeseter Now a Yeseter Technologies zabývajících se sociálními médii. Dříve pracoval ve společnostech SAP, Oracle, SAS Insitute nebo KPMG v tuzemsku i v zahraničí.

Článek byl publikován na webu Hate Free Culture

HateFree Culture