Algoritmus word2vec, zjednodušeně řečeno, umožňuje vyhledat ve velkých textových korpusech sémanticky blízká slova. V podstatě jde o natrénovanou neuronovou síť, která se snaží předpovědět, jaká slova budou tvořit kontext konkrétního slova.
My jsme se v naší aplikaci inspirovali projektem serveru Pro Publica How Machines Learn to Be Racist, který naučil tuto neuronovou síť najít blízká slova v korpusech amerických médií.
Pro naše účely jsme vytvořili korpusy pro pět skupin českých médií, u nichž jsme měli dostatek dat. Proto oproti původní typologii nejsou některá média zahrnuta a média zařazená do hlavního proudu jsme rozdělili na dvě skupiny. Do první jsme zařadili samostatně Novinky.cz, které mají spíš středolevé a levicové publikum, do druhé pak média se spíše středopravicovým a pravicovým publikem.
Analyzované korpusy obsahují všechny články publikované na uvedených serverech v době mezi zářím 2017 a zářím 2018. Pro lepší výsledek jsme strojově převedli všechna tato slova do základních tvarů (tzv. lemmatizovali) pomocí knihovny UDPipe.
Výsledky jsou seřazeny podle abstraktní vzdálenosti. Tučně jsou pak zvýrazněna ta slova, která jsou typická pro jednotlivé typy médií.
Tento projekt byl připraven ve spolupráci se Studii nových médií FF UK.