Podpořte nás
Chci odebírat novinky
22. 10. 2018

Sémantické prostory českého zpravodajství

Algoritmus word2vec, zjednodušeně řečeno, umožňuje vyhledat ve velkých textových korpusech sémanticky blízká slova. V podstatě jde o natrénovanou neuronovou síť, která se snaží předpovědět, jaká slova budou tvořit kontext konkrétního slova.

My jsme se v naší aplikaci inspirovali projektem serveru Pro Publica How Machines Learn to Be Racist, který naučil tuto neuronovou síť najít blízká slova v korpusech amerických médií.

Pro naše účely jsme vytvořili korpusy pro pět skupin českých médií, u nichž jsme měli dostatek dat. Proto oproti původní typologii nejsou některá média zahrnuta a média zařazená do hlavního proudu jsme rozdělili na dvě skupiny. Do první jsme zařadili samostatně Novinky.cz, které mají spíš středolevé a levicové publikum, do druhé pak média se spíše středopravicovým a pravicovým publikem.

  • Antisystémové: Nová republika, Vlastenecké noviny, Rukojmí, Svobodné noviny, AC 24, Czech Free Press, ČeskoAktuálně, Aeronet, NWOO, Protiproud, Bez Politické Korektnosti, Outsider Media a Zvědavec
  • Politický bulvár: Parlamentní listy, První zprávy a Eurozprávy
  • Bulvár: Blesk a Aha Online
  • Hlavní proud - levý střed: Novinky
  • Hlavní proud - pravý střed: iHned, iDnes, Lidovky a Aktuálně

Analyzované korpusy obsahují všechny články publikované na uvedených serverech v době mezi zářím 2017 a zářím 2018. Pro lepší výsledek jsme strojově převedli všechna tato slova do základních tvarů (tzv. lemmatizovali) pomocí knihovny UDPipe.

Výsledky jsou seřazeny podle abstraktní vzdálenosti. Tučně jsou pak zvýrazněna ta slova, která jsou typická pro jednotlivé typy médií.

Tento projekt byl připraven ve spolupráci se Studii nových médií FF UK.

Cookies

Tyto webové stránky používají k poskytování svých služeb soubory cookies. Bližší informace o cookies získáte po kliknutí na tlačítko „Detailní nastavení“. Můžete si nastavit, které cookies budeme moci používat nebo nám udělit souhlas s používáním všech cookies kliknutím na tlačítko „Povolit všechny“. Nastavení cookies můžete kdykoliv změnit v zápatí našich webových stránek. Více o ochraně osobních údajů zde.
Pomáhají ke správnému fungování webových stránek a k přístupu k jejich zabezpečeným částem. Použití těchto cookies není možné odmítnout.

Umožňují analyzovat využívání webových stránek jejich návštěvníky, za účelem jejich vylepšování. Pomáhají nám získat informace o metrikách, počtu návštěvníků, míře okamžitého opuštění, zdroji návštěvnosti atd.