Themen, Foren oder Schlüsselwörter?

Wie schon erwähnt können im Heise Newsticker verschiedene Kategorisierungen für weitere Analysen verwendet werden:

  • "weiterführende Themen" wird es unten einem Artikel genannt und enthält eine unterschiedliche Anzahl an Links zu Bereichen, unter denen weitere (ältere) Artikel mit ähnlichem Schwerpunkt zu finden sind. Grundsätzlich wäre dies eine gute Kategorisierung von Artikeln, aber leider gibt es eine deutliche Zahl von Artikeln, die ganz ohne Thema geführt werden, was diese "Themen" dafür eher ungeeignet macht.
  • "Foren" tauchen ebenfalls unten einem Artikel auf und führen per Link zu einem Userforum eines speziellen Themas. Dies könnte man als Kategorie für einen Artikel verwenden, aber leider gilt auch hier, dass bei weitem nicht alle Artikel einen solchen Link enthalten und damit aus der Statistik fallen würden.
  • "Keyword" werden nicht im sichtbaren Teil eines Artikels geführt, sondern als meta-Tag im HTML-Code. Diese werden für die überwiegende Zahl der Artikel geführt und bieten sich daher zur weiteren Analyse an.

Entsprechend werden wir im folgenden näher auf die Schlüsselwörter eingehen und sehen, was sie uns über die Artikel, die Redakteure und die Redaktion verraten. Im Datensatz befinden sich insgesamt 19092 unterschiedlichen Keywords, von denen aber über 11000 Keywords für die Analyse von Artikeln wenig zu gebrauchen sind, da sie nur 1x Verwendung finden. Knapp 1100 Keywords werden mehr als 10x in Artikeln verwendet und nur diese 105 Keywords werden mehr als 100x verwendet:

Erstaunlich: es erscheint so, als wäre iMac die Hauptzeitschrift des heise-Verlags: "Apple" ist das mit Abstand am häufigsten verwendete Keyword im Newsticker; gefolgt von "Datenschutz", "Google", "Netze" und "Spiele". Bei näherer Betrachtung lässt sich die Präsenz von "Apple" aber gut erklären und relativieren: Jede Meldung zu iPhone, zu MacBook, zu iTunes oder IOS wird mit diesem Keyword bedacht und ist damit 4 Keywords in einem. Nimmt mal "Apple" aus der Statistik raus, passt das Bild wieder der Schlüsselwörter wieder.

Kartenmaterial

Natürlich lässt sich auch für den Heise Newsticker eine Karte der verwendeten Keywords zeichnen. In dieser Karte wird jedes verwendete Keyword zu einem Kreis, dessen Größe zur Anzahl der Vorkommnisse proportional ist. Jedes Keyword ist mit jedem anderen Keyword verbunden, mit es gemeinsam verwendet wurden, wobei eine häufigere gemeinsame Verwendung zu stärkeren Verbindungen führt. In einer Kraft-Feder-Simulation organisieren sich die Keywords anschließend völlig selbständig und erzeugen schließlich einen erstaunlichen Überblick über die Zusammenhänge der Keywords.

Lustigerweise ist ein Bild entstanden, dass irgendwie an die Umrisse einer Deutschlandkarte erinnert. In diesem Bild ist der Ruhrpott dann durch Apple dominiert. Der Norden spielt und kümmert sich um Prozesoren und der Süden ist dem dem Datenschutz beschäftigt, während der Osten außer mit der Raumfahrt eher dünn besiedelt ist mit Themen. Microsoft sitzt in Hannover und Linux in Berlin.

In der interaktiven Version dieser Karte kann man noch viele weitere Details finden. Auch wenn die Karte lediglich eine aus der Keyword-Verwendung der Heiseredaktion resultierende Sicht darstellt, so ergeben sich sowohl nachvollziehbare als auch überraschende Zusammenhänge:

  • iPhone, iPad, iPod, Apple Watch, Mac OS und Co sortieren sich brav um "Apple" herum und erklären so die Dominanz dieses Keywords.
  • Microsoft muss sich mit Android um die Smartphones streiten
  • Berichterstattung über Spiele und Grafikkarten haben erwartungsgemäß einen engen Zusammenhang, bei dem auch Prozessoren mitspielen wollen
  • WhatsApp und Twitter kuscheln sich -- zusammen mit Yahoo -- schön an Facebook ... und das Steuerrecht ist erstaunlicherweise mit dabei
  • Donald Trump und Hillary Clinton bilden zusammen mit Russland ein schönes Dreieck. Barack Obama wird in diesem Bild deutlich näher an Russland gerendert als Trump.

Die Karte stellt die wichtigesten Keywords aus der Zeit zwischen 01/2016 und 09/2017 dar; nur 1x vorkommende Keywords oder solche, die nur einzeln verwendet wurden, sind für eine bessere Übersichtlichkeit ausgeklammert. Es gibt vieles zu entdecken, schaut selber mal rein.

Bewertungen

Einer der großen Vorteile des Heise Newsticker ist die Funktion, dass Userkommentare von anderen Usern bewertet werden können. Über die Verknüpfung Artikel -> Keyword -> Kommentar ergibt sich folgendes Bild:

Auf der x-Achse sind die 50 meistverwendeten Keywords in absteigenden Reihenfolge der Häufigkeit ihrer Verwendung aufgetragen; auf der y-Achse die Anzahl an User-Kommentare, die auf Artikel mit dem jeweiligen Keyword abgegeben wurden. "Apple" sticht hier genauso hervor und auch für die anderen Keywords kann man erahnen, dass die Anzahl der Kommentare pro Keyword gut mit der Anzahl der Artikel pro Keyword korreliert.

Im nächsten Schritt schauen können wir uns anschauen, wie sich die Bewertungen anderer User auf diese User-Kommentare verteilen:

Dies ist nun die gleiche Grafik, in der jedoch die unteren Enden der Balken entsprechend der Anzahl deutlich negativer Kommentare (-100 bis -50 = rot) und leicht negativer Kommentare (-50 bis -1 = hellrot) eingefärbt sind. Entsprechend sind die oberen Enden grün für deutlich positive Kommentare (100 bis 50) bzw. hellgrün für leicht positive Kommentare (50 bis 1) eingefärbt. Der blau-graue bereich dazwischen repräsentiert die unbewerteten Kommentare bzw. solche, die einen Mittelwert von 0 erreicht haben.

Diese Grafik wird ins im nächsten Teil bei der näheren Betrachtung der User wieder begegnen. Für jetzt wollen wir noch einen Blick auf die Verteilung der positiven und negativen Kommentare je Keyword werfen:

Auch in dieser Grafik sind auf der y-Achse die 50 meistverwendeten Keywords in absteigenden Reihenfolge aufgetragen. Auf der y-Achse sind nun die Kommentar-Anzahlen auf jeweils 100% je Keyword normiert, so dass die Anteile der positiven und negativen Bewertungen verglichen werden können. Die überlagerte Kurve stellt zum Vergleich nochmal die Anzahl der Kommentare dar, die für Artikel mit dem jeweiligen Keyword abgegeben wurden.

Auf der Suche nach einer "grünen Welle" kann diese Darstellungsart wertvolle Hilfe leisten. In dieser Übersicht zeigt sich aber vielmehr, dass das Verhältnis von positiven zu negativen Kommentar-Bewertung über Keywords eher gleichverteilt ist. "Facebook", "Donald Trump" oder "Social Media" treten in Sachen grüner Kommentare etwas hervor, gleichzeitig sind sie aber auch bei den roten Kommentare leicht vorn. Exemplarisch können wir nun noch mal in z.B. "Donald Trump" tiefer rein schauen:

Hier sind nun die 50 meistkommentierten Artikel mit dem Keyword "Donald Trump" (jeweils mit ihrer Artikel-ID) aufgetragen , wieder mit auf 100% normierten Balken und Aufteilung der Bewertungen. Zumindest bei diesem Keyword ist keine grüne Welle erkennbar, jedoch scheinen manche Artikel deutlich heißer diskutiert zu werden als andere: Das Verhältnis zwischen positiv, negativ und neutral bewerteten Artikeln variiert deutlich und macht Lust, die Hintergründe hierfür zu erforschen.