Heisemining online ist eine kleine Plattform zur statistischen Auswertung von Artikeln mit ihren Kommentar-Foren des Heise Newstickers. Für den Zeitraum von derzeit 2015-2020 liegen Metadaten von mehr als 60.000 Artikeln vor, die mit Hilfe einiger Filter und Ansichten zum stöbern einladen. Zu den Hintergründen des Projekts und auch einigen Details zur Herkunft und Bezeichnung der Datenelemente dieser Analysen siehe die Artikel-Serie zum Heisemining.

                                       

Los geht es auf https://www.heisemining.de: Die ersten beiden Diagramme geben einen Überblick, wo im vorhandenen Datenstamm man sich derzeit befindet; die weiteren Diagramme präsentieren Extrakte aus eben diesem Zeitbereich. verschiedene Übersichtendas erste Diagramm die jeweils pro Monat veröffentlichte Anzahl an Artikeln für den gesamten Zeitraum. In einer Navigationsbox kann dieser Zeitbereich ausgewählt werden, aber auch Keywords oder Autoren, nach denen die Anzeige gefiltert werden soll. Zusätzlich sind Schnellwahlknöpfe für Jahre und Monate vorhanden. Ein Klick auf einen Rating-Balken öffnet eine Seite mit weiteren Auswertungen konkret für den gewählten Artikel.

Daten in diesem Tool werden üblicherweise nur bis zum abgelaufenen Monat reichen. Da Kommentare erfahrungsgemäß bis zu  6 Tage nachlaufen, dürfte ein Update hier jeweils ungefähr in der zweiten Monatswoche erfolgen.

Die aktuelle Position im Datenstamm wird über zwei einfache Balkendiagramme grob dargestellt:

Die obere Grafik dieser Übersicht zegt den gesamten, vorhandenen Datenstamm in Artikeln pro Monat, wobei Heise-Plus-Artikel in hellblau dargestellt sind. Nach Auswahl eines Zeitbereiches wird dieser in diesem Diagramm entsprechend grau hinterlegt. Die untere Grafik entspricht danach dem Zoom in diesen Zeitbereich und stellt alle Artikel pro Tag dar. Auch hier sind Heise-Plus-Artikel in hellblau gezeigt.

Für eine detailiertere Auswahl der zu betrachtenden Artikel steht eine kleine Navigationsbox zur Verfügung. Ausgewählt werden können zur Zeit:

  • Zeitbereich:
    Tagegenau können Start- und End-Datum gewählt werden. Hier ist zu beachten:
    Wird der Zeitbereich zu klein gewählt, können ggf. zu wenig Artikel im Filter übrig bleiben, um sinnvolle Diagramme zu bilden.
    Wird der Zeitbereich zu groß gewählt, können die Antwortzeiten für die Erstellung der Grafiken lang werden.
    Zu empfehlen sind Zeitbereiche zwischen einem Jahr und einem Monat.
  • Autor:
    Hier kann ausgewählt werden, für welchen Autor die Artikel des Zeitbereichs gefiltert werden sollen. Zur Auswahl angeboten werden 100 meist schreibenden Autoren des Datenstamms.
  • Keyword:
    Hier kann ausgewählt werden, für welches Keyword die Artikel des Zeitbereichs gefiltert werden sollen. Zu Auswahl angeboten werden die 100 meist verwendeten Keywords des Datenstamms.
    Hinweis hier: Innerhalb der folgenden Darstellungen werden zum Teil weitere Möglichkeiten zur Wahl eines Keywords angeboten.

Die Auswahlen zu "Anzahl" und "Sortierung" haben derzeit noch keine Funktion; dies wird hoffentlich demnächst nachgerüstet.

Im Rahmen der Analysen wird immer wieder mit einer Form der Darstellung gearbeitet, die hier als "Rating-Balken" bezeichnet werden soll. Es handelt sich hierbei um eine Zusammenfassung sämtlicher Kommentare zu -- in der Regel -- einem Artikel inkl. deren Bewertung. Als Hintergrund-Information hierzu: Während auf der Webseite die Bewertung nur als mehr oder weniger breiter roter oder grüner Balken zu erkennen ist, wird sie innerhalb des HTML-Codes zudem als Zahlenwert zwischen -100 (= rot) und +100 (=grün) angegeben. Über diese Zahlenwerte wird ein Histogramm gebildet und im Rating-Balken dargestellt.

  • Die Länge des Gesamtbalken entspricht der Anzahl aller Kommentare, die (auf den Artikel) abgeben wurden.
  • Alle Kommentare mit besserer Bewertung als +50 werden dunkelgrün dargestellt; alle bis +1 in hellgrün
  • Alle Kommentare mit schlechterer Bewertung als -50 werden dunkelrot dargestellt; all bis -1 in hellrot
  • Alle Kommentare mit Bewertung 0 werden durch den gräulichen Anteil des Balkens repräsentiert.
    Es sein hier darauf hingwiesen: In der Regel sind die Kommentare, die garnicht bewertet wurden. Grundsätzlich erhalten aber auch Kommentare mit ausgeglichener rot/grün-Bewertung den Wert 0

Diese Form der Darstellung hat sich bewährt und gibt vor allem im Vergleich verschiedener Artikeln einen ersten Überblick über die Struktur der Kommentierung. Zudem können auch alle Kommentare nach Keywords, Autoren und prinzipiell auch Usern auf diese Weise visualisiert werden. Mit der Zeit werden ggf. noch weitere Auswertungen in diese Richtung auf dieser Mining-Seite ergänzt-

In der ersten Ansicht werden Rating-Balken für die 15 meist-kommentierten Artikel des aktuellen Filters (Zeitbereich, Autor, Keyword) aufgelistet:

Die Länge jeden Balkens entspricht hier der Anzahl aller Kommentare auf den jeweiligen Artikel, abzulesen an der x-Achse unter den Balken. Als Overlay wird der Titel des Artikels eingeblendet und auf der y-Achse ist der Zeitpunkt der Veröffentlichung eingetragen. Jeder Balken kann überall dort geklickt werden, wo kein Text steht. Dieser Klick führt zu einer neuen Seite, in der Statistiken zum gewählten Artikel zusammengefasst werden (siehe weiter unten).

 

Die zweite Ansicht zeigt die 15 "grünsten" Artikel innerhalb des aktuellen Filters:

"grün" meint hier den Versuch, "grüne Wellen" im Forum zu identifizieren. "Grüne Wellen" sind dabei Forum-Seiten, die durch ihre überwiegende bis durchgehende grün-Wertung aller Erst-Kommentare auffallen. Nach einem (noch zu verfeinernden) Algorithmus, werden die Ratings der jeweils die Threads startenden Kommentare igegeneinander aufgewogen. So entsteht ein Score für grüne Wellen, nach denen die Arikel innerhalb des Filters absteigend sortiert werden. Die Länge des Rating-Balkens repräsentiert hier nun die Anzahl der Kommentar-Threads zu diesem Artikel und wieder sind die Balken klickbar.

Sobald der Filter ein Keyword enthält, wird eine dritee Ansicht gezeigt, die Zusammenhänge zwischen Keywords zeigt:

Dargestellt als Balken sind hierbei Keywords, die innerhalb des gewählten Zeitbereiches gemeinsam mit dem aktuell ausgewählten Keyword verwendet werden. Angezeigt werden die 20 meistverwendeten Keywords in absteigender Reihenfolge, wobei das aktuelle Keyword ganz links als Referenz mit enthalten ist. Alle Balken sind klickbar und ändern den Filter auf das jeweilige, neue Keyword.

Es sei darauf hingewiesen, dass bei Auswahl von selten verwendeten Keywords möglicherweise wenig oder gar keine Arikel mehr zu Ansicht zur Verfügung stehen. In diesem Fall sollte zunächst der Zeitbereich vergrößert werden oder auf ein häufiger verwendetes Keyword gewechselt werden (z.B. über die Keyword-Auswahl im Navigationsbereich). Dennoch bietet diese Ansicht eine schöne Möglichkeit, sich durch die Themengebiete des Heise-Newstickers zu hangeln und die jeweilis meist- bzw. best-kommentierten zu sichten.