Metainformationen zur Seite
Dies ist eine alte Version des Dokuments!
stylo ah online - Handbuch
Ursprung: stylo ah online - stylo ohne Installation
Im Rahmen unsere Lehrtätigkeit und unserer Forschungstätigkeit haben wir das R-Paket stylo eingesetzt. Wir haben dieses mittels R und Python weiterentwickelt. Vornehmlich vier Dinge sind an der R Implementierung schwierig:
- Die Möglichkeit zur Selbstdokumentation der Experimente ist gering.
- Die Interaktion zwischen Python und R ist problematisch.
- Die Möglichkeit eines einfachen Einsatzes von Multiprocessing ist fraglich.
- Die Software ist teilweise schwierig zu installieren.
Daher wollte wir die Funktionalität von stylo nachempfinden; ohne Installation und mit erweiterten Dokumentations- und Vergleichsmöglichkeiten ausstatten.
Links zum Thema
- stylo das Original in R geschrieben.
- stylo ah die R / Python Kopie mit zusätzlichen Funktionen für klassische Texte.
- stylo ah online die originale Kopie in JavaScript implementiert.
Implementierte Analyse-Pipeline(s)
Die Implementierte Textanalyse verläuft in sieben Schnitten. Diese stellen die Abfolge bzw. die Pipeline der Verarbeitung dar:
- Auswahl der Files (Corpus) (jedes File repräsentiert einen Text)
- Normalisierung (Formatanpassung, Zeichenvereinheitlichung, Löschung von Struktur und Metadaten, Maskierung von Wortformen)
- Zerlegung in Token (Wortformen, Silben, grame, Zeichen)
- Zählung / Vektorbildung (01-Kodierung, abs. / rel. Häufigkeit, TF-IDF)
- Auswahl aus den Vektoren (Beschränkung der Häufigkeitsliste, Häufigkeitsfenster, Culling)
- Anwendung eines Maßes
- Anwendung einer Cluster-Methode
Funktionsüberblick
In stylo ah online sind folgende Funktionen verfügbar:
Normalisierung:
Normalisierung
Zerlegung (Token):
Zerlegung
Zählung:
Zählung
Maße:
Maße
Gruppierung:
Gruppierung
Benutzung
GUI Konzept
Jeder Verarbeitungsschritt wird in einem Konfigurationsschritt eingestellt. Jeder Konfigurationsschritt besitzt ein zusätzliches Kommentarfeld und eine der Anzeige der Zwischenergebnissen (rechte Spalte). Die GUI empfindet die Schritte der Textanalyse nach. Einzige Ausnahme bildet die Auswahl des Corpus, die ist zwar an oberer Stelle angezeigt, aber von der Benutzung her ist das der letzte Schritt! Jedes GUI-Element ist mit einer Beschriftung versehen. Sofern die Funktion einer weiteren Erklärung bedarf, dann ist zusätzlich eine kursive Erklärung angefügt.
Überblick zur Benutzung
- Konfiguration des Browsers
- Konfigurieren der Analyseschritte
- Corpus-Auswahl
- Erneute Berechnung und Serien
1. Konfiguration des Browsers
Speicherort: Legen sie einen Ordner an in welchem die Ergebnisse von stylo-ah-online gespeichert werden können. Konfigurieren Sie ihren Browser so, dass er die Dowloads in diesem Ordner ablegt. die Anleitung für Firefox: https://support.mozilla.org/de/kb/suchen-und-verwalten-heruntergeladener-dateien#w_ziel-ordner-der-heruntergeladenen-dateien-andern
Datenbanken: Teilen sie dem Browser mit, dass er Datenbanken anlegen und nicht löschen soll. Dazu stellen sie sicher, dass die Chronik angelegt wird: https://support.mozilla.org/de/kb/firefox-chronik-zeigt-ihre-besuchten-webseiten
Web-Konsole: stylo-ah-online ist in JavaScript geschrieben. Die Web-Konsole bietet eine Darstellung von Meldungen zum Programmablauf und Hinweise auf Fehler. Nach einem Fehler können sie die Seite neu laden und den Ablauf erneut starten. Es bietet sich an die Web-Konsole anzuzeigen. Für Firefox aktiviert man diese so: https://firefox-source-docs.mozilla.org/devtools-user/tools_toolbox/index.html
2. Konfigurieren der Analyseschritte
2.1 Arbeitsschritt: Benennung
Das Benennungsmodel beinhaltet zusammengesetzte Namen für die Experimente. Dabei werden die einzelnen Teile der Benennung durch Unterstriche abgetrennt. Leerzeichen in Einträgen werden durch Bindestriche ersetzt. Die einzelnen Einträge der Benennung erlauben verschiedene Organisationsmuster für Experimente. Das Datum wird beim ersten Programmlauf automatisch ausgefüllt. Der einmal erstellte Name charakterisiert den Programmablauf und die Einstellungen genau. Änderungen in der Benennung führt auf ein neues Experiment, welches auch separat gespeichert wird. Die Benennung geht in die Config-Datei ein und ein erneuter Aufruf einer Config-Datei stellt alles unter dieser Bezeichnung wieder her. Auf diese Weise können mehrer Konfigurationen unterschieden werden.
2.2 Arbeitsschritt: Configurations-Datei / Datenbank
Im Abschnitt „Configuration“ können alle Einstellungen vorgenommen werden, die sich auf die Config-Datei beziehen. stylo-ah-online erlaubt die Speicherung der Konfiguration und genauso ihren erneuten Aufruf durch Eingabe einer Config-Datei. Für die Erstellung von Serien von Experimenten erlaubt es stylo-ah-online mehrer Config-Dateien zuerstellen und als Serie wieder zu öffnen. Die Ergebnisse werden für jede so gespeicherte Einstellung unter einem extra Namen abgespeichert. Für umfangreichere Corpora ist es nötig die Darstellung von Zwischenergebnissen zu beschränken. Das kann an dieser Stelle mit dem Haken bei „Display size of results“ erzielt werden. stylo-ah-online verfügt über eine Auto-save-Funktion, außerdem werden die eingegebenen Daten gespeichert, um diese bei einem erneuten Analysedruchlauf aus der Browser eigenen Datenbank zu holen. Man kann hier die Einstellungen und die Datenbanken oder beides zurücksetzen.
2.3 Arbeitsschritt: Input / Replication
Im Abschnitt „input / Replication“ geht es um den Aufruf der Textdateien, die analysiert werden sollen. Diese Handlung löst die erste Analyse aus und speichert Ergebnisse in der Datenbank. Mit „rerun“ kann man eine veränderte Konfiguration auf die vorhandenen Daten anwenden. Sollten Serienexperimente vorbereitet wurden sein, dann kann man die dazugehörigen Config-Files hier eingeben und so die Serienverarbeitung auslösen. Dazu werden die Daten aus der Datenbank verwendet. Der Arbeitsschritt der Dateieingabe muss der Letze sein, nachdem alle anderen Konfigurationen vorgenommen wurden.
2.4 Arbeitsschritt: Normalisierung (Normalization)
2.5 Arbeitsschritt: Zerlegung (features / decomposition / token)
2.6 Arbeitsschritt: Zählung (Selection / Counting)
Arbeitsschritt: Maßanwendung
Arbeitsschritt: Gruppierung
Arbeitsschritt: Export
3. Corpus-Auswahl
- Aufruf von