Metainformationen zur Seite
Dies ist eine alte Version des Dokuments!
stylo ah online - Handbuch
Ursprung: stylo ah online - stylo ohne Installation
Im Rahmen unsere Lehrtätigkeit und unserer Forschungstätigkeit haben wir das R-Paket stylo eingesetzt. Wir haben dieses mittels R und Python weiterentwickelt. Vornehmlich vier Dinge sind an der R Implementierung schwierig:
- Die Möglichkeit zur Selbstdokumentation der Experimente ist gering.
- Die Interaktion zwischen Python und R ist problematisch.
- Die Möglichkeit eines einfachen Einsatzes von Multiprocessing ist fraglich.
- Die Software ist teilweise schwierig zu installieren.
Daher wollte wir die Funktionalität von stylo nachempfinden; ohne Installation und mit erweiterten Dokumentations- und Vergleichsmöglichkeiten ausstatten.
Links zum Thema
- stylo das Original in R geschrieben.
- stylo ah die R / Python Kopie mit zusätzlichen Funktionen für klassische Texte.
- stylo ah online die originale Kopie in JavaScript implementiert.
Implementierte Analyse-Pipeline(s)
Die Implementierte Textanalyse verläuft in sieben Schnitten. Diese stellen die Abfolge bzw. die Pipeline der Verarbeitung dar:
- Auswahl der Files (Corpus) (jedes File repräsentiert einen Text)
- Normalisierung (Formatanpassung, Zeichenvereinheitlichung, Löschung von Struktur und Metadaten, Maskierung von Wortformen)
- Zerlegung in Token (Wortformen, Silben, grame, Zeichen)
- Zählung / Vektorbildung (01-Kodierung, abs. / rel. Häufigkeit, TF-IDF)
- Auswahl aus den Vektoren (Beschränkung der Häufigkeitsliste, Häufigkeitsfenster, Culling)
- Anwendung eines Maßes
- Anwendung einer Cluster-Methode
Funktionsüberblick
In stylo ah online sind folgende Funktionen verfügbar:
Normalisierung:
Normalisierung
Zerlegung (Token):
Zerlegung
Zählung:
Zählung
Maße:
Maße
Gruppierung:
Gruppierung
Benutzung
GUI Konzept
Jeder Verarbeitungsschritt wird in einem Konfigurationsschritt eingestellt. Jeder Konfigurationsschritt besitzt ein zusätzliches Kommentarfeld und eine der Anzeige der Zwischenergebnissen (rechte Spalte). Die GUI empfindet die Schritte der Textanalyse nach. Einzige Ausnahme bildet die Auswahl des Corpus, die ist zwar an oberer Stelle angezeigt, aber von der Benutzung her ist das der letzte Schritt! Jedes GUI-Element ist mit einer Beschriftung versehen. Sofern die Funktion einer weiteren Erklärung bedarf, dann ist zusätzlich eine kursive Erklärung angefügt.
Überblick zur Benutzung
- Konfiguration des Browsers
- Konfigurieren der Analyseschritte
- Corpus-Auswahl
- Erneute Berechnung
Die einzelnen Schritte der Textanalyse benutzen
Arbeitsschritt: Browser Voreinstellungen
Speicherort, Web-Konsole, RAM
Arbeitsschritt: Benennung
- das Benennungsmodel
- Benennungen in der Config-Datei
- Import Export der Config-Datei
- mehrer Konfigurationen speichern
- …
Arbeitsschritt: Configurations-Datei / Datenbank
Arbeitsschritt: Input
Arbeitsschritt: Normalisierung
Arbeitsschritt: Zerlegung
Arbeitsschritt: Zählung
Arbeitsschritt: Maßanwendung
Arbeitsschritt: Gruppierung
Arbeitsschritt: Export
Serien / Replikation
- Aufruf von
Browser
Welche Browser werden unterstützt?