Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- de:styloahonline:handbuch [2024-09-11] – [Serien von config files] Hannes Kahl
+++ de:styloahonline:handbuch [2024-09-11] (aktuell) – [Mehrer Config files] Hannes Kahl
@@ Zeile 202: / Zeile 202: @@
 Für umfangreichere Corpora ist es nötig die Darstellung von Zwischenergebnissen zu beschränken. Das kann an dieser Stelle mit dem Haken bei "Display size of results" erzielt werden. stylo-ah-online verfügt über eine auto-save-Funktion, außerdem werden die eingegebenen Daten gespeichert, um diese bei einem erneuten Analysedurchlauf aus der Browser eigenen Datenbank zu holen. Die letzten Buttons des Abschnitts erlauben es, die Einstellungen und die Datenbanken oder beides zurücksetzen.
-== Input Config files ==
+== Input eines Config files ==
-Wenn config files über die "Save config file"- oder "Gen all..."-Buttons erzeugt wurden, so können sie mittels dieses Buttons wieder geladen werden. Das Tool stellt die Konfiguration, dann so ein, wie diese im config file angegeben ist. Alte config files sind mit neueren kompatibel. Werden mehrer config files geladen, dann werden diese nacheinander verarbeitet und die Ergebnisse werden, wie angegeben abgespeichert. Mehrer Konfigurationen dieser Art werden auf dem aktuellen
+Wenn config files über die "Save config file"- oder "Gen all..."-Buttons erzeugt wurden, so können sie mittels dieses Buttons wieder geladen werden. Das Tool stellt die Konfiguration, dann so ein, wie diese im config file angegeben ist. Alte config files sind mit neueren kompatibel. Das Konfiguration wird stets auf das aktuelle Korpus angewendet.
+== Mehrere Config files ==
+Werden mehrer config files geladen, dann werden diese nacheinander verarbeitet und die Ergebnisse werden, wie angegeben, abgespeichert. Mehrer Konfigurationen dieser Art werden auf dem aktuellen Korpus ausgeführt.
 == Serien von config files ==
@@ Zeile 213: / Zeile 218: @@
 Sowohl das Tool, als auch der Browser betreiben ein Caching. Caching bezeichnet die Speicherung von Einstellungen, Daten und Zuständen.
+Wenn der Button "Delet configuration" benutzt wird, dann werden alle Einstellungen gelöscht und es werden auch keine default-Einstellungen vorgenommen. Im Anschluss können alle Einstellungen neu vorgenommen werden.
+Wenn der Button "Delete data base" benutzt wird, so bleiben die Einstellungen erhalten, allerdings werden alle Eingabedaten und alle Zwischenergebnisse gelöscht. Die Datenbank der Eingabedaten und Zwischenergebnisse wird nicht automatisch gelöscht.
+Wenn man den Button "Reset stylo-ah-online" auswählt, so werden die Einstellungen und die Datenbanken gelöscht.
+Will man die Seite und somit den Zustand (Programmversion) des Tools nicht aus dem Browser-Cach laden, sondern den neusten Code vom Server, dann kann man den Button "Refresh page/tool" verwenden.
 === 2.3 Arbeitsschritt: Input / Replication ===
-{{:de:styloahonline:input.png?600|}}
+{{:de:styloahonline:import_2_2024-09-11.jpg?800|}}
 Im Abschnitt "Input / Replication" geht es um den Aufruf der Textdateien, die analysiert werden sollen. Diese Handlung löst die gesamte / erste Analyse aus und speichert Ergebnisse in der Datenbank. Mit "Re-run" kann man eine veränderte Konfiguration auf die vorhandenen Daten anwenden. Sollten Serienexperimente vorbereitet worden sein, kann man die dazugehörigen Config-Files hier eingeben und so die Serienverarbeitung auslösen. Dazu werden die Textdaten aus der Datenbank verwendet. Der Arbeitsschritt der Dateieingabe muss der letzte Schritt sein, nachdem alle anderen Konfigurationen vorgenommen wurden.
@@ Zeile 227: / Zeile 236: @@
 === 2.4 Arbeitsschritt: Normalisierung (Normalization) ===
-{{:de:styloahonline:normalization.png?600|}}
+{{:de:styloahonline:norm_2_2024-09-11.jpg?800|}}
-Es wird außerdem ein Histogramm der absoluten Häufigkeiten der Zeichen in den normalisierten Texten angezeigt.
+Auf der rechten Seite werden die Zwischenergebnisse des Normalisierungsschritts angezeigt. Man kann somit Einsicht in die Güte der Normalisierung nehmen und gegebenen falls Änderungen vornehmen. Unter dem Anzeigetext befindet sich die Liste der Eingabetexte, die als Menü funktioniert. Es wird außerdem ein Histogramm der absoluten Häufigkeiten der Zeichen in den normalisierten Texten angezeigt.
 == 2.4.1 Word masking / stop words ==
@@ Zeile 250: / Zeile 259: @@
 === 2.5 Arbeitsschritt: Zerlegung (features / decomposition / token) ===
-{{:de:styloahonline:token.png?600|}}
+{{:de:styloahonline:token_2_2024-09-11.jpg?800|}}
 == 2.5.1 Word level decomposition ==
@@ Zeile 261: / Zeile 270: @@
 === 2.6 Arbeitsschritt: Zählung (Selection / Counting) ===
-{{:de:styloahonline:counting.png?600|}}
+{{:de:styloahonline:counting_2_2024-09-11.jpg?800|}}
 Im oberen Pulldown-Menü des Abschnitts kann man sich für die Zählweise entscheiden, die auf die Menge aller Token (Wortformen) angewendet werden soll. Die absolute Häufigkeit, ist die Anzahl des Auftretens eines Token. Die relative Häufigkeit ist die Auftretenszahl eines Token geteilt durch die Textlänge. Das schwächt den Einfluss der Textlänge ab. Allerdings überdeckt dies das Problem im Corpus sehr kurze Texte mit sehr langen Texten zu vergleichen. Die Kodierung des Auftretens oder Nichtauftretens in einem Text, kann mittels 0 und 1 geschehen. Dann wird lediglich die Existenz von Token untersucht. Abschließend stehen zwei Zählungen bereit, die eine Beziehung zum Gesamtkorpus herstellen. Die TF-IDF stellt den Bezug zwischen relativer Häufigkeit in einem Text eines Token zur Häufigkeit in Texten vertreten zu sein her. Der Quotient aus relativer Häufigkeit pro Text und relativer Häufigkeit im Corpus mindert die Funktion der relativen Häufigkeit ab und sollte Werte ergeben, die sich zwischen der absoluten Häufigkeit und der relativen Häufigkeit bewegen.
 Um dem Umstand verschieden langer Texte noch auf eine andere Weise zu begegnen, existiert die Einstellung "Text length normalization". Setzt man hier den Haken, dann wird jeder Text in Teile der Länge des kürzesten Textes im Corpus zerlegt. Will man diesen Vorgang rückgängig machen, so muss man die Texte erneut laden und den Haken zuvor entfernen. Bei umfangreicheren Corpora und sehr unterschiedlich bemessenen Textlängen ist Vorsicht angebracht. Vergleicht man ein Fragment weniger hundert Wortformen mit einem Buch, so wird das Buch in viele tausend Teile zerlegt. Die Funktion steht nur beim Laden eines Corpus zur Verfügung und kann nicht mit dem "Re-run" Button ausgelöst werden.
+Es wird zusätzlich eine Diagramm angegeben, was die Zählung pro Token und Text als Barplot angibt.
 == 2.6.1 Most frequent token / words (per text) ==
@@ Zeile 275: / Zeile 286: @@
 Mit den beiden Werten kann man angeben, in wie viel Prozent der Texte ein Token mindestens und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen.
+== 2.6.3 Textlängen Normalisierung ==
+Eine Normalisierung, die verschiedene Vergleichs- und Rechnungsprobleme mildert ist die Textlägennormalisierung. Dabei kann auf folgende Weise vorgegangen werden, um immer nur gleich lange Texte zu vergleichen. Für ein Corpus gemischter Textlängen, kann der kürzeste Text die Länge angeben in die alle anderen Texte zerlegt werden. Es kann allerdings auch eine Anzahl von Zeichen als Textlänge angegeben werden. Beim Vergleich sehr unterschiedlich langer Text kann es nötig werden eine Anzahl von Textteilen anzugeben, die überhaupt vergleichen werden. Die Textteile stellen eine randomisierte Auswahl aus allen möglichen Teilen dar.
 === 2.7 Arbeitsschritt: Maßanwendung (Measure selection) ===
-{{:de:styloahonline:masze.png?600|}}
+{{:de:styloahonline:masze_2_2024-09-11.jpg?800|}}
 Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden, die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet, ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren.
+Es wird außerdem eine Darstellung des Distanzmatrix (Distanzen aller Textpaare) als Heatmap angegeben.
 === 2.8 Arbeitsschritt: Gruppierung (Clustering) ===
-{{:de:styloahonline:cluster.png?600|}}
+{{:de:styloahonline:cluster_2_2024-09-11.jpg?800|}}
 Zur Zeit stehen noch nicht alle Cluster-Verfahren, die **stylo** verwendet zur Verfügung. **stylo** nutzt vornehmlich die Implementierungen Dritter, um die Funktionalität anzubieten, diesen Vorteil haben wir für die Implementierung von stylo-ah-online nicht genutzt. Zur Zeit steht die hierarchische Clusterung in zwei verschiedenen Darstellungen zur Verfügung. Ebenso die tSNE, von der, als optimale Einbettung, allerdings als Cluster-Methode für den gesamten Gegenstand der Textanalyse abzuraten ist. Auch steht eine alternative Variante des MDS (multi dimensional scaling, Anwendung einer radialen Funktion) zur Verfügung. Die Implementierung wird noch komplettiert.
@@ Zeile 288: / Zeile 304: @@
 === 2.9 Arbeitsschritt: Export ===
-{{:de:styloahonline:export.png?600|}}
+{{:de:styloahonline:export_2_2024-09-11.jpg?800|}}
 Im Abschnitt "Export" können, durch das Setzen von Haken, verschiedene Dateien exportiert werden. Diese werden bei jedem Programmdurchlauf geschrieben. Im Abschnitt wird nach drei Typen von Export unterschieden: Dem Export grundsätzlicher Dateien, wie der Config-Datei, dem Export von Zwischenergebnissen (die dann auch für jeden eingegebenen Text existieren) und dem Export von Ergebnissen (die für das ganze Corpus gelten). Die Dateien werden im angewählten Download Ordner gespeichert.

Werkzeuge

Navigationsmenüs und Suche

Wikiübergreifende Schnellsuche

Seitenstatus

Standortanzeiger

Seiten-Werkzeuge

Metainformationen zur Seite

Unterschiede