Metainformationen zur Seite
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
de:styloahonline:handbuch [2024-09-11] – [Mögliche Bestandteile im Dateinamen] Hannes Kahl | de:styloahonline:handbuch [2024-09-11] (aktuell) – [Mehrer Config files] Hannes Kahl | ||
---|---|---|---|
Zeile 190: | Zeile 190: | ||
Auf die Benennung des (letzten) Autoren im Dateinamen sollte verzichtet werden außer eine Dateiversion wird parallel und unabhängig voneinander von mehreren Personen bearbeitet und es entstehen dadurch horizontale (anstatt vertikale) Dateiversionen, | Auf die Benennung des (letzten) Autoren im Dateinamen sollte verzichtet werden außer eine Dateiversion wird parallel und unabhängig voneinander von mehreren Personen bearbeitet und es entstehen dadurch horizontale (anstatt vertikale) Dateiversionen, | ||
- | == Zeichenkodierung: | ||
- | |||
- | Der Name der benutzten Zeichenkodierung ist üblicherweise nicht Bestandteil des Dateinamen und sollte, falls notwendig, lediglich in den Meta-Daten zu den Dateien erfasst werden. | ||
== Dateiendung: | == Dateiendung: | ||
Zeile 199: | Zeile 196: | ||
| | ||
- | === 2.2 Arbeitsschritt: | + | ==== 2.2 Arbeitsschritt: |
{{: | {{: | ||
Zeile 205: | Zeile 202: | ||
Für umfangreichere Corpora ist es nötig die Darstellung von Zwischenergebnissen zu beschränken. Das kann an dieser Stelle mit dem Haken bei " | Für umfangreichere Corpora ist es nötig die Darstellung von Zwischenergebnissen zu beschränken. Das kann an dieser Stelle mit dem Haken bei " | ||
+ | == Input eines Config files == | ||
+ | |||
+ | Wenn config files über die "Save config file"- oder "Gen all..." | ||
+ | |||
+ | |||
+ | == Mehrere Config files == | ||
+ | |||
+ | Werden mehrer config files geladen, dann werden diese nacheinander verarbeitet und die Ergebnisse werden, wie angegeben, abgespeichert. Mehrer Konfigurationen dieser Art werden auf dem aktuellen Korpus ausgeführt. | ||
+ | |||
+ | == Serien von config files == | ||
+ | |||
+ | Wenn man die "Gen all..." | ||
+ | |||
+ | == Reset des Tools == | ||
+ | |||
+ | Sowohl das Tool, als auch der Browser betreiben ein Caching. Caching bezeichnet die Speicherung von Einstellungen, | ||
+ | Wenn der Button "Delet configuration" | ||
+ | Wenn der Button " | ||
+ | Wenn man den Button "Reset stylo-ah-online" | ||
+ | Will man die Seite und somit den Zustand (Programmversion) des Tools nicht aus dem Browser-Cach laden, sondern den neusten Code vom Server, dann kann man den Button " | ||
=== 2.3 Arbeitsschritt: | === 2.3 Arbeitsschritt: | ||
- | {{: | + | {{: |
Im Abschnitt "Input / Replication" | Im Abschnitt "Input / Replication" | ||
Zeile 219: | Zeile 236: | ||
=== 2.4 Arbeitsschritt: | === 2.4 Arbeitsschritt: | ||
- | {{: | + | {{: |
- | Es wird außerdem ein Histogramm der absoluten Häufigkeiten der Zeichen in den normalisierten Texten angezeigt. | + | Auf der rechten Seite werden die Zwischenergebnisse des Normalisierungsschritts angezeigt. Man kann somit Einsicht in die Güte der Normalisierung nehmen und gegebenen falls Änderungen vornehmen. Unter dem Anzeigetext befindet sich die Liste der Eingabetexte, |
== 2.4.1 Word masking / stop words == | == 2.4.1 Word masking / stop words == | ||
Zeile 242: | Zeile 259: | ||
=== 2.5 Arbeitsschritt: | === 2.5 Arbeitsschritt: | ||
- | {{: | + | {{: |
== 2.5.1 Word level decomposition == | == 2.5.1 Word level decomposition == | ||
Zeile 253: | Zeile 270: | ||
=== 2.6 Arbeitsschritt: | === 2.6 Arbeitsschritt: | ||
- | {{: | + | {{: |
Im oberen Pulldown-Menü des Abschnitts kann man sich für die Zählweise entscheiden, | Im oberen Pulldown-Menü des Abschnitts kann man sich für die Zählweise entscheiden, | ||
Um dem Umstand verschieden langer Texte noch auf eine andere Weise zu begegnen, existiert die Einstellung "Text length normalization" | Um dem Umstand verschieden langer Texte noch auf eine andere Weise zu begegnen, existiert die Einstellung "Text length normalization" | ||
+ | |||
+ | Es wird zusätzlich eine Diagramm angegeben, was die Zählung pro Token und Text als Barplot angibt. | ||
== 2.6.1 Most frequent token / words (per text) == | == 2.6.1 Most frequent token / words (per text) == | ||
Zeile 267: | Zeile 286: | ||
Mit den beiden Werten kann man angeben, in wie viel Prozent der Texte ein Token mindestens und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen. | Mit den beiden Werten kann man angeben, in wie viel Prozent der Texte ein Token mindestens und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen. | ||
+ | == 2.6.3 Textlängen Normalisierung == | ||
+ | |||
+ | Eine Normalisierung, | ||
=== 2.7 Arbeitsschritt: | === 2.7 Arbeitsschritt: | ||
- | {{: | + | {{: |
Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden, die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet, ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren. | Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden, die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet, ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren. | ||
+ | |||
+ | Es wird außerdem eine Darstellung des Distanzmatrix (Distanzen aller Textpaare) als Heatmap angegeben. | ||
=== 2.8 Arbeitsschritt: | === 2.8 Arbeitsschritt: | ||
- | {{: | + | {{: |
Zur Zeit stehen noch nicht alle Cluster-Verfahren, | Zur Zeit stehen noch nicht alle Cluster-Verfahren, | ||
Zeile 280: | Zeile 304: | ||
=== 2.9 Arbeitsschritt: | === 2.9 Arbeitsschritt: | ||
- | {{: | + | {{: |
Im Abschnitt " | Im Abschnitt " |