Metainformationen zur Seite
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
de:styloahonline:handbuch [2024-09-11] – [2.6 Arbeitsschritt: Zählung (Selection / Counting)] Hannes Kahl | de:styloahonline:handbuch [2024-09-11] (aktuell) – [Mehrer Config files] Hannes Kahl | ||
---|---|---|---|
Zeile 207: | Zeile 207: | ||
- | == Mehrer | + | == Mehrere |
Werden mehrer config files geladen, dann werden diese nacheinander verarbeitet und die Ergebnisse werden, wie angegeben, abgespeichert. Mehrer Konfigurationen dieser Art werden auf dem aktuellen Korpus ausgeführt. | Werden mehrer config files geladen, dann werden diese nacheinander verarbeitet und die Ergebnisse werden, wie angegeben, abgespeichert. Mehrer Konfigurationen dieser Art werden auf dem aktuellen Korpus ausgeführt. | ||
Zeile 286: | Zeile 286: | ||
Mit den beiden Werten kann man angeben, in wie viel Prozent der Texte ein Token mindestens und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen. | Mit den beiden Werten kann man angeben, in wie viel Prozent der Texte ein Token mindestens und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen. | ||
+ | == 2.6.3 Textlängen Normalisierung == | ||
+ | |||
+ | Eine Normalisierung, | ||
=== 2.7 Arbeitsschritt: | === 2.7 Arbeitsschritt: | ||
- | {{: | + | {{: |
Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden, die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet, ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren. | Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden, die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet, ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren. | ||
+ | |||
+ | Es wird außerdem eine Darstellung des Distanzmatrix (Distanzen aller Textpaare) als Heatmap angegeben. | ||
=== 2.8 Arbeitsschritt: | === 2.8 Arbeitsschritt: | ||
- | {{: | + | {{: |
Zur Zeit stehen noch nicht alle Cluster-Verfahren, | Zur Zeit stehen noch nicht alle Cluster-Verfahren, | ||
Zeile 299: | Zeile 304: | ||
=== 2.9 Arbeitsschritt: | === 2.9 Arbeitsschritt: | ||
- | {{: | + | {{: |
Im Abschnitt " | Im Abschnitt " |