Metainformationen zur Seite
  •  

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
de:styloahonline:handbuch [2024-06-13] – [2.1 Arbeitsschritt: Benennung] Sylvia Kurowskyde:styloahonline:handbuch [2024-09-11] (aktuell) – [Mehrer Config files] Hannes Kahl
Zeile 62: Zeile 62:
 __ __ __ __
 Zerlegung in Wortformen Zerlegung in Wortformen
-__ Zerlegung in Buchstaben-n-Gramme__ +__ Zerlegung in Buchstaben-N-Gramme__ 
-Zerlegung in Buchstaben-n-Gramme der Worformen +Zerlegung in Buchstaben-N-Gramme der Worformen 
-__ Zerlegung in Wort-n-Gramme__+__ Zerlegung in Wort-N-Gramme__
 Zerlegung in n-Gramme mit Lücken Zerlegung in n-Gramme mit Lücken
 __ Zerlegung in Pseudo-Silben __ __ Zerlegung in Pseudo-Silben __
Zeile 126: Zeile 126:
  
 <box 100% round #FFFFFF #F4F8FD #F6F6F6 #286da8 left |**Gruppierung:**> <box 100% round #FFFFFF #F4F8FD #F6F6F6 #286da8 left |**Gruppierung:**>
-hierarchische Clusterung, multidimensional scaling (MDS), tSNR (t-distributed stochastic neigbor embedding)+hierarchische Clusterung, multidimensional scaling (MDS), tSNE (t-distributed stochastic neigbor embedding)
 </box |Gruppierung> </box |Gruppierung>
  
Zeile 148: Zeile 148:
  
 ==== 2. Konfigurieren der Analyseschritte ==== ==== 2. Konfigurieren der Analyseschritte ====
-=== 2.1 Arbeitsschritt: Benennung ===+==== 2.1 Arbeitsschritt: Benennung ====
  
 {{:de:styloahonline:naming.png?600|}} {{:de:styloahonline:naming.png?600|}}
Zeile 154: Zeile 154:
 Die Benennung beinhaltet zusammengesetzte Namen für die Experimente. Dabei werden die einzelnen Teile der Benennung durch Unterstriche abgetrennt. Leerzeichen in Einträgen werden durch Bindestriche ersetzt. Die einzelnen Einträge der Benennung erlauben verschiedene Organisationsmuster für Experimente. Das Datum wird beim ersten Programmlauf automatisch ausgefüllt. Der einmal erstellte Name charakterisiert den Programmablauf und die Einstellungen genau. Änderungen in der Benennung führt auf ein neues Experiment, welches auch separat gespeichert wird. Die Benennung geht in die Config-Datei ein und ein erneuter Aufruf einer Config-Datei stellt alles unter dieser Bezeichnung wieder her. Auf diese Weise können mehrere Konfigurationen unterschieden werden.  Die Benennung beinhaltet zusammengesetzte Namen für die Experimente. Dabei werden die einzelnen Teile der Benennung durch Unterstriche abgetrennt. Leerzeichen in Einträgen werden durch Bindestriche ersetzt. Die einzelnen Einträge der Benennung erlauben verschiedene Organisationsmuster für Experimente. Das Datum wird beim ersten Programmlauf automatisch ausgefüllt. Der einmal erstellte Name charakterisiert den Programmablauf und die Einstellungen genau. Änderungen in der Benennung führt auf ein neues Experiment, welches auch separat gespeichert wird. Die Benennung geht in die Config-Datei ein und ein erneuter Aufruf einer Config-Datei stellt alles unter dieser Bezeichnung wieder her. Auf diese Weise können mehrere Konfigurationen unterschieden werden. 
  
-=== 2.2 Arbeitsschritt: Configurations-Datei / Datenbank ===+=== 2.1.1 Auswahl und Anzahl der Zeichen === 
 +    * Dateinamen sollten so lang wie nötig und so kurz wie möglich gehalten werden. 
 +    * Es werden nur **Kleinbuchstaben [a-z]** und **Zahlen [0-9]** sowie der **Unterstrich [_]** und **Bindestrich [-]** verwendet. Für von der Software automatisch benannte Dateien wird als Ausnahme die Zeichenklasse [A-Z] zugelassen.  
 +    * Es dürfen nicht benutzt werden Sonderzeichen, Umlaute, ß. 
 +    * Altgriechische Bezeichnungen zu Werken oder Autoren werden ins lateinische transliteriert, falls sie nicht über die entsprechende Corpus-ID kenntlich gemacht werden können. Die Corpora-IDs sind immer den Namen vorzuziehen, weil sie gegebenenfalls einen Verweis auf die benutzte Edition liefern und meist kürzer sind. 
 +    * Aus Kompatibilitätsgründen sollte die MAX_PATH Einstellung von 260 bei Windows nicht überschritten werden, dass bedeutet, Ordnerstruktur + Dateinamen sollten maximal aus 256 Zeichen bestehen, da die Laufwerksbezeichnung und das unsichtbar endende Nullzeichen mitgezählt werden. Der maximale Pfad auf einem Windows-Laufwerk D wäre demzufolge "D:\some_256-zeichen-path_string<NUL>". Bei Unicode-Pfaden sind es gegebenenfalls 255 Zeichen oder weniger. Deswegen wäre eine **Obergrenze von 250 Zeichen** für die gesamte Pfadangabe (Dateiname + Ordnerstruktur) festzulegen.  
 + 
 +=== 2.1.2 Mögliche Bestandteile im Dateinamen === 
 +== Typ des Dokumentes: == 
 + 
 +beschluss / protokoll / rechnung / notiz / skizze etc. Ein Typ ist immer dann anzugeben, wenn er sich nicht zwangsläufig aus der Dateiendung ergibt. Bei den Endungen jpg oder png beispielsweise den Typ "foto" voranzustellen, ist überflüssig und widerspricht einer Regel aus Punkt 1 (so kurz wie möglich).  
 + 
 +== Subjekt: ==  
 + 
 +als Subjekt wird jene Enität verstanden, über die eine Aussage getroffen wird. Eine Rechnung über den bestellten Medion-Rechner bei Saturn würde demzufolge als Subjekt saturn und medion bekommen, die Datei mit rechnung_saturn_medion beginnen. 
 + 
 +== Status: ==  
 + 
 +der Bearbeitungzustand des Dokumentes, wenn es der stetigen Veränderung unterworfen ist. Bei Listen böte sich zum Beispiel voll oder unvoll an, um zu erklären, ob sie komplett sind. Bei Office-Dokumenten könnte auf final oder unfinal zurückgegriffen werden. 
 + 
 +== ID: ==  
 + 
 +bei automatisch vergebenen Identifikationsnummern ist es mitunter hilfreich, die ID im Namen zu behalten, um die Datei der Originalversion zuordnen zu können. Zum Beispiel wäre es sinnvoll eine Statistik zu Plutarchs //De tranquillitate animi// aus dem TLG  mit tlg0007-096 im Dateinamen zu kennzeichnen. 
 + 
 +== Datum: ==  
 + 
 +Datumsangaben im Dateinamen sind insbesondere dann sinnvoll, wenn ein Dokument unveränderlich zu Archivierung abgelegt werden soll (protokoll_projektmeeting_replikation_2023-04-28.pdf) oder es zu sukzessiven Änderungen kommt, um die Versionierung übersichtlicher zu gestalten (replikation_stylesheed_2023_v01). 
 +     
 +== Versionsnummer: ==  
 + 
 +Um die Bedeutung als Versionsnummer klar zu machen wird ein kleines v vorangestellt. Die Anzahl der führenden Nullen ist abhängig von der zu erwartbaren Menge.  
 + 
 +== Autorname: ==  
 + 
 +Auf die Benennung des (letzten) Autoren im Dateinamen sollte verzichtet werden außer eine Dateiversion wird parallel und unabhängig voneinander von mehreren Personen bearbeitet und es entstehen dadurch horizontale (anstatt vertikale) Dateiversionen, die später von Hand zusammengeführt werden müssen. 
 + 
 + 
 +== Dateiendung: ==  
 + 
 +Die Dateiendung bezeichnet den Teil, der nach dem abschließenden Punkt folgt. Er verweist in aller Regel auf den Dateityp, also die Art und Weise, wie die Informationen in der Datei kodiert sind.   
 +   
 + 
 +==== 2.2 Arbeitsschritt: Configurations-Datei / Datenbank ====
 {{:de:styloahonline:configfile.png?600|}} {{:de:styloahonline:configfile.png?600|}}
  
 Im Abschnitt "Configuration" können alle Einstellungen vorgenommen werden, die sich auf die Config-Datei beziehen. stylo-ah-online erlaubt die Speicherung der Konfiguration und genauso ihren erneuten Aufruf durch Eingabe einer Config-Datei. Für das Erzeugen von Serien aus Experimenten erlaubt es stylo-ah-online mehrer Config-Dateien zu erstellen und diese als Serie wieder zu öffnen. Die Ergebnisse werden für jede so gespeicherte Einstellung unter einem extra Namen abgespeichert.  Im Abschnitt "Configuration" können alle Einstellungen vorgenommen werden, die sich auf die Config-Datei beziehen. stylo-ah-online erlaubt die Speicherung der Konfiguration und genauso ihren erneuten Aufruf durch Eingabe einer Config-Datei. Für das Erzeugen von Serien aus Experimenten erlaubt es stylo-ah-online mehrer Config-Dateien zu erstellen und diese als Serie wieder zu öffnen. Die Ergebnisse werden für jede so gespeicherte Einstellung unter einem extra Namen abgespeichert. 
-Für umfangreichere Corpora ist es nötig die Darstellung von Zwischenergebnissen zu beschränken. Das kann an dieser Stelle mit dem Haken bei "Display size of results" erzielt werden. stylo-ah-online verfügt über eine auto-save-Funktion, außerdem werden die eingegebenen Daten gespeichert, um diese bei einem erneuten Analysedurchlauf aus der Browser eigenen Datenbank zu holen. Die letzten Buttons des Abschnitts erlauben es die Einstellungen und die Datenbanken oder beides zurücksetzen. +Für umfangreichere Corpora ist es nötig die Darstellung von Zwischenergebnissen zu beschränken. Das kann an dieser Stelle mit dem Haken bei "Display size of results" erzielt werden. stylo-ah-online verfügt über eine auto-save-Funktion, außerdem werden die eingegebenen Daten gespeichert, um diese bei einem erneuten Analysedurchlauf aus der Browser eigenen Datenbank zu holen. Die letzten Buttons des Abschnitts erlauben esdie Einstellungen und die Datenbanken oder beides zurücksetzen.  
 + 
 +== Input eines Config files == 
 + 
 +Wenn config files über die "Save config file"- oder "Gen all..."-Buttons erzeugt wurden, so können sie mittels dieses Buttons wieder geladen werden. Das Tool stellt die Konfiguration, dann so ein, wie diese im config file angegeben ist. Alte config files sind mit neueren kompatibel. Das Konfiguration wird stets auf das aktuelle Korpus angewendet. 
 + 
 + 
 +== Mehrere Config files == 
 + 
 +Werden mehrer config files geladen, dann werden diese nacheinander verarbeitet und die Ergebnisse werden, wie angegeben, abgespeichert. Mehrer Konfigurationen dieser Art werden auf dem aktuellen Korpus ausgeführt. 
 + 
 +== Serien von config files == 
 + 
 +Wenn man die "Gen all..."-Buttons verwendet, dann werden alle Einstellungen die zur Zeit gemacht wurden, übernommen und lediglich die Einstellungen eines Arbeitsschritts werden variiert. Auf diese Weise kann man zu diesem Arbeitsschritt eine Serie von config files erstellen und somit eine Serie von Ergebnissen. Diese Funktion dient der systematischen Untersuchung von Arbeitsschritten in Bezug auf ein gegebenes Corpus. Die "Gen all"-Funktion steht für die Arbeitsschritte Token-Bildung, Token-Zählung und Anwendung der Maße zur Verfügung. 
 + 
 +== Reset des Tools ==
  
 +Sowohl das Tool, als auch der Browser betreiben ein Caching. Caching bezeichnet die Speicherung von Einstellungen, Daten und Zuständen. 
 +Wenn der Button "Delet configuration" benutzt wird, dann werden alle Einstellungen gelöscht und es werden auch keine default-Einstellungen vorgenommen. Im Anschluss können alle Einstellungen neu vorgenommen werden.
 +Wenn der Button "Delete data base" benutzt wird, so bleiben die Einstellungen erhalten, allerdings werden alle Eingabedaten und alle Zwischenergebnisse gelöscht. Die Datenbank der Eingabedaten und Zwischenergebnisse wird nicht automatisch gelöscht.
 +Wenn man den Button "Reset stylo-ah-online" auswählt, so werden die Einstellungen und die Datenbanken gelöscht.
 +Will man die Seite und somit den Zustand (Programmversion) des Tools nicht aus dem Browser-Cach laden, sondern den neusten Code vom Server, dann kann man den Button "Refresh page/tool" verwenden.
 === 2.3 Arbeitsschritt: Input / Replication === === 2.3 Arbeitsschritt: Input / Replication ===
-{{:de:styloahonline:input.png?600|}}+{{:de:styloahonline:import_2_2024-09-11.jpg?800|}}
  
-Im Abschnitt "input / Replication" geht es um den Aufruf der Textdateien, die analysiert werden sollen. Diese Handlung löst die gesamte/erste Analyse aus und speichert Ergebnisse in der Datenbank. Mit "rerun" kann man eine veränderte Konfiguration auf die vorhandenen Daten anwenden. Sollten Serienexperimente vorbereitet wurden sein, dann kann man die dazugehörigen Config-Files hier eingeben und so die Serienverarbeitung auslösen. Dazu werden die Textdaten aus der Datenbank verwendet. Der Arbeitsschritt der Dateieingabe muss der letzte Schritt sein, nachdem alle anderen Konfigurationen vorgenommen wurden.+Im Abschnitt "Input / Replication" geht es um den Aufruf der Textdateien, die analysiert werden sollen. Diese Handlung löst die gesamte / erste Analyse aus und speichert Ergebnisse in der Datenbank. Mit "Re-run" kann man eine veränderte Konfiguration auf die vorhandenen Daten anwenden. Sollten Serienexperimente vorbereitet worden sein, kann man die dazugehörigen Config-Files hier eingeben und so die Serienverarbeitung auslösen. Dazu werden die Textdaten aus der Datenbank verwendet. Der Arbeitsschritt der Dateieingabe muss der letzte Schritt sein, nachdem alle anderen Konfigurationen vorgenommen wurden.
  
 Im Vergleich zu **stylo** ist der Vorgang anders, wenn es um die Auswahl von Corpora geht: In **stylo** genügt es einen Ordner anzugeben, welcher den Ordner "corpus" enthält. Für die Eingabe in stylo-ah-online muss die gesamte Liste der Texte ausgewählt werden, die das Corpus bilden.  Im Vergleich zu **stylo** ist der Vorgang anders, wenn es um die Auswahl von Corpora geht: In **stylo** genügt es einen Ordner anzugeben, welcher den Ordner "corpus" enthält. Für die Eingabe in stylo-ah-online muss die gesamte Liste der Texte ausgewählt werden, die das Corpus bilden. 
  
-Mit "Select some data from database" können bereits geladene Dateien aus der Datenbank ausgewählt werden und so ein neues Corpus zusammengestellt werden. +Mit "Select some data from database" können bereits geladene Dateien aus der Datenbank ausgewählt und so kann ein neues Corpus zusammengestellt werden. 
  
 Zudem wird nun ein Histogramm der absoluten Häufigkeiten der Zeichen der Eingabe angezeigt. Zudem wird nun ein Histogramm der absoluten Häufigkeiten der Zeichen der Eingabe angezeigt.
Zeile 174: Zeile 236:
  
 === 2.4 Arbeitsschritt: Normalisierung (Normalization) === === 2.4 Arbeitsschritt: Normalisierung (Normalization) ===
-{{:de:styloahonline:normalization.png?600|}}+{{:de:styloahonline:norm_2_2024-09-11.jpg?800|}}
  
-Es wird außerdem ein Histogramm der absoluten Häufigkeiten der Zeichen in den normalisierten Texten angezeigt.+Auf der rechten Seite werden die Zwischenergebnisse des Normalisierungsschritts angezeigt. Man kann somit Einsicht in die Güte der Normalisierung nehmen und gegebenen falls Änderungen vornehmen. Unter dem Anzeigetext befindet sich die Liste der Eingabetexte, die als Menü funktioniert. Es wird außerdem ein Histogramm der absoluten Häufigkeiten der Zeichen in den normalisierten Texten angezeigt.
  
 == 2.4.1 Word masking / stop words == == 2.4.1 Word masking / stop words ==
-Setzt man den Haken in diesem Abschnitt, dann werden die Wortformen auf der Stop-Wortliste aus den Strings entfernt. Den Vorgang nennt man ebenfalls Maskierung von Wortformen. Man kann sich mit dem Button die aktuelle Stop-Wortliste anzeigen lassen. Genauso ist es möglich eine andere Stop-Wortliste durch die Eingabe einer Datei, die jedes Stop-Wort durch ";;;" vom nächsten getrennt enthält, zu nutzen.+Setzt man den Haken in diesem Abschnitt, dann werden die Wortformen auf der Stopp-Wortliste aus den Strings entfernt. Den Vorgang nennt man ebenfalls Maskierung von Wortformen. Man kann sich mit dem Button die aktuelle Stopp-Wortliste anzeigen lassen. Genauso ist es möglicheine andere Stopp-Wortliste durch die Eingabe einer Datei, die jedes Stopp-Wort durch ";;;" vom nächsten getrennt enthält, zu nutzen.
  
 == 2.4.2 Sign equalization == == 2.4.2 Sign equalization ==
Zeile 185: Zeile 247:
  
 == 2.4.3 Markup / Format == == 2.4.3 Markup / Format ==
-Vornehmlich geht es um die Lösung zusätzlicher Formatierungsangaben und der Metadaten/Struktur. Sollte die Eingabe in wohlgeformtem XML geschehen, dann löscht der erste Haken dieses unter Verwendung eines XML-Parsers. Sollte dem nicht so sein, dann werden die XML-Tags mittels eines regulären Ausdrucks gelöscht. Hier können zudem Interpunktion und Zeilenumbrüche gelöscht werden.+Vornehmlich geht es um die Lösung zusätzlicher Formatierungsangaben und der Metadaten / Struktur. Sollte die Eingabe in wohlgeformtem XML geschehen, dann löscht der erste Haken dieses unter Verwendung eines XML-Parsers. Sollte dem nicht so sein, dann werden die XML-Tags mittels eines regulären Ausdrucks gelöscht. Hier können zudem Interpunktion und Zeilenumbrüche gelöscht werden.
  
 == 2.4.4 Word level conversions == == 2.4.4 Word level conversions ==
-Unter die Veränderungen auf Wortformebene zählt alles, was die Wortform als logische, organisatorische Einheit berücksichtigt. Dies betrifft Wortformtrennungen, Nummerierungen, Elisionen und das alpha privativum.+Unter die Veränderungen auf Wortformebene zählt alles, was die Wortform als logische, organisatorische Einheit berücksichtigt. Dies betrifft Wortformtrennungen, Nummerierungen, Elisionen und das Alpha privativum.
  
 == 2.4.5 Combinations == == 2.4.5 Combinations ==
 Hier können Kombinationen von Normalisierungsschritten gewählt werden. Andere Einstellungen werden dann ignoriert. Hier können Kombinationen von Normalisierungsschritten gewählt werden. Andere Einstellungen werden dann ignoriert.
  
-== 2.4.6 Translitteration ==+== 2.4.6 Transliteration ==
 Sollte es nötig sein Texte ihrem Zeichenbestand nach zu vereinheitlichen, dann kann diese durch die Transliteration (Griechisch / Latein) geschehen. Sollte es nötig sein Texte ihrem Zeichenbestand nach zu vereinheitlichen, dann kann diese durch die Transliteration (Griechisch / Latein) geschehen.
  
 === 2.5 Arbeitsschritt: Zerlegung (features / decomposition / token) === === 2.5 Arbeitsschritt: Zerlegung (features / decomposition / token) ===
-{{:de:styloahonline:token.png?600|}}+{{:de:styloahonline:token_2_2024-09-11.jpg?800|}}
  
 == 2.5.1 Word level decomposition == == 2.5.1 Word level decomposition ==
Zeile 205: Zeile 267:
 Mittels dieser Einstellung kann der String in N-Gramme (Aufteilungen der Länge N, "N" und "n" sind Synonyme und stehen für eine gewählte natürliche Zahl) zerlegt werden. Dabei gibt die Auswahl im Pulldown-Menü die Zerlegungsebene an. Die zusätzlichen Zahlen müssen ausgefüllt werden, um das "N" der Zerlegung oder der Lücken angeben zu können. Für Skip-Gramme spielt nicht nur das "N" (Länge) der Teilung, sondern auch die Länge der Auslassung eine Rolle.  Mittels dieser Einstellung kann der String in N-Gramme (Aufteilungen der Länge N, "N" und "n" sind Synonyme und stehen für eine gewählte natürliche Zahl) zerlegt werden. Dabei gibt die Auswahl im Pulldown-Menü die Zerlegungsebene an. Die zusätzlichen Zahlen müssen ausgefüllt werden, um das "N" der Zerlegung oder der Lücken angeben zu können. Für Skip-Gramme spielt nicht nur das "N" (Länge) der Teilung, sondern auch die Länge der Auslassung eine Rolle. 
 Mit der Auswahl "Word level" zerlegt man den String in "N" lange Gruppen von Wortformen, die dann als Token ausgezählt werden. Mit der Auswahl "Word level" zerlegt man den String in "N" lange Gruppen von Wortformen, die dann als Token ausgezählt werden.
-Mit der Einstellung "sign level of words" teilt man die Zeichen der Wortformen auf. Durch die Auffüllung können Wortendungen und -anfänge kodiert werden. Die Wortübergänge werden nicht  kodiert. Mit der Auswahl "signs of whole string" wird die Aufteilung kontinuierlich auf dem String vorgenommen. Dabei werden Wortformübergänge (ab n = 3) berücksichtigt. "Gab-ngram" ist die Skip-Gramm Implementierung, hier muss man zusätzlich die Länge der Lücke angeben. Für lateinische und griechische Texte steht die Zerlegung in Silben zur Verfügung. Abschließend gibt es noch die Zerlegung der Wortformen in drei Abschnitte. Die erste dieser Einstellungen tut diese Aufteilung zu gleichen Teilen, die zweite teilt jede Wortform so auf dass alle Partitionen des Strings entstehen.+Mit der Einstellung "sign level of words" teilt man die Zeichen der Wortformen auf. Durch die Auffüllung können Wortendungen und -anfänge kodiert werden. Die Wortübergänge werden nicht kodiert. Mit der Auswahl "signs of whole string" wird die Aufteilung kontinuierlich auf dem String vorgenommen. Dabei werden Wortformübergänge (ab n = 3) berücksichtigt. "Gap-ngram" ist die Skip-Gramm-Implementierung, hier muss man zusätzlich die Länge der Lücke angeben. Für lateinische und griechische Texte steht die Zerlegung in Silben zur Verfügung. Abschließend gibt es noch die Zerlegung der Wortformen in drei Abschnitte. Die erste dieser Einstellungen teilt zu gleichen Teilen auf, die zweite teilt jede Wortform so aufdass alle Partitionen des Strings entstehen.
  
 === 2.6 Arbeitsschritt: Zählung (Selection / Counting) === === 2.6 Arbeitsschritt: Zählung (Selection / Counting) ===
-{{:de:styloahonline:counting.png?600|}}+{{:de:styloahonline:counting_2_2024-09-11.jpg?800|}}
  
-Im oberen Pulldown-Menü des Abschnitts kann man sich für die Zählweise entscheiden, die auf die Menge aller Token (Wortformen) angewendet werden soll. Die absolute Häufigkeit, ist die Anzahl des Auftretens eines Token. Die relative Häufigkeit ist die Auftretenszahl eines Token geteilt durch die Textlänge. Das schwächt den Einfluss der Textlänge ab. Allerdings überdeckt dies das Problem im Corpus sehr kurze Texte mit sehr langen Texten zu vergleichen. Die Kodierung des Auftretens oder Nichtauftretens in einem Text, kann mittels 0 und 1 geschehen. Dann wird lediglich die Existenz von Token untersucht. Abschließend stehen zwei Zählungen bereit, die eine Beziehung zum Gesamtkorpus herstellen. Die TF-IDF stellt den Bezug zwischen relativer Häufigkeit in einem Text eines Token zur Häufigkeit in Texten vertreten zu sein her. Der Quotient aus relativer Häufigkeit pro Text und relativer Häufigkeit im Korpus mindert die Funktion der relativen Häufigkeit ab und sollte Werte ergeben, die sich zwischen der absoluten Häufigkeit und der relativen Häufigkeit bewegen. +Im oberen Pulldown-Menü des Abschnitts kann man sich für die Zählweise entscheiden, die auf die Menge aller Token (Wortformen) angewendet werden soll. Die absolute Häufigkeit, ist die Anzahl des Auftretens eines Token. Die relative Häufigkeit ist die Auftretenszahl eines Token geteilt durch die Textlänge. Das schwächt den Einfluss der Textlänge ab. Allerdings überdeckt dies das Problem im Corpus sehr kurze Texte mit sehr langen Texten zu vergleichen. Die Kodierung des Auftretens oder Nichtauftretens in einem Text, kann mittels 0 und 1 geschehen. Dann wird lediglich die Existenz von Token untersucht. Abschließend stehen zwei Zählungen bereit, die eine Beziehung zum Gesamtkorpus herstellen. Die TF-IDF stellt den Bezug zwischen relativer Häufigkeit in einem Text eines Token zur Häufigkeit in Texten vertreten zu sein her. Der Quotient aus relativer Häufigkeit pro Text und relativer Häufigkeit im Corpus mindert die Funktion der relativen Häufigkeit ab und sollte Werte ergeben, die sich zwischen der absoluten Häufigkeit und der relativen Häufigkeit bewegen. 
  
-Um dem Umstand verschieden langer Texte noch auf eine andere Weise zu begegnen, existiert die Einstellung "Text length normalization". Setzt man hier den Haken, dann wird jeder Text in Teile der Länge des kürzesten Textes im Corpus zerlegt. Will man diesen Vorgang rückgängig machen, so muss man die Texte erneut laden und den Haken zuvor entfernen. Bei umfangreicheren Corpora und sehr unterschiedlich bemessenen Textlängen ist Vorsicht angebracht. Vergleicht man ein Fragment weniger hundert Wortformen mit einem Buch, so wird das Buch in viele tausend Teile zerlegt. Die Funktion steht nur beim Laden eines Corpus zur Verfügung und kann nicht mit dem "rerun" Button ausgelöst werden. +Um dem Umstand verschieden langer Texte noch auf eine andere Weise zu begegnen, existiert die Einstellung "Text length normalization". Setzt man hier den Haken, dann wird jeder Text in Teile der Länge des kürzesten Textes im Corpus zerlegt. Will man diesen Vorgang rückgängig machen, so muss man die Texte erneut laden und den Haken zuvor entfernen. Bei umfangreicheren Corpora und sehr unterschiedlich bemessenen Textlängen ist Vorsicht angebracht. Vergleicht man ein Fragment weniger hundert Wortformen mit einem Buch, so wird das Buch in viele tausend Teile zerlegt. Die Funktion steht nur beim Laden eines Corpus zur Verfügung und kann nicht mit dem "Re-run" Button ausgelöst werden.  
 + 
 +Es wird zusätzlich eine Diagramm angegeben, was die Zählung pro Token und Text als Barplot angibt.
  
 == 2.6.1 Most frequent token / words (per text) == == 2.6.1 Most frequent token / words (per text) ==
  
-Mit den beiden Zahlenangaben kann der Frequenzrang angegeben werden, der im Profil Berücksichtigung finden soll. Sollen lediglich die Werte der 100 häufigsten Token Betrachtung finden, dann muss man den niedrigsten Rang 0, als minimal zu berücksichtigenden Rang und den Wert 100, als höchsten zu berücksichtigenden Rang, angeben. +Mit den beiden Zahlenangaben kann der Frequenzrang angegeben werden, der im Profil Berücksichtigung finden soll. Sollen lediglich die Werte der 100 häufigsten Token Betrachtung finden, dann muss man den niedrigsten Rang 0, als minimal zu berücksichtigenden Rangund den Wert 100, als höchsten zu berücksichtigenden Rang, angeben. 
  
 == 2.6.2 Culling == == 2.6.2 Culling ==
  
-Mit den beiden Werten kann man angeben in wie viel Prozent der Texte ein Token mindestens auftreten soll und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen.+Mit den beiden Werten kann man angebenin wie viel Prozent der Texte ein Token mindestens und maximal auftreten soll, um im Profil Berücksichtigung zu finden. Im Kontrast zu Most frequent words oder TF-IDF kann man dabei nicht absehen, wie die Profile beeinflusst werden. Es kann durchaus sein, dass damit null-besetzte Bereiche vermindert werden, allerdings kann auch das Gegenteil eintreten. Hier sollte man die Profile genau untersuchen.
  
 +== 2.6.3 Textlängen Normalisierung ==
 +
 +Eine Normalisierung, die verschiedene Vergleichs- und Rechnungsprobleme mildert ist die Textlägennormalisierung. Dabei kann auf folgende Weise vorgegangen werden, um immer nur gleich lange Texte zu vergleichen. Für ein Corpus gemischter Textlängen, kann der kürzeste Text die Länge angeben in die alle anderen Texte zerlegt werden. Es kann allerdings auch eine Anzahl von Zeichen als Textlänge angegeben werden. Beim Vergleich sehr unterschiedlich langer Text kann es nötig werden eine Anzahl von Textteilen anzugeben, die überhaupt vergleichen werden. Die Textteile stellen eine randomisierte Auswahl aus allen möglichen Teilen dar.
 === 2.7 Arbeitsschritt: Maßanwendung (Measure selection) === === 2.7 Arbeitsschritt: Maßanwendung (Measure selection) ===
-{{:de:styloahonline:masze.png?600|}}+{{:de:styloahonline:masze_2_2024-09-11.jpg?800|}} 
 + 
 +Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden, die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet, ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren.
  
-Aus dem Pulldown-Menü können verschiedene Distanzmaße ausgewählt werden die zum Vergleich zwischen der Token-Profilen benutzt werden sollen. Die Anwendung der Maße auf die Profil-Vektoren ergibt die Distanzmatrix. Die Distanzmatrix ist Grundlage der Gruppierung der Texte untereinander. Manche Maße erfordern die Angabe eines Zahlenwerts. Was dieser bedeutet ist von Maß zu Maß verschieden. Man sollte die Dokumentation der Maß, wie sie in stylo-ah-online verlinkt ist, konsultieren.+Es wird außerdem eine Darstellung des Distanzmatrix (Distanzen aller Textpaare) als Heatmap angegeben.
  
 === 2.8 Arbeitsschritt: Gruppierung (Clustering) === === 2.8 Arbeitsschritt: Gruppierung (Clustering) ===
-{{:de:styloahonline:cluster.png?600|}}+{{:de:styloahonline:cluster_2_2024-09-11.jpg?800|}}
  
 Zur Zeit stehen noch nicht alle Cluster-Verfahren, die **stylo** verwendet zur Verfügung. **stylo** nutzt vornehmlich die Implementierungen Dritter, um die Funktionalität anzubieten, diesen Vorteil haben wir für die Implementierung von stylo-ah-online nicht genutzt. Zur Zeit steht die hierarchische Clusterung in zwei verschiedenen Darstellungen zur Verfügung. Ebenso die tSNE, von der, als optimale Einbettung, allerdings als Cluster-Methode für den gesamten Gegenstand der Textanalyse abzuraten ist. Auch steht eine alternative Variante des MDS (multi dimensional scaling, Anwendung einer radialen Funktion) zur Verfügung. Die Implementierung wird noch komplettiert. Zur Zeit stehen noch nicht alle Cluster-Verfahren, die **stylo** verwendet zur Verfügung. **stylo** nutzt vornehmlich die Implementierungen Dritter, um die Funktionalität anzubieten, diesen Vorteil haben wir für die Implementierung von stylo-ah-online nicht genutzt. Zur Zeit steht die hierarchische Clusterung in zwei verschiedenen Darstellungen zur Verfügung. Ebenso die tSNE, von der, als optimale Einbettung, allerdings als Cluster-Methode für den gesamten Gegenstand der Textanalyse abzuraten ist. Auch steht eine alternative Variante des MDS (multi dimensional scaling, Anwendung einer radialen Funktion) zur Verfügung. Die Implementierung wird noch komplettiert.
Zeile 235: Zeile 304:
  
 === 2.9 Arbeitsschritt: Export === === 2.9 Arbeitsschritt: Export ===
-{{:de:styloahonline:export.png?600|}}+{{:de:styloahonline:export_2_2024-09-11.jpg?800|}}
  
-Im Abschnitt "Export" können, durch das Setzen von Haken, verschiedene Dateien exportiert werden. Diese werden bei jedem Programmdurchlauf geschrieben. Im Abschnitt wird nach drei Typen von Export unterschieden. Der Export grundsätzlicher Dateien, wie der Config-Datei, dem Export von Zwischenergebnissen (die dann auch für jeden eingegebenen Text existieren) und dem Export von Ergebnissen (die für das ganze Corpus gelten). Die Dateien werden im angewählten Download Ordner gespeichert.+Im Abschnitt "Export" können, durch das Setzen von Haken, verschiedene Dateien exportiert werden. Diese werden bei jedem Programmdurchlauf geschrieben. Im Abschnitt wird nach drei Typen von Export unterschieden: Dem Export grundsätzlicher Dateien, wie der Config-Datei, dem Export von Zwischenergebnissen (die dann auch für jeden eingegebenen Text existieren) und dem Export von Ergebnissen (die für das ganze Corpus gelten). Die Dateien werden im angewählten Download Ordner gespeichert.
  
 ==== 3. Erneute Berechnung und Serien ==== ==== 3. Erneute Berechnung und Serien ====
  
-stylo-ah-online speichert das Corpus, welches aktuell bearbeitet wird. Es speichert auch Zwischenergebnisse. Werden Änderungen der Konfiguration vorgenommen, dann müssen nicht unbedingt alle Arbeitsschritte neu ausgeführt werden. Verwenden Sie den "Rerun" Button, um ein neue Konfiguration auf das gespeicherte Corpus anzuwenden. Man profitiert damit von Vorberechnungen.+stylo-ah-online speichert das Corpus, welches aktuell bearbeitet wird. Es speichert auch Zwischenergebnisse. Werden Änderungen der Konfiguration vorgenommen, dann müssen nicht unbedingt alle Arbeitsschritte neu ausgeführt werden. Verwenden Sie den "Re-run" Button, um ein neue Konfiguration auf das gespeicherte Corpus anzuwenden. Man profitiert damit von Vorberechnungen.
  
 Sollen mehrere verschiedene Konfigurationen ausgeführt und die Ergebnisse exportiert werden, dann legen sie mehrere Config-Dateien an und öffnen diese als Datei-Liste. Jede Konfiguration wird dann auf die gespeicherten Daten des Corpus angewendet. Auch hier kann man von der Wiederverwendung von unveränderten Zwischenergebnissen profitieren.  Sollen mehrere verschiedene Konfigurationen ausgeführt und die Ergebnisse exportiert werden, dann legen sie mehrere Config-Dateien an und öffnen diese als Datei-Liste. Jede Konfiguration wird dann auf die gespeicherten Daten des Corpus angewendet. Auch hier kann man von der Wiederverwendung von unveränderten Zwischenergebnissen profitieren.