In der Statistik wird unter Signifikanz eine Kennzahl verstanden, welche die Wahrscheinlichkeit eines systematischen Zusammenhangs zwischen Variablen, im Falle von Textanalysen also zwischen Teiltexten (z.B. Wörtern), bezeichnet. Die Signifikanz drückt aus, ob ein scheinbarer Zusammenhang rein zufälliger Natur sein könnte oder mit hoher Wahrscheinlichkeit tatsächlich vorliegt.
Zur Berechnung werden abhängig vom Untersuchungsgegenstand unterschiedliche Formeln herangezogen, welche in erster Linie aus der Computerlinguistik stammen. Die Signifikanzmaße sollen dabei helfen, wichtige von unwichtigen Kookkurrenzen zu trennen. Dabei werden statistische Kenngrößen, wie Korpusgröße, Häufigkeit der einzelnen Wörter oder Frequenz des gemeinsamen Auftretens, ins Verhältnis gesetzt.
Eines der einfachsten Signifikanzmaße ist eine frequenzsortierte Kookkurrenzliste, also die Häufigkeit des gemeinsamen Auftretens zweier Worte im Gesamtkorpus. Ein Nachteil frequenzsortierter Listen ist, dass nach dem Zipf'schen Gesetz, dem Beginn der quantitativen Linguistik, sehr viele Wörter sehr selten auftreten. Demzufolge lassen sich mit einem Schwellenwert größer 1, also dem mehrmaligen gemeinsamen Auftreten eines Wortpaares, etwa zwei Drittel der Kookkurrenzen herausfiltern. Berechnet von den eAQUA-Tools sieht dies für ausgewählte Korpora wie folgt aus:
Korpus | Anzahl Kookkurrenzen | Kookkurrenzen freq = 1 | in Prozent |
---|---|---|---|
BTL 1) | 137.486.214 | 110,876,836 | 80,65 |
MPL 2) | 580.247.568 | 398.935.822 | 68,75 |
Perseus Shakespeare 3) | 6.746.602 | 5.027.170 | 74,51 |
TLG 4) | 355.021.014 | 258.961.566 | 72,94 |
Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden.
Beim Dice-Koeffizienten (auch Sørensen-Dice-Koeffizent, benannt nach den Botanikern Thorvald Sørensen und Lee Raymond Dice) wird die Ähnlichkeit zweier Terme mittels einer Zahl zwischen 0 und 1 angegeben. Berechnungsgrundlage sind sogenannte N-Gramme. Bei N-Grammen wird ein Term bzw. ein Text in gleich große Teile zerlegt. Diese Fragmente können Buchstaben, Phoneme, ganze Wörter oder ähnliches sein.
Ermittelt wird die Anzahl der N-Gramme, die in beiden Termen vorhanden sind, um diese ins Verhältnis zur Gesamtzahl der N-Gramme zu setzen. Berechnet wird nach der Formel wobei die Schnittmenge beider Terme und bzw. die Anzahl der gebildeten N-Gramme pro Term angibt.
Beispiel 1: Ausdruck a = Tür Ausdruck b = Tor | |
---|---|
Bigramm | Trigramm |
a = { §T, Tü, ür, r§ } b = { §T, To, or, r§ } | a = { §§T, §Tü, Tür, ür§, r§§ } b = { §§T, §To, Tor, or§, r§§ } |
Beispiel 2 Ausdruck a = Spiegel Ausdruck b = Spargel | |
---|---|
Bigramm | Trigramm |
a = { §S, Sp, pi, ie, eg, ge, el, l§ } b = { §S, Sp, pa, ar, rg, ge, el, l§ } | a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ } b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ } |
Bei der Bewertung von Kookkurrenzen kann der Dice-Koeffizient genutzt werden, indem die Häufigkeiten (Frequenzen) der Wörter ins Verhältnis gesetzt werden. und sind dabei die Frequenzen der Terme, die Anzahl des gemeinsamen Auftretens.
Aus der oben angeführten Berechnung ergeben sich relativ einfache Bewertungsmaßstäbe. Je frequenter die beiden Begriffe gemeinsam benutzt werden, umso mehr nähert sich der Wert 1. Treten beide Begriffe nur gemeinsam auf, wird die höchste Signifikanz mit 1 erreicht. Wie oft diese Kookkurrenz im Korpus zu finden ist, spielt dabei keine Rolle. Daraus ergibt sich eine wichtige Eigenschaft des Dice-Koeffizienten: Kookkurrenzen, die selten zusammen auftreten, bei denen ein Wort hoch- und das andere niedrigfrequent sind, werden als unsignifikant bewertet.
Beim Jaccard-Koeffizienten (nach dem Botaniker Paul Jaccard) wird die Ähnlichkeit zweier Terme mittels einer Zahl zwischen 0 und 1 angegeben. Berechnungsgrundlage bei Textmining-Verfahren sind sogenannte N-Gramme. Bei N-Grammen wird ein Term bzw. ein Text in gleich große Teile zerlegt. Diese Fragmente können Buchstaben, Phoneme, ganze Wörter oder ähnliches sein.
Ermittelt wird die Anzahl der N-Gramme, die in beiden Termen vorhanden sind, um diese ins Verhältnis zur Gesamtzahl der N-Gramme zu setzen. Berechnet wird nach der Formel wobei die Schnittmenge beider Terme und bzw. die Anzahl der gebildeten N-Gramme pro Term angibt.
Beispiel 1: Ausdruck a = Tür Ausdruck b = Tor | |
---|---|
Bigramm | Trigramm |
a = { §T, Tü, ür, r§ } b = { §T, To, or, r§ } | a = { §§T, §Tü, Tür, ür§, r§§ } b = { §§T, §To, Tor, or§, r§§ } |
Beispiel 2 Ausdruck a = Spiegel Ausdruck b = Spargel | |
---|---|
Bigramm | Trigramm |
a = { §S, Sp, pi, ie, eg, ge, el, l§ } b = { §S, Sp, pa, ar, rg, ge, el, l§ } | a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ } b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ } |
Für die Bewertung von Kookkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
Dice | Jaccard | |||
---|---|---|---|---|
100 | 100 | 1 | 0,01 | 0,005 |
100 | 100 | 10 | 0,1 | 0,05 |
100 | 100 | 50 | 0,5 | 0,33 |
100 | 100 | 90 | 0,9 | 0,82 |
100 | 100 | 100 | 1 | 1 |
Ein Ansatz zur Berechnung von signifikanten Kookkurrenzen basiert auf der Poisson-Verteilung (benannt nach dem Mathematiker Siméon Denis Poisson), einer diskreten Wahrscheinlichkeitsverteilung
Auf der Basis der Poisson-Verteilung geben Quasthoff / Wolff 5) das Poisson-Maß mit der Formel an, welche beispielsweise für die Berechnung von Korpora im Wortschatz-Portal genutzt wurde, und in der die zwei Faktoren n (Anzahl der Sätze im Korpus) und k (Häufigkeit des gemeinsamen Auftretens, auch bezeichnet) maßgeblich sind.
Nach einer Umstellung und der Grundannahme ergibt sich folgende Berechnung
Somit ließe sich das Poisson-Maß auf die Differenz zwischen Local Mutual Information und Frequenz reduzieren.
Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach Dunning 6) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert.
Dunning kommt schließlich bei der Berechnung von log likelihood zu der Formel:
unter der Voraussetzung
Das Log-Likelihood-Maß kann demzufolge abgeleitet werden
Charakteristisch für das Log-Likelihood-Maß ist, im Gegensatz beispielsweise zum Poisson-Maß, die Gleichbehandlung von signifikant häufigen und signifikant seltenen Ereignissen. So finden sich in den Digitalisaten vom TLG in der Version TLG-E bei rund 73,8 Millionen Wörtern etwa 1,3 Millionen Kookkurrenzen, die nur einmal auftreten und trotzdem mit einem lgl-Wert von 30 und ein wenig mehr belegt sind. Einen ähnlich großen Wert von 34,553 haben zum Beispiel καὶ und τὸ, die zusammen 14311 Mal gezählt wurden.