Metainformationen zur Seite
  •  

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Nächste Überarbeitung
Vorhergehende Überarbeitung
de:eaqua:significance [2023-03-03] – angelegt Jens Wittigde:eaqua:significance [2023-03-30] (aktuell) – [Signifikanzmaße bei der Beurteilung von Kookkurrenzen] Sylvia Kurowsky
Zeile 8: Zeile 8:
  
 ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^ ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^
-|BTL ((Bibliotheca Teubneriana Latina, Online-Version, Stand vom Februar 2014)) |  137.486.214|  110,876,836| 80,65 | +|BTL ((Bibliotheca Teubneriana Latina, Online-Version, Stand vom Februar 2014.)) |  137.486.214|  110,876,836| 80,65 | 
-|MPL ((Patrologia Latina Database, CD-ROM Version, November 1995c)) |  580.247.568|  398.935.822| 68,75 |   +|MPL ((Patrologia Latina Database, CD-ROM Version, November 1995c.)) |  580.247.568|  398.935.822| 68,75 |   
-|Perseus Shakespeare ((William Shakespeare in Perseus Digital Library, Renaissance Materials, Stand vom Mai 2013)) |  6.746.602|  5.027.170| 74,51 | +|Perseus Shakespeare ((William Shakespeare in Perseus Digital Library, Renaissance Materials, Stand vom Mai 2013.)) |  6.746.602|  5.027.170| 74,51 | 
-|TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999)) |  355.021.014|  258.961.566| 72,94 |+|TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999.)) |  355.021.014|  258.961.566| 72,94 |
  
 Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden. Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden.
Zeile 32: Zeile 32:
 |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = {2 * 5} / {8 + 8} = 10 / 16 = 0,625</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = {2 * 5} / {9 + 9} = 10 / 18 ≈ 0,556</m>\\ | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = {2 * 5} / {8 + 8} = 10 / 16 = 0,625</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = {2 * 5} / {9 + 9} = 10 / 18 ≈ 0,556</m>\\ |
  
-Bei der Bewertung von Kokkurrenzen kann der Dice-Koeffizient genutzt werden, indem die Häufigkeiten (Frequenzen) der Wörter ins Verhältnis gesetzt werden.+Bei der Bewertung von Kookkurrenzen kann der Dice-Koeffizient genutzt werden, indem die Häufigkeiten (Frequenzen) der Wörter ins Verhältnis gesetzt werden.
 <m>n_a</m> und <m>n_b</m> sind dabei die Frequenzen der Terme, <m>n_{ab}</m> die Anzahl des gemeinsamen Auftretens. <m>n_a</m> und <m>n_b</m> sind dabei die Frequenzen der Terme, <m>n_{ab}</m> die Anzahl des gemeinsamen Auftretens.
    
-Aus der oben angeführten Berechnung ergeben sich relativ einfache Bewertungsmaßstäbe. Je frequenter die beiden Begriffe gemeinsam benutzt werden, um so mehr nähert sich der Wert 1. Treten beide Begriffe nur gemeinsam auf, wird die höchste Signifikanz mit 1 erreicht. Wie oft diese Kookkurrenz im Korpus zu finden ist, spielt dabei keine Rolle. Daraus ergibt sich eine wichtige Eigenschaft des Dice-Koeffizienten: Kookkurrenzen, die selten zusammen auftreten, bei denen ein Wort hoch- und das andere niedrigfrequent sind, werden als unsignifikant bewertet.+Aus der oben angeführten Berechnung ergeben sich relativ einfache Bewertungsmaßstäbe. Je frequenter die beiden Begriffe gemeinsam benutzt werden, umso mehr nähert sich der Wert 1. Treten beide Begriffe nur gemeinsam auf, wird die höchste Signifikanz mit 1 erreicht. Wie oft diese Kookkurrenz im Korpus zu finden ist, spielt dabei keine Rolle. Daraus ergibt sich eine wichtige Eigenschaft des Dice-Koeffizienten: Kookkurrenzen, die selten zusammen auftreten, bei denen ein Wort hoch- und das andere niedrigfrequent sind, werden als unsignifikant bewertet.
 ===== Jaccard ===== ===== Jaccard =====
    
Zeile 53: Zeile 53:
 |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ |
  
-Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:+Für die Bewertung von Kookkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
  
 ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^ ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert. +Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidence". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert. 
  
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\ <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\