Metainformationen zur Seite
  •  

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
de:eaqua:significance [2023-03-30] – [Dice] Sylvia Kurowskyde:eaqua:significance [2023-03-30] (aktuell) – [Signifikanzmaße bei der Beurteilung von Kookkurrenzen] Sylvia Kurowsky
Zeile 8: Zeile 8:
  
 ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^ ^ Korpus ^ Anzahl Kookkurrenzen^ Kookkurrenzen freq = 1^ in Prozent ^
-|BTL ((Bibliotheca Teubneriana Latina, Online-Version, Stand vom Februar 2014)) |  137.486.214|  110,876,836| 80,65 | +|BTL ((Bibliotheca Teubneriana Latina, Online-Version, Stand vom Februar 2014.)) |  137.486.214|  110,876,836| 80,65 | 
-|MPL ((Patrologia Latina Database, CD-ROM Version, November 1995c)) |  580.247.568|  398.935.822| 68,75 |   +|MPL ((Patrologia Latina Database, CD-ROM Version, November 1995c.)) |  580.247.568|  398.935.822| 68,75 |   
-|Perseus Shakespeare ((William Shakespeare in Perseus Digital Library, Renaissance Materials, Stand vom Mai 2013)) |  6.746.602|  5.027.170| 74,51 | +|Perseus Shakespeare ((William Shakespeare in Perseus Digital Library, Renaissance Materials, Stand vom Mai 2013.)) |  6.746.602|  5.027.170| 74,51 | 
-|TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999)) |  355.021.014|  258.961.566| 72,94 |+|TLG ((TLG-E, CD-ROM Version aus dem Jahre 1999.)) |  355.021.014|  258.961.566| 72,94 |
  
 Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden. Wie aus der kleinen Übersicht zu erkennen ist, sind ein Großteil der gefundenen Kookkurrenzen eher als niedrigfrequent zu bezeichnen. Um daraus die wichtigen zu filtern, sind Berechnungsmethoden erforderlich, von denen hier einige vorgestellt werden.
Zeile 53: Zeile 53:
 |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ | |a = { §S, Sp, pi, ie, eg, ge, el, l§ }\\ b = { §S, Sp, pa, ar, rg, ge, el, l§ }\\ <m>d_{Spiegel,Spargel} = 5 / {8 + 8 - 5} = 5 / 11 ≈ 0,455</m>\\ |a = { §§S, §Sp, Spi, pie, ieg, ege, gel, el§, l§§ }\\ b = { §§S, §Sp, Spa, par, arg, rge, gel, el§, l§§ }\\ <m>d_{Spiegel,Spargel} = 5 / {9 + 9 - 5} = 5 / 13 ≈ 0,385</m>\\ |
  
-Für die Bewertung von Kokkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:+Für die Bewertung von Kookkurrenzen gilt beim Jaccard-Koeffizienten ähnliches wie beim Dice-Koeffizienten. Beide berechnen den Signifikanzwert ähnlich, die relative Ordnung der Kookkurrenzen bleibt gleich, nur der absolute Signifikanzwert unterscheidet sich marginal. Eine Modell-Berechnung mit mittlerer Frequenz von 100 sieht wie folgt aus:
  
 ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^ ^ <m>n_a</m> ^ <m>n_b</m> ^ <m>n_{ab}</m>  ^ Dice ^ Jaccard ^
Zeile 81: Zeile 81:
 ===== Log-Likelihood-Maß ===== ===== Log-Likelihood-Maß =====
  
-Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidenc". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert. +Eine der populärsten Signifikanzmaße bei der Analyse großer Textcorpora ist nach //Dunning// (([Dunning 93]. Dunning, T. "Accurate Methods for the Statistics of Surprise and Coincidence". In: Computational Linguistics 19, 1 (1993), 61-74.)) das Log-Likelihood-Maß, welches auf der Binomialverteilung, eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen, basiert. 
  
 <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\ <m>p(K=k)=p^k(1-p)^{n-k} (matrix{2}{1}{n k}) </m>\\ \\ \\