1. Single measures / Einzelmaße
1.1 Description / How to read the visualization
1.2 Beschreibung / Lesen der Visualisierung
1.3 Measures / Maße
2. Groups of measures / Gruppen von Maszen
2.1 Description of visualization
2.2 Beschreibung der Visualisierung
2.3 Groups / Gruppen

1. Single measures / Einzelmaße

1.1 Description / How to read the visualization

1.2 Beschreibung / Lesen der Visualisierung

Um eine einheitliche Darstellung herzustellen, müssen zwei Punkte Berücksichtigung finden: 1. Es gibt eine Namenskonvention, die ein Maß auch als Distanz oder Distanzmaß benennt (weitere Versuche zur Namensgebung beinhalten "Unterschiedlichkeit", "Distinktionsmaß", "Ähnlichkeit", "Kostenmaß" etc.) - wir benutzen Maß als den Namen für die Definition der Berechnung, Abstand für einen konkreten, berechneten Wert und Metrik ist die Ergebnismenge aller Vergleichesberechnungen (Umsetzung der Eigenschaften der Maßdefinition). Ein Maß ist an sich kein Wert der Gleichheit oder Unterschiedlichkeit, solches ist Ziel der Interpretation der Modellierung. Die arithmetische Gleichheit bleibt von dieser Definition unberührt und stellt eine andere Ebene der Betrachtung dar.
Der Anwendungsbereich des Maßes ist für die Interpretation der Ergebnisse von großer Bedeutung. Der Bereich, den wir annehmen werden, ist der der string-Heuristik (Häufigkeiten von einzelnen string-Mustern in längeren strings) und der Vergleiche zwischen diesen. Die Methode string-Heuristiken zu vergleichen kommt in verschiedenen Aufgaben zum Einsatz, so zum Beispiel der computergestützten Stylometrie oder der Plagiatermittlung. Bevor wir fortfahren, wollen wir uns den wiederkehrenden Arbeitsablauf ins Gedächtnis rufen: Nachdem die digitalen Dokumente eingelesen wurden, geht es zunächst darum, den Zeichenbestand sowie die Formate auf ein Gemeinsames zu bringen. Dieser Verarbeitungsschritt wird Normalisierung genannt. Dazu zählen auch Maßnahmen, die Steuerzeichen aus den Dokumentinhalten tilgen. Anschließend geht es darum festzulegen, in welche Einheiten ein digitaler Dokumenteninhalt zerlegt werden soll. Dieser Schritt wird Tokenisierung genannt. Token und Type gehen auf Charles Sanders Peirce zurück. Aus seiner Definition wird deutlich, dass für einen zählenden Apparat ausschließlich die Token-Ebene zugänglich ist, dazu [Nöth PEIRCE]. Wenn der string-Inhalt der Dokumente in Token zerlegt wurde, dann kann der Auszählungsprozess beginnen. Unter Umständen wird anschließend noch eine Auswahl aus den Häufigkeitslisten getroffen. Dies geschieht in Form von culling, Stoppwort-Listen oder von Abschnitten innerhalb der Häufigkeitsverteilungen. Nun kommt der Augenblick im Ablauf, an dem die Maße zum Einsatz kommen. Diese werden zwischen den Häufigkeitsverteilungen der Token für jeden Text (eigentlich: tokenisierter, ausgewählter, string-Inhalt der eingelesenen Dokumente) berechnet. Die Maße können nur zwischen identisch dimensionierten Häufigkeitsverteilungen berechnet werden. Also bekommen Token, die in einem Text nicht vorkommen, die Häufigkeit null und kommen in der Verteilung vor. Diese Werte werden für alle Textpärchen berechnet. Anschließend werden die Texte so geordnet, dass die mit kleinen berechneten Werte näher beieinander dargestellt werden und jene mit größer berechneten Werten weiter voneinander entfernt stehen. Dieser Arbeitsschritt heißt clustern. Es gibt eine Reihe von Verfahren, um die Grundidee umzusetzen. Wir werden hier lediglich etwas zu den Maßen und den numerischen Verhältnissen sagen. Dabei kommen die Maße, wie die beschriebenen Arbeitsschritte bereits andeuten, im Kontext des Textvergleichs zum Einsatz.
Die Visualisierung: Die Darstellungen bestehen aus einer quadratischen Grundfläche. Die karthesischen Verhältnise sind in dieser Grafik notiert:

Jede nicht gegenüberliegende Seite der Grundfläche steht für die Häufigkeit einer Wortform. Ein Punkt auf der Grundfläche stellt einen hypothetischen Text aus zwei Wortformen dar. Zunächst geht es darum, eine Anzahl hypothetischer Texte auszuwählen. Diese Texte enthalten jeweils zwei Wortformen, nur mit unterschiedlichen Häufigkeiten. Diese werden so gewählt, dass man sie auf der Grundfläche so einzeichnen kann, dass es einen zentralen Text und eine Anzahl von Texten gibt, die sich in gleichem (euklidischen) Abstand zum zentralen Text anordnen. Mit anderen Worten, die Grundfigur der gewählten Texte (Kreistexte, Referenztexte) ist ein Kreis mit Mittelpunkt (Mittelpunkttext, Basistext). Es ist das Grundprinzip der Visualisierung, dass die Texte so angeordnet sind. Denn es geht darum die unterschiedlichen Ergebnisse der Maßberechnungen aufzuzeigen. So gehen wir von der Definition des Kreises im euklidischen Rahmen aus, um Maße, die andere Abstände für den Vergleich zweier Texte liefern, in diesem Rahmen visuell zu gestalten. Die Werte, die das jeweilige Maß für einen berechneten Vergleich zwischen zwei Texten liefert, werden mit einem Strich zwischen Zentrum und äußeren Vergleichstext dargestellt. Für das euklidische Maß verbindet jede berechnete Linie den Kreis der äußeren Texte mit dem Mittelpunkt. Die Linie zwischen zwei Punkten muss aber nicht unbedingt diese Länge haben. Bestimmte Maße bewerten die Zusammensetzung an Zahlen, die hinter einem Text stehen, auf verschiedene Weise und errechnen unterschiedlich große Abstände. Falls die Ergebnisse des Maßes besonders klein sind, dann werden, um die Darstellung sinnvoll zu erhalten, die Werte so vergrößert, dass das größte Ergebnis den Mittelpunkttext mit dem zugehörigen Text auf der Kreisbahn verbindet. Sind die Ergebnisse besonders groß, werden die Linien so verkürzt, dass das größte Ergebnis das Zentrum mit der Kreisbahn verbindet. [Für alle Mathematiker ist klar, dass die Visualisierung, die für die Normen gefunden wurde, nun auf die mathematische Metrik übertragen wird, bzw. sogar auf das mathematsiche Maß verallgemeinert erscheint. Diese Erweiterung stellt eine schöne Bebildeurng und intuitive differenzierung zur Verfügung.]
Wenn der Mauszeiger auf einen der Punkte (Texte) bewegt wird, dann bekommen sie die Zahlenzusammensetzung angezeigt. Die Zahlen sind die absoluten Häufigkeiten zweier Wortformen, die in allen Texten enthalten sind. Alle Texte beinhalten nur diese zwei Wortformen. Klicken sie einen Punkt an, dann bekommen sie den zugehörigen hypothetischen Text angezeigt. Für die Visualisierung haben wir den einfachsten anschaulichen Fall von Textvergleich konstruiert. Dabei handelt es sich um die künstlichen Texte, die nur zwei Wortformen beinhalten.
Nun wollen wir uns vergegenwärtigen, wie die Visualisierung zu lesen ist: Wir wollten ein vergleichbares 2D-Diagramm der Ergebnisse der Maßanwendung. Dazu haben wir ein Rechteck definiert in dem wir Texte einzeichnen können (Höhe und Breite des Rechtecks entsprechen der Häufigkeit einer der zwei Wortformen). Es ist zu zeigen was dieses Rechteck bedeutet und welche Bedeutung dem Ort des ausgewählten Textes zukommt. Die Interpretation der Ergebnisse der Maße ist an zwei Aspekte gebunden: Die Häufigkeit und die Unterschiedlichkeit von Häufigkeiten zwischen den Vergleichstexten. Erinnern wir nochmals daran, dass ein Punkt, der im Rechteck eingezeichnet, ist zwei Zahlenwerte verbirgt. Diese Zahlenwerte definieren seine Position im Rechteck und stehen für die absolute Häufigkeit von Wortformen in einem Text. Das Rechteck ist durch einen Farbverlauf von Grau nach Golden koloriert. Die grauen Bereiche geben an, dass Texte, die in diesem Bereich markiert, sind insgesamt mit kleineren Zahlenwerten ausgestattet sind, also kleinere absolute Häufigkeiten aufweisen. Texte, die in Bereichen kräftiger Färbung eingezeichnet werden, weisen hingegen größere Zahlenwerte, also größere absolute Häufigkeiten für die beiden Wortformen auf. Texte, die in einer Reihe parallel zu einer Hauptachse (Kante) des Rechtecks markiert sind, weisen einen starken Zusammenhang zwischen den Häufigkeitswerten einer Wortform bzw. einen gleichen Zahlenwert auf. Diese Beziehung zwischen den Texten ist dann so auszudrücken, dass die beiden Texte weniger unterschiedlich hinsichtlich der Häufigkeit der Wortformen sind. Texte, die parallel zu einer der Diagonalen des Rechtecks markiert werden, unterscheiden sich in den Häufigkeiten beider Wortformen. Dabei sind die Texte entlang der Diagonalen am stärksten unterschiedlich.
Für die Bewertung der Maße bzw. der Besprechung ihrer unterschiedlichen Ergebnisse werden die Aspekte der Reaktion auf größere oder kleinere Zahlenwerte der Häufigkeiten und die Unterschiedlichkeit der Text (Lage der Vergleichstexte parallel zur Diagonalen oder parallel zur Seite des Rechtecks) immer wieder verwendet. Es sind diese Aspekte, die von der Visualisierung herausgearbeitet werden. Was in dieser Visualisierung und Besprechung unberücksichtigt bleibt, sind die Konsequenzen der Ergebnisse der Maße für die Clusterung. Es geht hier nur um die Empfindlichkeit der Maße für verschiedene Häufigkeitssituationen der Wortformen in den Texten. Was den Vergleich der Maße in Begriffen absoluter Ergebnisse angeht, muss Berücksichtigung finden, dass manche Grafiken skaliert sind. Die Visualisierungen, deren Strahlen die Farbe FFFFFFF tragen, sind nicht skaliert; wenn die Farbe FFFFFFF ist, dann sind die Strahlen in Wahrheit länger (Stauchung), und wenn die Farbe FFFFFFF ist, dann sind die Strahlen in Wahrheit kürzer (Streckung). Neben den farbigen Strahlen werden, leicht nach rechts unten verschoben, dünne schwarze Strahlen angezeigt. Diese stellen die Ergebnisse für relative Häufigkeiten dar.

Die Visualisierungen der Ergebnisse sind interaktiv. Führe Sie den Mauszeiger über einen Punkt in der Graphik, werden die beiden Häufigkeiten des hypothetischen Texts angezeigt, der sich hinter diesem Punkt verbergen. Klicken Sie wiederum auf einen Punkt, dann bekommen Sie den hypothetischen Text aus zwei Wortformen angezeigt, der sich hinter diesem Punkt verbirgt. Da es sich um ein konstruiertes, einfachstes Beispiel einer Gruppe von Texten handelt, die alle genau zwei gemeinsame Wortformen verwenden, ist die Anzeige des Textes ausschließlich dazu da, das Beispiel plastischer zu machen.
Unter jedem Diagramm findet sich ein kleines Menü. Ein Klick auf die Bezeichung "DOWNL." aktiviert den Download der Grafik. Ein Klick auf "3D.3T" zeigt, sofern verfügbar, eine Grafik für Texte, die mit drei Wortformen gebildet werden. Ein Klick auf "2Danima" zeigt eine Annimation für verschiedene Zahlenverhältnisse in den hypothetischen Texten.

Formeln: Es sind X und Y die nach Wortformen geordneten Häufigkeitsverteilungen zweier Texte. Die xi sind Häufigkeiten aus X, also die Häufigkeit für eine einzelne Wortform im Text. So auch yi. Alle Rechnungen verwenden ferner das große SIGMA oder PI, um anzuzeigen, dass die anschließenden Werte zusammengenommen (addiert oder multipliziert) werden.

Die Maße sind als JS Bibliothek unter https://github.com/ecomp-shONgit/vector-measures verfügbar.

Euclidean Measure / Euklidisches Mass

DOWNL. / 3D.3T / 2Danima

En:

Dt: Das Euklidische Maß realisiert die geometrische bzw. die auf die Raumwahrnehmung bezogene Intuition. In dieser ist jeder Punkt auf der Kreisbahn zum Zentrum gleich weit entfernt. Das Maß liefert die Größe dieser Entfernung. Zeichnet man diese ein, dann ergeben sich Strahlen vom Zentrum zur Peripherie des Kreises. Diese Anordnung dient uns als Grundlage der Visualisierung. Das Euklidische Maß beton keines der Zahlenverhältnisse, die in den einzelnen Textpunkten vertreten sind. Es ist in diesem Sinne ein neutrales Maß.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} \sqrt{(x_{i} - y_{i})^{2}}

Link Paper: [Korenius PCA]

Chebyshev Measure / Tschebyschow Mass

DOWNL. / 2Danima

En:

Dt: Die Abstandswerte des Tschebyschow Maßes unterscheiden sich, im Vergleich zum Euklidischen Maß, darin, dass die Hauptachsenrichtungen größere und die Richtungen entlang der Diagonalen kleinere Werte erzielen. Die Ausprägung der Ergebnisse entlang dieser beiden Richtungen lässt uns formulieren, dass für ausgezählte Texte mit großen Unterschieden in den Häufigkeiten der Wortformen ein kleinerer Wert errechnet wird und für ausgezählte Texte mit kleineren Unterschieden in den Häufigkeiten der Wortformen größere Werte. Da das Ergebnis des Maßes punktsymmetrisch ist, kommt es zu keiner grundsätzlichen Unterscheidung zwischen sehr großen oder sehr kleinen Häufigkeitswerten. Das Maß wird außerdem Schachbrettmaß oder Maximumsnorm genannt.
Formel der Implementierung:

d_{XY} = {max}_{0}^{i} (| x_{i} - y_{i} |)

Link Paper: [] !!!

Manhattan Measure / Manhattan Mass

DOWNL. / 3D.3T / 2Danima

En:

Dt: Das Manhattan Maß stellt, nach seiner Formel zu urteilen, das dar, was Minkowski Spanne (Minkowski GEOMETRIE S. 2) nannte. Der völlig abwegigen Vorstellung, dass zwei Punkte unterschiedliche Distanzen haben können in Abhängigkeit vom verwendeten Maß, könnte die Intuition entgegen gesetzt werden, dass die Entfernung zwischen zwei Punkten durch den Weg, den man nimmt, bestimmt ist. Diese Aussage ist besonders schön durch das Manhattan Maß gezeigt, dessen moderne Definition diesen unterschiedlichen Weg (verglichen mit dem Euklidischen Maß, dem direkten Weg) parallel zu den Achsen der Koordinaten aussagt. Wenn man beispielsweise, wie es das Manhattan Maß tut, einen Umweg nimmt, dann liegen zwei Punkte weiter auseinander. Und auch der Weg, den man nimmt, hängt von der Lage der Punkte ab. Also manche Wege, auch wenn man vorsätzlich einen weiteren Weg nach einem festen Prinzip mutwillig einschlägt, sind nicht weiter als der kürzeste Weg auseinander entfernt. Hier wirkt sich nicht der Vorsatz, den weiteren Weg zu wählen aus, sondern, dies nach einem wiederholbaren Schema zu tun. So ist jedes definierte Maß eher die Definition wie und wo entlang IMMER gemessen werden soll. Dieses Vorgehen zeitigt interessante arithmetische Erscheinungen, die man sich im Ausdruck von vermuteten oder belegten Verhältnissen in nummerisierten Problemen zu Nutze macht. Das Manhattan Maß liefert für ähnliche Häufigkeitswerte in den Vektoren der Texte einen kleineren Wert. Es liefert dagegen größere Werte für stärker verschiedenen Häufigkeitswerte zwischen den Auszählungen der Texte.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} | x_{i} - y_{i} |

Link Paper: [Kunwar TAXICAB]

Minkowsky Measure Order 0.7

DOWNL. / 2Danima

En:

Dt: Minkowski unterscheidet zwischen Distanzmaß und Spanne. Dabei scheint er die Intuition der Entfernung zwischen zwei Punkten zu integrieren wollen. Spannen sind die tatsächliche Differenz zwischen den Koordinaten zweier Punkte und Distanzmaße sind die Strahldistanzen, dazu S. 1 - 3 seines Werks Geometrie der Zahlen. Minkowski ist sich ebenfalls der Ambivalenz der Untersuchung bewusst. Die Norm, die hier der Formel für das Minkowski Maß Modell steht, entwickelt er im Rahmen der analytischen Betrachtung von Folgen. Hier treffen sich Geometrie und Analysis durch gleichen notationellen Charakter ihrer Objekte. Dies bringt Minkowski in seiner Einleitung zum Ausdruck. Das Maß beinhaltet die Potenzierung der einzelnen Koordinaten-Unterschiede (Unterschiede der Wortformhäufigkeiten) und die Potenzierung der Summer der potenzierten Einzelunterschiede. Beide Potenzierungen haben gegensätzliche arithmetische Wirkung. Ist der angegebene Grad (order) größer Null, dann sind die Potenzen der Einzelrechnungen größer Null und die Potenz der Summe kleiner Null. Ist der Grad kleiner Null, dann ist es umgekehrt. Mit dieser Veränderbarkeit kann das Minkowski Maß sowohl Ergebnisse hervorbringen, die dem Manhattan Maß oder dem gegensätzlichen Tschebyschow Maß ähneln. Das Minkowski Maß mit einer Potenz kleiner als 1 verhält sich ähnlich dem Manhattan Maß.
Formel der Implementierung:

d_{XY} = {({\sum_{0}}^{i} {(| x_{i} - y_{i} |)}^{p})}^{1/p}

Link Paper: [Minkowski GEOMETRIE]

Minkowsky Measure Order 3

DOWNL. / 2Danima

En:

Dt: Das Minkowski Maß mit einer Potenz größer als 1 nimmt für größere Unterschiedlichkeit der Häufigkeiten zwischen der ausgezählten Texten einen kleineren Wert an. Für Häufigkeiten, die zwischen der Texten ähnlicher sind, nimmt es größere Werte an. Je nach Wahl der Potenz kann das Tschebyschow Maß angenähert werden.
Formel der Implementierung:

d_{XY} = {({\sum_{0}}^{i} {(| x_{i} - y_{i} |)}^{p})}^{1/p}

Link Paper: [Minkowski GEOMETRIE]

Canberra Measure / Canberra Mass

DOWNL. / 2Danima

En:

Dt: Das Maß ist eine Abwandlung einer Formel, die Czekanowski 1913 (hier bestehen Unterschiede/Ungereimtheiten siehe dazu die Veröffentlichung aus der Besprechung des Soerensen Maßes) angibt. Die Ergebnisse dieser Formel ähneln denen der Soerensen oder Soergel Maße. In der Visualisierung zeigt dieses Maß für größere Häufigkeitswerte kleinere Ergebnisse und für kleinere Häufigkeitswerte größer Ergebnisse. Für ähnlichere Häufigkeitswerte zwischen den Texten gibt die Formel generell kleinere Ergebnisse aus. Die Kombination beider Charakteristiken führt zu einem Ergebnisbild, das dem des Manhattan Maß ähnelt, aber die Berücksichtigung des globalen Häufigkeitsniveau ergänzt.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} ((| x_{i} - y_{i} |) / (| x_{i} | + | y_{i} |))

Link Paper: [Lance/Williams CLASSIFICATION]

Soerensen Measure

DOWNL. / 2Danima

En:

Dt: Die Formel des Maßes ist jene, die Lance/Williams ihrer Arbeit zugrunde gelegt hatten und die durch sie die Wandlung erfuhr, die zum Canberra Maß führte. Die Diskussion, wie eine Reihe von Maßen historisch zusammenhängen, kann in der angeführten Veröffentlichung nachgelesen werden. Das Maß ist vom Manhattan Maß abgeleitet, wie die Formel zeigt. In dieser wird das Ergebnis des Manhattan Maßes durch die Summe aller Häufigkeiten geteilt. Für sehr ähnliche Häufigkeitsverteilungen gibt das Maß kleinere Werte und für eher unterschiedliche Häufigkeitsverteilungen größere Werte. Für eher kleine Häufigkeiten gibt es größere und für eher größere Häufigkeiten gibt es kleinere Werte aus.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} | x_{i} - y_{i} | / {\sum_{0}}^{i} | x_{i} | + | y_{i} |

Link Paper: [Somerfield IDENTIFICATION]

Gower Measure

DOWNL. / 2Danima

En:

Dt: Das Gower Maß versucht, zusätzlich zum Manhattan Maß zwei Dinge zu berücksichtigen: Falls es zu einer Wortform keine Häufigkeit gibt, diese also gar nicht vorkommt in einem Text, dann soll der Ausgabe Wert größer werden. Die Spanne der Werte je Wortform im Gesamtkorpus zu berücksichtigen. Die Formel zeigt, dass der Wert des Manhattan Maßes durch die generelle Spanne geteilt wird. Anschließend wird das Gesamtergebnis durch die Anzahl der nicht-null Werte geteilt. Im einfachen Beispiel der Visualisierung wird jedoch deutlich, dass sich die Charakteristik des Manhattan Maßes erhält.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} (| x_{i} - y_{i} | / R_{i}) / {\sum_{0}}^{i} x_{i} \land y_{i}

Link Paper: [Gower IDENTIFICATION]

Soergel Measure

DOWNL. / 2Danima

En:
Dt: Das Maß berechnet den Quotienten des gesamten Unterschiedes und des gesamten maximalen Wert der Einzelvergleiche. Das heißt, wenn der Unterschied gegen den maximalen Wert der Einzelvergleiche geht, dann geht das Maß gegen 1. Daher betont die Rechnung die Vergleiche entlang der Hauptdiagonalen der Darstellung. Vektoren, in denen einzelne Werte gleich sind, ergeben an diesen Stellen sehr kleine Werte, das vermindert die Werte in Achsenrichtung. Das Maß liefert für Texte, die durch gleiche Häufigkeiten in den Vektoren gekennzeichnet sind, kleinere Werte. Für im Ganzen kleinere Häufigkeiten liefert das Maß größere Ergebnisse.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} | x_{i} - y_{i} | / {\sum_{0}}^{i} max (x_{i}, y_{i})

Link Paper: [Ehsani/Drablos ROBUST]

Lorentzian Measure

DOWNL. / 2Danima

En:
Dt: Das Maß ist nur insofern als Lorenz Metrik zu erkennen, als die Differenz der Einzelunterschiede logarithmiert (natürlicher Logarithmus) werden und daraus das Gesamtergebnis gebildet wird. Damit ist das Maß eine spezialisierte Form der Lp-Norm der Definition des Lorenz Raums. Das Maß hat ausschließlich positive Ergebnisse für positive Eingaben. Das garantiert die Verschiebung des natürlichen Logarithmus entlang der Y Achse ("1+" in der Formel). Wollte man sich den Weg zwischen zwei Punkten vorstellen, dessen Länge als der Abstand der zwei Punkte durch das Maß angegeben wird, dann ist die Verbindung zwischen zwei Punkten gebogen, wie es der Graph des natürlichen Logarithmus ist.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} ln (1 + | x_{i} - y_{i} |)

Link Paper: [Cha COMPREHENSIVE] (BESSERE QUELLE)

Intersection Measure / Finger-Kreinin Measure

DOWNL. / 2Danima

En:
Dt: Das Maß wird auch Schnittmaß genannt, da es aus dem Vergleich von Dichtefunktionen kommt. Legt man zwei Graphen zweier Dichtefunktionen übereinander und bildet den Mengenschnitt, dann bleibt genau der Bereich mit jeweils den kleinsten Werten (das Gemeinsame) übrig. In der Formel sieht man, dass die Summe der kleinsten Werte des eingehenden Vektors gebildet wird. Das heißt der Abstand zweier Texte wird aus den minimalen Häufigkeiten je Wortform gebildet. Dies erklärt, warum die Visualisierung grundsätzlich für Vektoren mit kleiner Häufigkeit eine kleineren Distanzwert ausgibt und für Vektoren mit insgesamt häufigeren Wortformen einen größeren. Der spezielle Fall, dass alle Häufigkeiten eines Vektors kleiner oder größer im Vergleich zum anderen Vektor sind, führt zu den Verläufen entlang der Diagonalen von links oben nach rechts unten.
Formel der Implementierung:

d_{XY} = {\sum_{0}}^{i} min (x_{i}, y_{i})

Link Paper: [Cha COMPREHENSIVE] [Finger Kreinin EXPORT]

Intersection 2 Measure

DOWNL. / 2Danima

En: Dt: Eine andere Formulierung des Intersection Maßes: Es unterscheidet sich darin, dass die Summe der minmalen Häufigkeiten je Wortform anschließend durch das Minimum der Summe der Häufigkeiten geteilt wird. WIE IST DAS ZU DEUTEN??? Cosinus Maß???
Formel der Implementierung:

d_{XY} = 1 - (\sum_{0}^{i} min (x_{i}, y_{i}) / min (\sum_{0}^{i} x_{i}, \sum_{0}^{i} y_{i}))

Link Book: [Deza ENCYCLOPEDIA] (BESSERE QUELLE)

so called Wave-Hedges Measure

DOWNL. / 2Danima

En:
Dt: Das angeführte Paper weißt darauf hin, dass die Berechnung der "Wave-Hedges Distance" bei dem Autor Wave nicht nachzuweisen ist. Außerdem spricht [Deza ENCYCLOPEDIA] von "Wave-Edges Distance". Die Distanz ist namentlich in Mason Macklem Multidimensional Modelling Of Image Fidelity Measures. M.Sc. thesis, Burnaby, BC, Canada: Simon Fraser University, 2002 erstmals erwähnt. Dr. Macklem hat noch keine Stellung zu der Formulierung genommen. Er kann vorläufig als Urheber der Distanz gelten. Man könnte meinen, dass das Maß dem Soegel Maß sehr ähnlich ist. Das zeigt auch die Formel, hier ist nur auf die Stellung des Summenzeichend zu verweisen.
Formel der Implementierung:

d_{XY} = \sum_{0}^{i} ((| x_{i} - y_{i} |) / max (x_{i}, y_{i}))

Link Paper: [Hassanat INVARIANT]

Hassanat Measure (HasD)

DOWNL. / 2Danima

En:
Dt: Das Maß lifert Ergebnisse zwischen 1 und 0. Die Formel wurde als Antwort auf die rechnerischen Schwächen des sogenannten Wave-Hedges Maß entwickelt. Das Maß betont die Verhältnisse, in denen die zwei Texte gleiche häufigkeitswerte haben durch besonders kleine Werte. Es liefert entlang der Diagonalen der Darstellung generell größere Werte. Eine zusätzliche Betonung erfahren kleinere Zahlen.
Formel der Implementierung:

d_{XY} = \sum_{0}^{i} {\binom{\frac{| x_{i} - y_{i} |}{1 + max (x_{i}, y_{i})}, min (x_{i}, y_{i}) \geq 0}{\frac{| x_{i} - y_{i} |}{1 + max (x_{i}, y_{i}) + | min (x_{i}, y_{i}) |}, min (x_{i}, y_{i}) < 0}

Link Paper: [Hassanat Review]

Motyka Measure

DOWNL. / 2Danima

En:
Dt: Das Maß könnte auf Józef Motyka zurück gehen, einen Botaniker. Die Veröffentlichungen beziehen sich alle auf [Deza ENCYCLOPEDIA]. Insofern kann nicht genau gesagt werden, woher das Maß stammt. Es zeigt eine Verhalten, dass eine Mischung von Hassanat und Euklid entspricht.
Formel der Implementierung:

d_{XY} = \frac{\sum_{0}^{i} max (x_{i}, y_{i})}{\sum_{0}^{i} x_{i} + y_{i}}

Link Paper: [Warrens INEQUALITIES]

Ruzicka Measure

DOWNL. / 2Danima

En:
Dt: Das Maß entstammt der Beurteilung von Land und Landnutzung. Dieses Maß wurde im Rahmen der Beurteilung von ökologischen Sachverhalten aufgestellt. Es ähnelt in seiner Antwort dem Intersection Maß. Die Formel zeigt an, dass die Summer der minimalen Werte mit der Summe der maximalen Werte des Vergleichs normalisiert wird. Das ergibt für den gewählten Wertebereich eine ähnlich Antwort. Es ist anzumekrne, dass das Maß für kategoriale Skalen entwickelt wurde.
Formel der Implementierung:

d_{XY} = \frac{\sum_{0}^{i} min (x_{i}, y_{i})}{\sum_{0}^{i} max (x_{i}, y_{i})}

Link Paper: [Ružička Geobotanik]