Was bedeutet ... ?

A

AJAX

Asynchronous JavaScript And XML ist ein Programmierkonzept, welches Daten zwischen Browser und Server austauscht, ohne dass dabei die gesamte Webseite neu geladen werden muss.

Apache-Lizenz

Die Apache-Lizenz ist eine Freie-Software-Lizenz der Apache Software Foundation, die keinen Copyleft-Vermerk besitzt.

API

Als application programming interface (Programmierschnittstelle) wird der Teil einer Software verstanden, der zur Verfügung gestellt wird, damit andere Systeme mit der Software kommunizieren können.

B

Beta-Code Altgriechisch

Griechischer Beta Code ist die 7-Bit-sichere Kodierung mittels des US-ASCII-Zeichensatzes. Jedes diakritische Zeichen wird durch ein eigenes Zeichen dargestellt, welches dem Buchstaben folgt (Ausnahme: bei Großbuchstaben vor dem Buchstaben). Beta Code unterscheidet nicht zwischen Klein-/Großschreibung, Großbuchstaben werden durch Voranstellung von * Asteriskos (griech. ἀστερίσκος) gekennzeichnet. Einige Projekte benutzen nur Großbuchstaben (z.B. TLG), andere nur Kleinbuchstaben (z.B. das Perseus Project).

Siehe auch: Betacode-Transkriptions-Tabelle Altgriechisch.

ἀστερίσκος in Beta-Code Altgriechisch:

a)steri/skos

Big Data

Analyse großer Datenmengen aus verschiedenen Quellen mit dem Ziel, wirtschaftlichen Nutzen daraus zu erzeugen.

BT

Benedictus Gotthelf Teubner gründete 1811 in Leipzig den Verlag, B.G. Teubner, in dem ab 1849 die Bibliotheca scriptorum Graecorum et Romanorum Teubneriana (Bibliotheca Teubneriana), eine nahezu vollständige Reihe wissenschaftlicher Editionen der griechischen und lateinischen Literatur von der Antike bis zur Neuzeit, erschien.

BTL

Die Bibliotheca Teubneriana Latina Online bietet elektronischen Zugang zu allen in der Bibliotheca Teubneriana veröffentlichten Ausgaben lateinischer Texte (ohne Vorwort oder kritischen Apparat).

C

CC

Unter dem Begriff Creative Commons (CC) wird eine Sammlung von Lizenzen verstanden, mit denen ein Autor Nutzungsrechte für sein Werk einräumen kann. Durch die Kombination der Rechtemodule

  • by (Attribution) Namensnennung
  • nc (Non-Commercial) Nicht kommerziell
  • nd (No Derivatives) Keine Bearbeitung
  • sa (Share Alike) Weitergabe unter gleichen Bedingungen

kann die Freigabe nach den Wünschen des Urhebers abgestuft werden.

Copyleft

Als Copyleft wird eine Klausel in Nutzungslizenzen bezeichnet, die festlegt, dass alle Änderungen an einem Werk nur dann statthaft sind, wenn sie im Wesentlichen unter den gleichen Lizenzbedingungen verbreitet werden.

CSV

Das textbasierte Dateiformat CSV (Comma-separated values) ist eine Form von DSV (Delimiter-separated values). Die Daten sind in Tabellenform, also zweidimensional, gespeichert. Jede Zeile ist ein Datensatz. Felder werden mittels Komma oder Semikolon separiert.

Parallelstellen von TATIANUS (TLG) im CSV-Format:

beispiel.csv
Original Sentence; Reference; Original Author; Original Publication; Original DC; Author; Publication; DC; Similarity; Dating; Author Name; Author Epiteths; Author ID; AuthorID-WorkID
"Τυρρηνοὶ σάλπιγγα, χαλκεύειν Κύκλωπες, καὶ ἐπιστολὰς συντάσσειν ἡ Περσῶν ποτε ἡγησαμένη γυνή, καθά ϕησιν Ἑλλάνικος:";"εὗρεν) ἡ Περσῶν ποτε ἡγησαμένη γυνή, καθά ϕησιν Ἑλλάνικος:";"TATIANUS  Apol.  [1766]";"Oratio ad Graecos, ed. E.J. Goodspeed, Die ältesten  Apologeten. Göttingen: Vandenhoeck & Ruprecht, 1915: 268-305.  (Cod: 10,694: Apol., Orat.)  ";"1T/2/2 to 1T/2/4 (Schema:Chapter/section/line )";"HELLANICUS  Hist.  [0539]";"Fragmenta, FGrH #4, #323a, #601a, #608a, #645a, #687a:  1A:107-152, *6-*8 addenda; 3B:41-50, 732-733; 3C:1-2, 190,  412-414.  fr. 124b (PSI 1173): vol. 1A, p. *6 addenda.  fr. 189 (P. Oxy. 10.1241): vol. 1A, p. 150.  fr. 201 bis (P. Giss. 307v): vol. 1A, p. *7 addenda.  (Pap: 18,331: Hist., Myth.)  ";"1a,4,F/179a/3 to 1a,4,F/179a/4 (Schema:Volume-Jacoby#-F//fragment/line )";67;-450.5;"HELLANICUS ";"Hist. ";"0539";"0539-002"
"Τυρρηνοὶ σάλπιγγα, χαλκεύειν Κύκλωπες, καὶ ἐπιστολὰς συντάσσειν ἡ Περσῶν ποτε ἡγησαμένη γυνή, καθά ϕησιν Ἑλλάνικος:";"εὗρεν) ἡ Περσῶν ποτε ἡγησαμένη γυνή, καθά ϕησιν Ἑλλάνικος:";"TATIANUS  Apol.  [1766]";"Oratio ad Graecos, ed. E.J. Goodspeed, Die ältesten  Apologeten. Göttingen: Vandenhoeck & Ruprecht, 1915: 268-305.  (Cod: 10,694: Apol., Orat.)  ";"1T/2/2 to 1T/2/4 (Schema:Chapter/section/line )";"HELLANICUS  Hist.  [0539]";"Fragmenta, FGrH #4, #323a, #601a, #608a, #645a, #687a:  1A:107-152, *6-*8 addenda; 3B:41-50, 732-733; 3C:1-2, 190,  412-414.  fr. 124b (PSI 1173): vol. 1A, p. *6 addenda.  fr. 189 (P. Oxy. 10.1241): vol. 1A, p. 150.  fr. 201 bis (P. Giss. 307v): vol. 1A, p. *7 addenda.  (Pap: 18,331: Hist., Myth.)  ";"3c,687a,F/8a/3 to 3c,687a,F/8a/3 (Schema:Volume-Jacoby#-F//fragment/line )";67;-450.5;"HELLANICUS ";"Hist. ";"0539";"0539-002"

CTS

Das Notationssystem CTS (Canoncial Text Services) als Teil der CITE Architektur bietet einen netzbasierten Service zur Identifikation klassischer Texte basierend auf URN. CTS URNs sind in fünf Teile untergliedert, die von Doppelpunkten voneinander getrennt sind: urn:ctn:ctnNameSpace:WorkIdentifier:PassageIdentifier.

D

DCB

Digital Classics Books ist eine Open-Access-Monographienreihe, die Arbeiten aus den Altertumswissenschaften und angrenzenden Gebieten in Verbindung mit der Anwendung oder Entwicklung von Methoden aus den Digital Humanities veröffentlicht.

DCO

Digital Classics Online ist eine Open-Access-Journal, welches Arbeiten aus den Altertumswissenschaften und angrenzenden Gebieten in Verbindung mit der Anwendung oder Entwicklung von Methoden aus den Digital Humanities veröffentlicht.

DNP

Der Neue Pauly. Enzyklopädie der Antike.

Siehe auch: RE

DOI

Digital Object Identifier (DOI) werden seit 1998 durch die International DOI Foundation (IDF) koordiniert. Mit DOI können sowohl physische, digitale als auch abstrakte Objekte dauerhaft eindeutig identifiziert und lokalisiert werden. Dem Schema, welches immer mit 10 beginnt, wird zur Identifikation eine doi vorangestellt: doi:10.ORGANISATION/ID.

Ein Beispiel:

Ch. Schubert (Hg.): Working Papers Contested Order (NO. 10): Das Portal eAQUA – Neue Methoden in der geisteswissenschaftlichen Forschung V
DOI: http://dx.doi.org/10.11588/ea.2013.2	

E

Editierdistanz

Entropie

Entropie in der Informationstheorie gibt an, wieviel Bits im Durchschnitt benötigt werden, um einen Wert einer Zufallsvariablen als ein Ereignis (als Teil einer Nachricht) zu codieren. Je mehr Bits benötigt werden, desto höher ist die Entropie und umso schwieriger die Vorhersagen eines Ereignisses.

F

FDM

Forschungsdaten-Management

G

GND

Alle Normdaten der Deutschen Nationalbibliothek werden mittels Linked-Data-Service als Gemeinsame Normdatei zur Verfügung gestellt. In die Gemeinsame Normdatei eingeflossen ist die Normdatei der Personen, die wiederum alle Datensätze der Personennamen der Antike (PAN) enthält.

GPL

Die GNU General Public License (auch GPL oder GNU GPL) ist eine Lizenz, die es erlaubt, eine Software kostenlos zu nutzen, zu verbreiten, zu studieren oder auch zu verändern. Alle von der Software abgeleitete Programme müssen ebenfalls zu den Bedingungen der GPL lizenziert werden (Copyleft).

H

HTML

Hypertext Markup Language ist eine textbasierte Auszeichnungssprache zur strukturierten Darstellung von Inhalten in elektronischen Dokumenten.

J

JPEG

Verschiedene Methoden der Bildkompression, die vom Gremium Joint Photographic Experts Group 1992 in Form einer Norm vorgestellt wurden, werden unter dem Begriff JPEG zusammengefasst.

JSON

JavaScript Object Notation ist ein kompaktes Datenformat, welches zur Übertragung von Daten zwischen Client und Server konzipiert wurde.

Auszug von TLG-Metadaten in JSON:

beispiel.json
{
"corpora_author_id":2064,
"author":"ACACIUS",
"works":
  [
  {"corpora_work_id":"002","work":"Fragmenta in epistulam ad Romanos (in catenis)"}
  ]
},
{
"corpora_author_id":1832,
"author":"ACESANDER",
"works":
  [
  {"corpora_work_id":"001","work":"Fragmenta "},
  {"corpora_work_id":"002","work":"Fragmentum (P. Oxy. 32.2637)"}
  ]
}

K

KLP

Der Kleine Pauly.

Siehe auch RE

Kookkurrenz

Das gemeinsame Auftreten zweier lexikalischer Einheiten, z.B. Wörter, innerhalb eines übergeordneten Segmentes, z.B. Satz, wird in der Allgemeinen Linguistik als Kookkurrenz bezeichnet.

L

Lemmatisierung

Reduktion auf die Grundform eines Wortes, also diejenige Form, unter der der Begriff in einem Nachschlagewerk zu finden ist.

Levenshtein-Distanz

Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um eine Zeichenkette in eine andere zu verwandeln.

Siehe auch: Editierdistanz bei der Parallelstellensuche.

M

Metadaten

Metadaten oder auch Metainformationen sind allgemein Daten, die Informationen über Merkmale beinhalten, die nicht Bestandteil der Daten selbst sind. Bei einer Korpusanalyse werden z.B. alle bibliographischen Informationen als Metadaten behandelt.

MIT-Lizenz

Die MIT-Lizenz (auch X-Lizenz oder X11-Lizenz) ist eine aus dem Massachusetts Institute of Technology stammende Lizenz für die Software-Benutzung, die erlaubt, die Software zu verwenden, kopieren, ändern, fusionieren, verlegen, verbreiten, unterlizenzieren und/oder zu verkaufen, sofern ein Urheberrechtsvermerk und der Erlaubnisvermerk den Kopien beigelegt sind.

ML

Eine Markup Language oder Auszeichnungssprache beschreibt den Inhalt eines Dokumentes oder das Verfahren, welches zur Verarbeitung der Daten notwendig ist. HTML, XML oder LaTeX sind Auszeichnungssprachen.

Siehe auch Migne Latinus

N

N3

Notation 3 ist eine formale Sprache, die beispielsweis als Syntax für RDF-Daten genutzt werden kann:

<#Tim Berners-Lee> <#entwickelte> <#N3> .

N-Gramm

Zerlegung eines Textes in einzelne Fragmente der Anzahl N. Die Fragmente können Buchstaben, Phoneme oder auch Wörter sein. In der Computerlinguistik finden sich oft Bi- oder Trigramme aus Zeichen (Buchstaben und/oder Satzzeichen).

NER

Named Entity Recognition - Eigennamenerkennung. Begriffe eines Textes werden bestimmten Klassen zugeordnet, z.B. Orte oder Personen.

Normalisierung

Im Kontext von geschriebener Sprache wird der Begriff Normalisierung unspezifisch eingesetzt für ein Bündel an Maßnahmen, die alle darauf abzielen, eine einheitliche, sowohl formelle als auch syntaktische Darstellung herbeizuführen.

P

PAN

Personennamen der Antike ist die Normierung von Personennamen der griechisch- und lateinischsprachigen Antike, ursprünglich in Buchform, mittlerweile elektronisch veröffentlicht.

Siehe GND

Parser

Ein Parser ist ein Programm, welches eine Eingabe zerlegt und in ein für die Weiterverarbeitung brauchbares Format umwandelt.

Persistent Identifier

Ein künstlich zugewiesenes Merkmal zur eindeutigen, dauerhaften Identifizierung eines Subjektes / Objektes wird als persistent Identifier (persistent ID oder PID) bezeichnet.

PHI 5

Die Texte der lateinischen Bibliothek des Packard Humanities Institute (PHI) in der Version 5.3 ist eine CD-Rom mit lateinischen Volltexten und Bibelversionen bis zum zweiten Jahrhundert n. Chr. Mittlerweile sind die Texte Online einzusehen: Classical Latin Texts.

PHI 7

Eines der ältesten Projekte des Packard Humanities Institute (PHI) ist eine umfassende Datenbank aller altgriechischen Inschriften, die als lizenzierte CD-ROM unter dem Titel: PHI CD ROM #7: Griechische Inschriften erschienen sind. Zusammen mit der Cornell University und der Ohio State University stellt es das Korpus online zur Verfügung: Searchable Greek Inscriptions.

PL

Die Patrologia Latina (auch ML für Migne Latinus) ist die Kurzbezeichnung der von Jacques-Paul Migne herausgegebenen Druckreihe zu den lateinischen Schriften der kirchlichen Schriftsteller von den Anfängen bis zur Zeit Innozenz’ III (1161-1216).

PNG

Portable Network Graphics ist ein Grafikformat, welches verlustfrei komprimieren kann. Es wurde als freier Ersatz für Graphics Interchange Format (GIF) entwickelt und unterstützt die Transparenz per Alphakanal.

PoS

Part-of-Speech Tagging ordnet die Wörter eines Textes Wortarten zu.

PURL

Ein Persistent Uniform Resource Locator verweist in Form einer URL nicht direkt auf eine Ressource, sondern auf einen Resolver, der die aktuelle Internet-URL liefert. DOI oder URN existieren alternativ dazu.

R

RE

Mit RE wird Paulys Realencyclopädie der classischen Altertumswissenschaft (auch Pauly-Wissowa genannt) abgekürzt. Die Enzyklopädie zur Antike erschien von 1893 bis 1987 und war als komplette Neubearbeitung des sogenannten „Ur-Pauly“, der von August Friedrich Pauly begründeten Real-Encyclopädie der classischen Alterthumswissenschaft (1837–1864) konzipiert. Die RE besteht aus 68 Halbbänden, 15 Supplementbänden und einem Register der Nachträge und Supplementbände.

Eine kompakte und auch für Privatpersonen erschwingliche Ausgabe erschien zwischen 1964 und 1975 mit den fünf Bänden Der kleine Pauly (KIP).

Der Neue Pauly. Enzyklopädie der Antike (DNP, vereinzelt auch NP) wird vom J. B. Metzler Verlag seit 1996 herausgegeben. Neben der klassischen Antike als Schwerpunkt wurden im neuen Pauly auch Bände zur Rezeptions- und Wissenschaftsgeschichte verlegt.

Resolver

Als Resolver wird in der Informatik allgemein eine Software zur Namensauflösung bezeichnet. Ein Linkresolver löst Metadaten z.B. in Form einer URN in lokale Bestandsdaten auf und liefert den dazu passenden Hyperlink.

RDA

Resource Description and Access bezeichnet einen neuen Standard für die Erschließung von Ressourcen in Bibliotheken, Archiven und Museen als Nachfolger der Anglo-American Cataloguing Rules (AACR2).

RDF

Das Resource Description Framework wurde vom World Wide Web Consortium (W3C) zur Beschreibung von Metadaten entwickelt. Es gilt mittlerweile als wesentlicher Bestandteil des sogenannten semantischen Webs. Aussagen im RDF-Modell werden als Tripel von Subjekt, Prädikat und Objekt gebildet, zumeist in Form von XML oder N3.

S

Signifikanz

In der Statistik wird unter Signifikanz eine Kennzahl verstanden, welche die Wahrscheinlichkeit eines systematischen Zusammenhangs zwischen Variablen bezeichnet.

Similar-Text

Ein Algorithmus, der die Ähnlichkeit zweier Texte auf Zeichenbasis und mit Hilfe der Editierdistanz berechnet: sim = { n_{ab} * 2 } / { n_a + n_b }1).

SQL

Datenbanksprache in relationalen Datenbanken. SQL (Allgemeiner Sprachgebrauch: Structured Query Language) unterscheidet drei Befehlskategorien:

  • Data Manipulation Language (DML) - Befehle zur Datenmanipulation
  • Data Definition Language (DDL) - Befehle zur Definition des Datenbankschemas
  • Data Control Language (DCL) - Befehle für die Rechteverwaltung und Transaktionskontrolle.

Stoppwörter

Eine Liste von Wörtern, die bei der Verarbeitung eines Textes nicht berücksichtigt werden sollen.

SVG

Scalable Vector Graphics basiert auf XML und beschreibt zweidimensionale Vektorgrafiken.

siehe XML

T

TEI

Das von der Text Encoding Initiative entwickelte, gleichnamige Dokumentenformat basiert in der aktuellen Version P5 auf XML und hat sich zum De-facto-Standard zur Kodierung gedruckter Werke in den Geisteswissenschaften entwickelt.

siehe XML

TIFF

Tagged Image File Format ist ein Bilddateiformat, welches insbesondere für hochaufgelöste Bilder in druckfähiger, verlustfreier Qualität benutzt wird.

TLG

Der Thesaurus Linguae Graecae® (TLG®) ist ein 1972 ins Leben gerufenes Forschungsprogramm an der Universität von Kalifornien, Irvine. Es wurden die meisten literarischen Texte in griechischer Sprache von Homer (ab ca. 8. Jh. v. Chr.) bis zum Fall von Byzanz (1453 n. Chr.) gesammelt und digitalisiert. Anfangs wurden die Texte auf CD-ROM vertrieben. Mittlerweile können sie Online rezipiert werden: TLG - Home.

Tokenisierung

In der Computerlinguistik wird damit die Zerlegung in Segmente auf Wortebene bezeichnet.

TSV

Das textbasierte Dateiformat TSV (Tab-Separated Values) ist eine Form von DSV (Delimiter-separated values). Die Daten sind in Tabellenform, also zweidimensional, gespeichert. Jede Zeile ist ein Datensatz. Felder werden mittels Tab-Stop separiert.

siehe CSV

U

URI

Laut RFC 1630 von T. Berners-Lee aus dem Jahr 1994 ist URI ein Akronym für Universal Resource Identifiers, inzwischen wird es als Uniform Resource Identifier verstanden. Ein URI dient zur Identifizierung einer abstrakten oder physischen Ressource und kann aus fünf Teilen bestehen, von denen aber nur scheme und path zwingend vorhanden sein müssen: scheme://[authority]/path?[query]#[fragment] .

URL

Uniform Resource Locator identifizieren eine Ressource anhand der zu verwendenden Zugriffsmethode. Der eAQUA-Internetauftritt wird z.B. über http://www.eaqua.net erreichbar gemacht, eine E-Mail-Adresse mit dem Schema mailto:max.mustermann@example.org erkannt.

URN

Publikationen können im Netz dauerhaft und zuverlässig zitiert werden, indem eindeutige, standortunabhängige Identifikatoren URNs (Uniform Resource Name) anstelle von URLs verwendet werden. URNs sind URIs mit dem Schema urn:namensraum:namensraum-spezifischerTeil, also z.B. urn:nbn:de:101-2012121200 für das Werk “Policy für die Vergabe von URNs im Namensraum urn:nbn:de (Version 1.0, Stand: 29. November 2012)” der Deutschen Nationalbibliothek.

UTF

Unicode Transformation Format. Zeichen werden zum Zwecke der elektronischen Verarbeitung auf eine Folge von Bytes abgebildet. Übliche Kodierungsverfahren sind

  • UTF-8 - Zwischen 1 und 4 Byte. Die Codepoints 0 bis 127, die dem ASCII-Zeichensatz entsprechen, werden mit Hilfe von sieben Bits kodiert. Das achte leitet ein längeres Unicode-Zeichen ein, welches die nachfolgenden 1-3 Bytes belegt. UTF-8 speichert lateinische Zeichen am effizientesten.
  • UTF-16 - Ein oder zwei 16-Bit-Einheiten (2 oder 4 Bytes) werden zur Kodierung eines Zeichens verwendet.
  • UTF-32 - Kodiert immer 32 Bit (4 Byte). Durch die feste Länge am einfachsten zu handhaben, benötigt dafür mehr Speicher.

W

Wortstammreduktion

Auch Stemming, Stammformreduktion oder Normalformenreduktion genannt. Verschiedene morphologische Varianten eines Wortes werden auf ihren gemeinsamen Wortstamm zurückgeführt.

X

XLS

Binäres Dateiformat von Microsoft Excel, welches bis 2007 ausschließlich gebräuchlich war.

XML

Extensible Markup Language ist eine Auszeichnungssprache zur Darstellung strukturierte Daten in Textform. Sie wird vor allem als Austauschformat zwischen verschiedenen Computersystemen genutzt.

Beginn eines TEI-XML Dokuments aus der Perseus Digital Library:

<?xml version="1.0"?>
<!DOCTYPE TEI.2
  PUBLIC "-//TEI P4//DTD Main DTD Driver File//EN" "http://www.tei-c.org/Guidelines/DTD/tei2.dtd" [
<!ENTITY % TEI.XML "INCLUDE">
<!ENTITY % PersProse PUBLIC "-//Perseus P4//DTD Perseus Prose//EN" "http://www.perseus.tufts.edu/DTD/1.0/PersProse.dtd" >
%PersProse;
]>
<TEI.2>
   <teiHeader type="text" status="new">
      <fileDesc>
         <titleStmt>
            <title>De liberis educandis</title>
            <title type="sub">Machine readable text</title>
            <author n="Plut.">Plutarch</author>
            <editor role="editor" n="Teubner">Gregorius N. Bernardakis</editor>&responsibility;&fund.NEH;</titleStmt>

W

W3C

Das World Wide Web Consortium standardisiert die Techniken im World Wide Web. Es wurde 1994 am MIT gegründet.

Wahrscheinlichkeitsverteilung

Die Wahrscheinlichkeitsverteilung ist das theoretische Pendant zur empirisch ermittelbaren Häufigkeitsverteilung. Sie beschreibt, mit welchen Wahrscheinlichkeiten eine Zufallsvariable ihre möglichen Werte annimmt.

Z

Zipf'sches Gesetz

Das Gesetz besagt, wenn man die Typen eines Textes ihrer Häufigkeit f nach ordnet und ihnen dabei jeweils einen Rang r zuweist, dann ergibt das Produkt von f und r jeweils einen konstanten Wert k.

1)
[OLIVER 93].Oliver, Ian. Programming Classics: Implementing the World's Best Algorithms. Prentice Hall PTR New York, 1993.