Forensische Linguistik und Stilometrie

Inhalt dieser Seite:

Forensische Linguistik

Was ist forensische Linguistik
Anwendungsgebiete der Autorschaftsbestimmung
Links

Stilometrie

In der Stilometrie verwendte Merkmale (Satzlänge, Wortschatz, Syntax)
Einsatzgebiete der Stilometrie
Literatur
Links

[Home] [Home Linguistik] [Googlesuche]
[Forensische Linguistik & Stilometrie] [Grammatik] [Korpuslinguistik] [Linksammlungen/Kurse] [Morphologie] [Nachschlagen] [Orthographie] [Phonetik/Phonologie] [Pragmatik] [Schrift] [Semantik] [Spracherwerb] [Sprachgeschichte] [Sprachkritik] [Textlinguistik] [Varietäten] [Zeitschriften]

Forensische Linguistik

Was ist forensische Linguistik?

Die Hauptanwendungsgebiete der forensischen Linguistik sind die Identifikation von Sprechern durch Stimmanalysen (forensische Phonetik) und die Autorzuordnung von juristisch relevanten Texten, seien es Erpresserbriefe, Bekennerschreiben, Geständnisse, Testamente oder Plagiate.

Im weiteren Sinn wird die forensische Linguistik auch allgemein als Schnittstelle zwischen Sprache und Recht betrachtet und umfasst dann auch die Untersuchung des Sprachgebrauchs im Gerichtssaal, der Verständlichkeit von Gesetzestexten und anderen juristisch relevanten Dokumenten und von Übersetzungsproblemen.

Diese Seite konzentriert sich vor allem auf die Autorschaftsbestimmung von Texten und legt besonderes Gewicht auf die quantitativen Methoden, die dazu verwendet werden. Andere Verfahren wie die Analyse von Handschriften, graphischen Merkmalen und des Schreibmaterials werden nicht berücksichtigt.

Weitere Informationen zu anderen Teilgebieten der forensichen Linguistik finden sie mit Hilfe der Links.

nach oben

Anwendungsgebiete der Autorschaftsbestimmung innerhalb der forensischen Linguistik

In englischen Gerichten wurden schon einige Male bei der Verifizierung von Geständnissen stilometrische Methoden angewendet, so zum Beispiel beim Berufungsverfahren der Birmingham six, dass mit einem Freispruch der Angeklagten endete [Campbell 1992: 25; Morgan 1991]. Allerdings wurde dazu bisher meistens eine Methode (Cusum) verwendet, die äusserst stark umstritten ist.
Zudem ist die Frage, ob es tatsächlich einen nicht verleugbaren Individualstil - auch linguistischer Fingerabdruck genannt - gibt, der trotz bewusster Kontrolle von Seiten des Schreibers feststellbar bleibt, immer noch umstritten. Zwar gehen stilometrische Untersuchungen in der Regel von der stillschweigenden Annahme aus, dass neben den vom Autor beeinflussten auch nicht kontrollierbare Stilmerkmale existieren, die eine sichere Zuordnung eines Textes auch dann gewährleisten, wenn der Urheber seinen Stil bewusst zu kaschieren versucht oder einer bestimmten Schreibtradition folgt, aber die Studie von Dixon und Mannion zu Oliver Goldsmith zeigte, dass bei der Auswahl eben dieser Merkmale höchste Vorsicht geboten ist (siehe weiter unten). Hinzu kommt, dass Stilmerkmale, die durch die Textsorte bedingt sind, Merkmale des Individualstils zu überlagern scheinen (Einfluss des Genrestils). Das bedeutet, dass nur Texte der gleichen Textsorte miteinander verglichen werden dürften, und stilometrische Analysen zum Vornherein an Datenmangel scheitern könnten.

Genau dieses Problem tritt bei der Analyse von E-Mails auf . Der Schreibstil von E-Mails ist nur bedingt mit anderen Textquellen vergleichbar und die zur Verfügung stehenden Texte sind eher kurz. Als weitere Schwierigkeit kommt hinzu, dass der Kreis möglicher Autoren oft extrem gross ist [DE VEL et al. 2001a und DE VEL et al. 2001b].

Ein Softwareforensik beschäftigt sich mit der Analyse von Quell- und Binärcode mit dem Ziel, Autoren von Computerprogrammen zu bestimmen, von anderen zu unterscheiden und hinsichtlich ihrer Programmiergewohnheiten, ihrer Ausbildung und ihres Wissenstandes zu charakterisieren [GRAY et al. 1997:2]. Zudem versucht sie festzustellen, ob bösartiger Code absichtlich oder zufällig zustande kam [GRAY et al. 1997:3] und untersucht Fälle von Plagiarismus [GRAY et al. 1997:5]. Dieses Unterfangen mag zuerst abwegig erscheinen, da Programmiersprachen sehr viel stärker fomalisiert sind als natürliche Sprachen, dennoch hat ein Programmierer zahlreiche Möglichkeiten, seinen persönlichen Vorlieben zu folgen. Dieselbe Funktionalität kann in unterschiedlichen Programmiersprachen, und mit verschiedensten Algorithmen, Kontroll- und Datenstrukturen erreicht werden. Weitere Unterschiede zeigen sich zum Beispiel im Layout, bei der Benennung von Variabeln und Funktionen, in der Ausführlichkeit und Art der Kommentare und bei eventuell vorhandenen Fehlern [GRAY et al. 1997:5f.]. Eine ausführliche Liste möglicher Merkmale findet man bei Krusl und Spafford [KRUSL/ SPAFFORD 1996: 5-8].

nach oben

Literatur

Campbell D. (1992). Writings on the wall. The Guardian, Wed. October 7 1992. S. 25.

Gray Andrew; Sallis Philip; MacDonell Stephen (1997). Software Forensics: Extending Authorship Analysis Techniques to Computer Programs. Online unter: http://divcom.otago.ac.nz:800/COM/INFOSCI/SMRL/pub/papers/gray97d.pdf/gray97software.pdf (Stand vom 11.10.03)

Krsul Ivan, Spafford Eugene H (1996). Authorship Analysis: Identifying The Author of a Program. Online unter: ftp://ftp.cerias.purdue.edu/pub/papers/ivan-krsul/krsul-spaf-authorship-analysis.ps (Stand vom 16.10.03)

Morgan, B. Authorship test used to detect faked evidence (1991). Times Higher Educational Supplement, 9th August.

De Vel, O.; Anderson, A. ; Corney, M. et al (2001a). Mining E-mail Content for Author Identification Forensics. Online unter: http://www.acm.org/sigmod/record/issues/0112/SPECIAL/6.pdf (Stand vom 16.10.039.

De Vel, O.; Andersond, A. ; Corney, M. et al (2001b). Multi-Topic-E-Mail Authorship Attribution Forensics.. Online unter: http://sky.fit.qut.edu.au/~corneym/papers/ACM_WDMSA_01_topic.pdf (Stand vom 16.10.03)

nach oben

Links

Links zur forensischen Linguistik allgemein

International Association of Forensic Linguistics.
http://www.iafl.org/
Websters Forensic Linguistics Hompage.
http://web.bham.ac.uk/forensic/
Bibliographie zur forensischen Linguistik (Englisch)
http://www.bham.ac.uk/IAFL/bib/biblio.html

Forensische Phonetik

Mehr Informationen zur forensischen Phonetik auf Englisch findet man auf der Seite von Helen Fraser.
http://www-personal.une.edu.au/~hfraser/forensic.htm
Im Artikel Linguistic identification in the determination of nationality äussern sich Eades, Faser, Siegel et al. kritisch zum Versuch, die Nationalität von Flüchtlingen mit Hilfe ihrer Aussprache zu verifizieren.
http://www-personal.une.edu.au/~hfraser/forensic/LingID.pdf
Ebenfalls diesem Thema gewidmet sind die Artikel aus legalaffairs (http://www.legalaffairs.org/...) und the Guardian (http://www.guardian.co.uk/uk_news/...)

Sprache und Recht

Discussionlist for Language and the Law. Archiv.
http://www.jiscmail.ac.uk/lists/forensic-linguistics.html

Plagiate

Was sind Plagiate und wie findet man sie?

Markus Knill verdeutlicht den Begriff Plagiat mit Hilfe von Beispielen. Zudem gibt er Tipps zum Erkennen von Plagiaten und zeigt mögliche Gegenmassnahmen auf.
http://www.rhetorik.ch/Plagiat/Plagiat.html
Aufdeckung von Plagiaten: Suche für Lehrkräfte im Internet von Dr. Debora Weber-Wulff. Der Text geht von den Erfahrungen von Frau Weber Wullf aus und beschäftigt sich vor allem mit den verschiedenen Möglichkeiten zur Identifikation von Plagiaten.
http://www.f4.fhtw-berlin.de/~weberwu/papers/plagiat.shtml
"Plagiate aufdecken" von Teachsam geht auf Suchmöglichkeiten und Massnahmen gegen Plagiateure ein. In der FAQ (unter X-Links zusammengestellt) werden vor allem Schüler interessierende Aspekte beleuchtet.
http://www.teachsam.de/arb/internet/WWW/arb_www_2_5.htm
Der Artikel "Originalität und Plagiat" beleuchtet vor allem die Effizenz von Plagiatserkennungsdiensten (Stand von 1999).
http://www.heise.de/tp/deutsch/inhalt/co/5067/1.html
Plagiarism. Archiv einer Diskussionsliste zu Plagiaten. Englisch.
http://www.jiscmail.ac.uk/lists/PLAGIARISM.html
Online Bibliogrphie zum Thema Plagiarismus
http://www.web-miner.com/plagiarism

Unterrichts- und Informationsmaterial zu Plagiaten

Klaus Meyer-Stoll stellt auf der Seite von Dr. Weber-Wulff eine Unterrichtseinheit zum Thema Plagiate aus dem Fach Politik zur Verfügung. Format: Word.
http://www.f4.fhtw-berlin.de/~weberwu/papers/Lerneinheit-Plagiat.doc
Workshop on Plagiarism. Sammlung von Informationsmaterial zum Thema Plagiarismus, unter anderem auch ein Handout für Studenten, dass über Plagiarismus und seine Konsequenzen informiert. Alle Dokumente auf Englisch.
http://bcs.bedfordstmartins.com/plagiarism/

Richtig zitieren und paraphrasieren

Werner Stangel geht hauptsächlich darauf ein, warum und wie man zitiert. Zusätzlich vergleicht er Zitat, Paraphrase und Plagiat miteinander.
http://www.hyperkommunikation.ch/sachen/zitieren.htm
Auf dieser Seite findet man sowohl Beispiele für akzeptable als auch unakzeptable Paraphrasen, als auch ein paar einfache Ratschläge, wie man ungewollte Plagiate vermeiden kann. Auf Englisch.
http://www.indiana.edu/~wts/wts/plagiarism.html
"Zitation vom Internetquellen" von Jens Bleuel. Die hier versammelten Vorschläge gehen über das Zitieren von Webseiten hinaus. Berücksichtigt werden auch andere Internetdienste wie etwa E-mail oder Ftp.
http://www.bleuel.com/ip-zit.pdf
Die Vorschläge zum "Zitieren von Onlinequellen" wird bereitgestellt vom Wissenschaftserver der Universität des Saarlandes.
http://sova.sulb.uni-saarland.de/doku/zitieren.php

nach oben

Anmerkungen

Cusum-Methode (Cumulative Sumcharts)

In einem Diagramm wird die Veränderung eines bestimmten Werts, der nicht der Kontrolle des Autors unterliegt, wie zum Beispiel die Anzahl Wörter, die mit einem Vokal beginnen oder zwei bis drei Buchstaben haben, bezüglich seines Durchschnitts in einem Diagramm dargestellt. Für die stilometrische Analyse wird der gewählte Wert mit dem Verhalten der Satzlänge verglichen. Pro Satz wird die Abweichung von der durchschnittlichen Satzlänge ermittelt. Für den Vergleich müssen die beiden Graphen so skaliert werden, dass sie eine ähnliche Grösse haben. Wenn die beiden Graphen dieselbe Form haben, wird davon ausgegangen, dass der Text nur von einem Autor stammt, weichen die beiden Graphen stark voneinander ab, gilt das als Zeichen für einen Autorwechsel.
Hilton und Holmes haben diese Methode evaluiert, kamen aber zu keinen verlässlichen Ergebnissen. [HILTON/HOLMES 1993:73-75]. Problematisch an dieser Methode ist neben der eher dürftigen Motivierung der verwendeten Mekmale, dass nicht klar definiert ist, was eine starke Abweichung ausmacht und zwei Cusum-Diagramme nicht statistisch miteinander verglichen werden können. Aus diesem Grund gewichteten Hilton und Holmes die untersuchten Werte mit der Satzlänge und ermittelten eventuelle Schwankungen mit Hilfe des Quasi-t-Tests [75-77]. Die angepasste Methode lieferte zwar bessere Resultate als das Original, aber sie kamen trotzdem zum Schluss, dass sie auch mit dieser statistischen Fundierung nicht verlässlich und die Schreibgewohnheiten von Autoren nicht so streng konsistent seien, wie es für das korrekte Funktionieren der Cusum-Methode erforderlich wäre [78-80]. (zurück)

Stilometrie (engl. Stylometry)

Wörtlichgenommen bedeutet Stilometrie so viel wie "Messung von Stil". Sie untersucht aber nicht Stil als Selbstzweck, sondern will aufgrund bestimmter Stilmerkmale Aussagen zur Urheberschaft eines Werks zu machen, um zum Beispiel einen Text einem bestimmten Autor zuzuordnen, Ergänzungen anderer Autoren aufzuspüren oder Texte in eine chronologische Reihenfolge zu bringen [OAKES 1998: 199f.].
Was der Text bedeutet, wie diese Bedeutung strukturiert ist oder ob das Geschriebene den Tatsachen entspricht oder nicht, ist dabei nicht relevant. Entscheidend ist hingegegen, diejenigen Merkmale zu finden, die einen bestimmten Text oder einen Textausschnitt von einem anderen eindeutig unterscheiden [MORTON: 1978: 7].
Weil die Stilometrie, da sie ihre Daten vorzugsweise statistisch und wenn immer möglich mit dem Computer auswertet, nur mit Stilmerkmalen arbeiten kann, die numerisch ausgedrückt werden können, kommen einige sprachliche Erscheinungen zur Auswertung nicht in Frage, obwohl sie durchaus Bestandteile eines linguistischen oder literaturwissenschaftlichen Stilbegriffs sind. Das gilt zum Beispiel für Sprachfiguren wie Symbole und Metaphern, die nicht eindeutig definiert und (noch) nicht automatisch ermittelbar sind.
Laut Oakes kann jede beliebig geartete sprachliche Erscheinung für die stilometrische Analyse verwendet werden. Einzige Bedingung ist, dass sie numerisch ausgedrückt werden kann [Oakes 1998: 202f.]. Die ausgewählten Merkmale sollten allerdings auch für andere Textgruppen relevant sein [MCENNERY, OAKES 2000:248].
Als weiteres Kriterium gilt, dass die als Vergleichsbasis gewählten Merkmale nicht der Kontrolle des Autors unterliegen sollten, was die erwähnten Sprachfiguren wiederum ausschliesst. Vermutlich aus demselben Grund werden in der Stilometrie zusätzlich zu den eher linguistischen auch anderere Kriterien, wie zum Beispiel Buchstabenbigramme, verwendet, die schwer mit einem alltäglichen Verständnis von Stil vereinbar sind, aber dafür auch kaum direkt vom Autor kontrolliert werden können.

Die Existenz solcher nicht manipulierbarer Stilmerkmale ist für die Stilometrie zentral. Ohne sie würde jede Basis für einen erkenntnisfördernden Vergleich fehlen. Ob die Annahme der Existenz solcher Merkmale berechtigt ist, will ich an dieser Stelle nicht abschliessend entscheiden, aber auf zwei Studien hinweisen, die belegen, das zumindest Vorsicht geboten ist.

Dixon und Mannion unternahmen eine Studie zu Oliver Goldsmith, einem sehr flexiblen Schriftsteller, der zum Beispiel seinen Stil in der indirekten Rede dem jeweiligen Sprecher anpasste [DIXON/MANNION 1993:3]. Um die für Goldsmith charakteristischen Stilmerkmale zu bestimmen, verglichen sie seine Essays mit denjenigen von vier zeitgenössischen Essayisten und eliminierten dabei alle Tests, welche die verschiedenen Texte nicht genügend voneinander unterschieden. Bei der Auswertung der Untersuchungsresultate stellte sich jedoch heraus, dass trotzdem zwei der Vergleichsautoren, beide in London lebende anglo-irische Exilianten wie Goldsmith, immer sehr nahe bei den Goldsmithclustern auftauchten.

Vorsicht geboten ist auch, wenn aus Materialmangel Texte anderer Genres zum Vergleich herangezogen werden müssen. Ein englisch-niederländisches Forscherteam untersuchte an den Texten des Nijmegen-Korpus die Unterschiede sowohl zwischen verschiedenen Autoren innerhalb des gleichen Genres, als auch zwischen Texten eines Autors, die aus verschiedenen Genres stammten. Die Untersuchungen ergaben, dass sich Texte aus dem selben Genre stärker ähnelten als solche desselben Autors. Innerhalb eines Genres hingegen liessen sich die Autoren voneinander unterscheiden [BAAYEN et. al.1996].

nach oben

In der Stilometrie verwendete Merkmale

In frühen stilometrischen Untersuchungen, ab der Mitte des 19. Jahrhunderts, wurden als Merkmale vor allem die Längen von Wörtern und Sätzen, die Wortstellung, Hapax legomena, aber auch Rhytmuseigenschaften herangezogen [OAKES 1998: 202f.].

Satzlänge

Die Satzlänge wird auch noch in modernen Studien verwendet, allerdings in der Regel nur als ein Merkmal unter vielen. Smith kam zum Schluss, dass die Satzlänge zwar nicht als alleinstehendes Unterscheidungsmerkmal eingesetzt werden könne, aber die Ergebnisse anderer Methoden in der Regel bestätige [SMITH 1983: 77]. Die grössten Nachteile der Satzlänge bestehen in der Kontrollier- und Imitierbarkeit durch den Autor und in der Abhängigkeit von der Interpunktion, was sie als Merkmal gerade für ältere Texte ungeeignet macht, da man ansonsten Gefahr läuft, bis zu einem gewissen Grad statt der Satzlängenvorlieben des Autors diejenigen eines Herausgebers zu untersuchen [HOLMES 1994: 89].

Wortschatz

Bei den auf lexikalischen Einheiten basierenden Ansätzen kann man grob zwei Richtungen unterscheiden. Einerseits diejenigen, welche mit den Häufigkeiten einzelner Wörter arbeiten und andererseits jene, welche Umfang und Differenziertheit des Wortschatzes untersuchen und messen [STAMATATOS et al. 2001: 195].

All diesen Versuchen liegen die Annahmen zu Grunde, dass sich Autoren erstens durch ihren Wortschatz voneinander unterscheiden und dass sie zweitens über ihren Wortgebrauch nur beschränkt Kontrolle ausüben können. Wenn dies stimmt, so sollte der Wortgebrauch aus Gewohnheit und automatisch erfolgen, demzufolge konsistent sein und somit zur Textzuordnung verwendet werden können [HOOVER 2003: 151f.]. Weil Leser die Differenziertheit des Wortschatzes nicht den Tatsachen entsprechend wahrnehmen und als schwierig empfundene Texte ihnen oft als wortschatzreich erscheinen [S. 152f.], wären verlässliche und objektiv nachprüfbare Masse sehr wünschenswert.

Zur Messung der Wortschatzdifferenziertheit wurden verschiedene Masse entwickelt. Das wichtigste Problem dabei ist die Abhängigkeit des Wortschatzes von der Textlänge. Für alle der im folgenden erwähnten Wortschatzmasse wurden aber zumindet Zweifel angemeldet, dass sie diese Bedingung erfüllen.

Das Type-Token-Verhältnis reflektiert die Häufigkeitsverteilung der verwendeten Wörter. Dabei werden je nach Art der Studie und dem Aufbereitungsgrad der verwendeten Daten alle syntaktischen Ausprägungen eines Lexems als Tokens eines Types gewertet oder nur Wörter mit identischer Schreibweise. [HOLMES 1994: 97]. Sein grosser Nachteil ist die Abhängigkeit von der Länge des zu analysierenden Textes. Die Anzahl der Tokens ist dank der Wiederverwendbarkeit menschlicher Sprachzeichen theoretisch unbegrenzt, die Zahl verschiedener Types hingegen ist endlich und nimmt mit zunehmender Textmenge langsamer zu [TWEEDIE/BAAYEN 1998: 325]. Daher ist das Type-Token-Verhältnis nur für Vergleiche von Texten mit identischer oder zumindest ähnlicher Länge geeignet [HOLMES 1994: 92]. Dasselbe gilt für die durchschnittliche Worthäufigkeit [TWEEDIE/BAAYEN 1998: 326], das heisst den Kehrwert des Type-Token-Verhältnisses, das als Mass für die Benutzung bisher nicht verwendeter Wörter interpretiert wird und bisher nur auf Werke von Marlowe und Shakespeare angewendet wurde [Holmes1994: 92].
Es wurden verschiedene Versuche unternommen, das Type-Token-Verhältnis mit Hilfe einfacher mathematischer Transformationen zu normalisieren. Trotzdem sind alle diese Funktionen nicht vollständig unabhängig von der Textlänge [TWEEDIE/BAAYEN 1998: 331-333].

Der grösste Teil aller in einem Text auftretenden Lexeme erscheinen nur einmal. Diese Wörter nennt man hapax legomena. Einige davon kommen im betrachteten Text aufgrund ihrer normalen Verteilung vor. Das sie einmal auftreten, ist aufgrund ihrer Häufigkeit innerhalb der entsprechenden Sprache zu erwarten. Andere hingegen, meistens Fachbegriffe oder altmodische Wörter, sind wirklich selten und im betrachteten Text gewissermassen übervertreten und damit für ihn charakteristisch. Viele qualitative Literaturstudien haben sich auf die hapax legomena konzentriert, weil sie den Hintergrund und die Interessen eines Autors reflektieren sollen. Für die direkte statistische Analyse, zum Beispiel mit dem χ2-Test, eignen sie sich einzelne hapax legomena allerdings nicht, da die betrachteten Merkmale dazu mindestens fünf mal vorkommen müssen [OAKES 1998: 201f.].
Honorés Mass der Wortschatzdifferenziertheit stützt sich auf die Anzahl der hapax legomena. Je mehr von ihnen auftreten, als desto differenzierter gilt der Wortschatz des Autors. Indirekt misst Honoré damit die Neigung eines Autors, statt eines bereits verwendeten ein neues Wort zu benutzen [HOLMES 1994: 97]. Dabei geht er von der Annahme aus, dass das Verhältnis der hapax legomena zum Umfang des Wortschatzes bezüglich des Logarithmus der Textgrösse konstant ist [TWEEDIE/BAAYEN 1998: 328f.]. Tatsächlich nimmt es mit zunehmender Textlänge aber monoton ab [S. 332].

Sichel untersuchte die Anzahl der hapax dislegomena, der zweimal verwendeten Wörter in einem Text, und stellte fest, dass das Verhältnis zur Gesamtzahl der Wörter für Texte zwischen 1000 und 400'000 Wörtern nahezu konstant blieb. Er erklärte dies mit der Vermutung, dass die Anzahl neuer hapax legomena die Zahl der Wörter aufwiege, die durch erneutes Auftreten aus der hapax dislegomena Kategorie verschwänden [HOLMES 1994: 98]. Tweedie und Baayen haben aber gezeigt, dass das Verhältnis in einer Textprobe von 26’500 unter Annahme des Urnenmodells zuerst zu einem Maximum ansteigt und mit zunehmender Textlänge wieder abnimmt [TWEEDIE/BAAYEN 1998: 332f.]. Zudem war für dieses Mass die Variabilität zwischen verschiedenen Autoren ebenso gross wie jene innerhalb von Texten eines Autors. Es ist deshalb zur Unterscheidung verschiedener Autoren nicht geeignet [S. 335].

Während die Masse von Sichel und Honoré den Wortschatz am unteren Rand der Häufigkeitsverteilung untersuchen, arbeitet eine weitere Reihe von Massen mit den häufig wiederholten Wörtern. Simpsons Mass basiert auf der Wahrscheinlichkeit, dass zwei zufällig gewählte Wörter zum selben Type gehören. Das Mass reagiert vor allem auf hochfrequente Wörter; die hapax legomena fallen, obwohl sie einen sehr grossen Teil des Wortschatzes ausmachen, kaum ins Gewicht [HOLMES 1994: 92]. Das Hinzufügen einiger der seltener im Text vorkommenden Wörtern, wobei einige hapax legomena zu dislegomena werden, führt sogar dazu, dass der Text bezüglich des Wortschatzes als reichhaltiger eingestuft wird, was allerdings der Intuition zuwiderläuft [HOOVER 2003: 153f.].

Dieselbe Wahrscheinlichkeit wie bei Simpson liegt auch Yules K-Charakteristik zu Grunde [OAKES 1998: 204]. Je mehr Wörter wiederholt werden, desto höher ist der Wert für K. Der Wert ist von der Textlänge unabhängig, sofern man davon ausgeht, dass die Wörter eines Textes unabhängig voneinander vorkommen, also einer Poisson-Verteilung folgen [HOLMES 1994: 92]. Tweedie und Baayen untersuchten den Einfluss der Diskursstruktur eines Textes auf die Verteilung von Wörtern und kamen zum Schluss, dass sie für eine verlässliche Analyse einbezogen werden muss, da auch die wenigen zumindest theoretisch konstanten Masse Abhängigkeiten von der Textlänge aufwiesen [TWEEDIE/BAAYEN 1998: 349].

Die Entropie ist ein Mass für die Strukturiertheit eines Textes. Sie nimmt mit zunehmender Zufälligkeit und Ungeordnetheit zu. Vermehrte innere Strukturierung führt zu einer Abnahme der Entropie [HOLMES 1994: 93]. Auch dieses Mass wurde normalisiert um den Einfluss der Textlänge auszuschliessen. Wie Tweedie und Baayen gezeigt haben, ist es jedoch bezüglich der Textlänge nicht konstant [TWEEDIE/BAAYEN 1998: 331-333]. Zudem erscheint einigen Autoren die Interpretation der Entropie für den stilistischen Vergleich problematisch [HOLMES 1994: 93]. Hoover führt in diesem Zusammenhang die Untersuchungen Thoirons an, der einem Text Teile dieses Textes hinzufügte, beziehungsweise den Text sogar verdoppelte. Die beiden Experimente hatten nicht die erwarteten Auswirkungen auf die Entropie, die in etwa konstant blieb, obwohl eigentlich durch die zunehmenden Wiederholungen eine Abnahme zu erwarten gewesen wäre. Hoover gibt allerdings zu bedenken, dass diese Textverdoppelung den Stil in unnatürlicher Weise beeinflusst und einen tiefen Eingriff in die Textstruktur darstellt. Dies sieht man daran, dass sich Sichels Mass, das auf der Anzahl der hapax legomena basiert, erwartungsgemäss grundlegend ändert, während die Werte für die Entropie, die Wiederholungsrate des häufigsten Wortes, Yules Charakteristik und andere Masse völlig oder beinahe identisch bleiben [HOOVER 2003: 155-157]. Dies könnte ein Indiz dafür sein, dass die Entropie Redundanz in einem Text nicht oder nur ungenügend berücksichtigt.

Schlussfolgerung zu den Wortschatzmassen
Von den vorgestellten Wortschatzmassen ist keines tatsächlich unabhängig von der Textlänge, womit ein wichtiges Ziel nicht erreicht wurde. Hoover kommt zum Schluss dass „a disputed text displaying very different vocabulary richness cannot be reliably assumed to belong to a different author.“ [HOOVER 2003: 168]. Texte eines Autors oder sogar Abschnitte eines einzigen Textes unterscheiden sich untereinander im Wortschatz, und damit auch in seiner Differenziertheit, beinahe ebenso stark wie von Texten anderer Autoren [S. 169]. Obwohl Wortschatzmasse teilweise richtige Resultate liefern, sind sie nicht konsistent und verlässlich und sollten Hoovers Meinung nach höchstens für Vorabklärungen verwendet werden [S. 173].

Für die Verwendung der Häufigkeiten von Wörtern spricht allein schon die schiere Masse an zur Verfügung stehenden Variabeln. Da verschiedene Studien gezeigt haben, dass ein stilistisches Merkmal zur Unterscheidung von Autoren nicht ausreicht, beziehungsweise für ein bestimmtes Autorpaar eventuell überhaupt nicht diskriminiert, verspricht laut Mosteller und Wallace eine grosse Menge verschiedener Variabeln die beste Aussicht auf Erfolg. In einer Vorstudie zu den Federalist papers ermittelten sie alle identischen Buchstabensequenzen ohne Berücksichtigung ihrer Wortart, Bedeutung oder Schreibweise [MOSTELLER/WALLACE 1984: 16], konzentrierten sich aber schon bald auf die sogenannten Funktionswörter. Sie zählten dazu Präpositionen, Konjunktionen, Pronomen, einige Adverben und Adjektive sowie Hilfsverben. Der Vorzug der Funktionswörter ist, dass sie relativ unabhängig vom Inhalt sind [S. 17]. Potentielle Kontextabhängigkeiten sahen sie bei Pronomen und Hilfsverben und schlossen diese zum grössten Teil von ihren Betrachtungen aus [S. 22].

Die Funktionswörter können als Oberflächensignale für die Syntax angesehen werden [BAAYEN et. al. 121]. Konjunktionen zum Beispiel leiten je nach Sprache verschiedene Satzstrukturen ein. Im Deutschen markieren die unterordnenden Konjunktionen (z.B. dass, weil, wenn) Sätze mit finiter Verbstellung (Nebensätze), die nebenordnenden hingegen (z.B. aber, und, denn) reihen Hauptsätze aneinander. Oft existieren in beiden Klassen semantisch ähnliche Konjunktionen. So besteht zum Ausdruck der kausalen Beziehung die unterordnende Konjunktion weil ebenso wie die nebenordnende Konjunktion denn. Basierend auf diesem Wissen lassen sich viele Teilsätze ohne syntaktische Analyse in Haupt- oder Nebensätze einteilen, was Rückschlüsse darauf erlaubt, ob der betreffende Autor eher einen parataktischen oder hypotaktischen Stil pflegt.

Syntax

Direkt auf die Syntax selbst zuzugreifen, ist relativ aufwendig. Relativ gute Resultate von Studien mit Funktionswörtern lieferten aber Hinweise auf den möglichen Nutzen der Verwendung von syntaktischen Regeln als stilistische Merkmale. Da sie grammatische Strukturen genauer beschreiben als auf Funktionswörtern basierende Annahmen, sollten sie mindestens ebenso gut diskriminieren wie diese [siehe OAKES 1998: 227-29].

Baayen, van Halteren und Tweedie [BAAYEN et al. 1996] untersuchten, ob Texte besser durch syntaktische Strukturen oder durch lexikalische Stilmerkmale unterschieden wurden. Um Textsortenunterschiede und Abhänigkeiten von der Textlänge auszuschliessen verwendeten sie zwei etwa gleichgrosse Ausschnitte aus englischsprachigen Kriminalromanen zweier Autoren, die sie für die Untersuchung in je 10 gleichmässige Abschnitte unterteilten. Zwei Drittel der Texte dienten als Trainingskorpus, die restlichen 6 als Testgrundlage. Sie wendeten fünf verschiedene Maase der Wortschatzdifferenziertheit zuerst auf den gesamten Wortschatz und anschliessend auf die aus dem annotierten Korpus extrahierten Grammatikregeln an, die wie Wörter behandelt wurden. Der Versuch mit den Grammatikregeln zeigte deutlich bessere Resultate. Auch die fünfzig wichtigsten Funktionswörter wirkten als gute Unterscheidungsmerkmale, besonders dann, wenn auch unterschiedliche syntaktische Funktionen eines Funktionswortes berücksichtigt wurden [BAAYEN et al. 1996:124-126].

Stamatatos et al. verwendeten einen Chunker zur Analyse von griechischen Zeitungsartikeln [STAMATATOS et al. 2001: 202-205 und 197f]. Als Stilmerkmale verwendeten sie unter anderem die Anzahl und durchschnittliche Länge einer Chunksorte und die Vollständigkeit der Analyse, also zum Beispiel die Anzahl unbekannter, das heisst seltener, Wörter und die Menge möglicher ambiger Analysen [S. 199-201].

Stamatos et al. verglichen ihre Ergebnisse ebenfalls mit einer Analyse der 50 häufigsten Funktionswörter. Die durch den Chunker gewonnenen Merkmale lieferten die besseren Resultate [STAMATATOS et al. 1996: 207f.].
Fehlzuordnungen traten vor allem bei kurzen Texten unter 1000 Wörtern auf. Kleinere Textmengen erscheinen den Autoren aus diesem Grund für die Stylanalyse ungeeignet. [S. 208].

nach oben

Einsatzgebiete der Stilometrie

Stilometrische Methoden kommen in verschiedensten Disziplinen zum Einsatz. In der Literaturwissenschaft, der Herkunftsdisziplin der Stilometrie, dienen sie vor allem zur Bestimmung der Autorschaft von umstrittenen oder anonymen Texten. Die Werke Shakespeares gehören zu den beliebtesten Untersuchungsgegenständen. Daneben werden stilometrische Methoden auch verwendet, um die Homogenität eines Textes zu überprüfen oder Texte anhand veränderter Stilmerkmale chronologisch zu ordnen [MCENNERY, OAKES 2000: 548 und HOLMES 1994:99-101]. Allerdings sind oft nicht genügend fundierte Modelle zur Beschreibung der Stilveränderung vorhanden, um die chronologische Einordung überzeugend zu begründen [HOLMES 1994: 100]. Darüber hinaus steht ein solches Unterfangen auch in einem gewissen Widerspruch zur den Autorschaftsbestimmungen implizit zu Grunde liegenden Auffassung, dass Stilmerkmale unveränderlich seien [MCENNERY, OAKES 2000: 550].
Die Rolle stilometrischer Methoden bei der Autorschaftsbestimmung zu forensischen Zwecken wurde bereits weiter oben genauer erläutert.

Der Autorschaftsbestimmung nahe verwandt ist die Textklassifikation, welche dieselben oder zumindest ähnliche Methoden verwendet und versucht, Texte bestimmten Genres oder Textsorten zuzuorden.

Vereinzelt werden stilometrische Methoden auch angewendet, um spezielle Sprachformen zu untersuchen. Burrows untersuchte englischsprachige Erzählungen auf nationale Unterschiede [BURROWS 1996] und Holmes und Singh untersuchten die Einsatzmöglichkeiten von stilometrischen Methoden als Diagnoseinstrument für die Konversationsfähigkeiten von Patienten mit Brocaaphasie [HOLMES/SINGH 1996].

nach oben

Literatur

Baayen, Harald; Halteren, Hans van; Tweedie, Fiona (1996). Outside the cave of Shadows: Using Syntactic Annotation to Enhance Authorship Attribution. In: Literary and Linguistic Computing, Vol. 11, Nr. 3. S. 121-130.

Burrows, John F (1992). Computers and the Study of Literature. In: Butler, Christopher S. (Hrsg.) Computers and Written Texts. Oxford. S. 167-204.

Burrows, John F (1996). Tiptoeing into the Infinite: Testing for Evidence of National Differences in the Language of English Narrative. In: Research in Humanities Computing 4, Oxford.

Dixon, Peter; Mannion, David (1993). Goldsmith’s Periodical Essays: A Statistical Analysis of Eleven Doubtful Cases. In: Literary and Linguistic Computing, Vol. 8, Nr. 1. S. 1-19.

Hilton, Michael L.; Holmes David I (1993). An Assessment of Cumulative Sum Charts for Authorship Attribution. Literary and Linguistic Computing. Vol. 8. No 2.

Holmes, David I. (1994). Authorship Attribution. Computers and the Humanities, Nr. 28. S. 87 106.

Holmes, David I, Forsyth Richard S. (1995).The Federalist Revisited: New Directions in Authorship Attribution. Literary and Linguistic Computing, Vol. 10, Nr. 2. S. 111-127.

Holmes, David I; Singh Sameer (1996). A stylometric Analysis of Conversational Speech of Aphasic Patients. Literary and Linguistic Computing, Vol. 11, Nr. 3. S 133-140.

Hoover David L. (2003) Another Perspective on Vocabulary Richness. Computers and the Humanities, Nr. 37. S. 151-178.

McEnery, Tony; Oakes Michael (2000). Authorship Identification and Computational Stylometry. In: Dale, Robert; Moisl, Hermann; Somers, Harold (Hrsg.). Handbook of Natural Language Processing. New York. S. 545-562.

Morton, Andrew Queen (1978). Literary Detection. How to prove Authorship and fraud in literature and documents. New York.

Mosteller, Frederick; Wallace, David L (1984). Applied Bayesian and Classical Inference. The Case of The Federalist Papers. New York.

Oakes Michael P. (1998). Statistics for Corpus Linguistics. Edinburgh.

Smith, M.W.A. Recent Experience and New Developments of Methods for the Determination of Authorship. Association for Literary and Linguistic Computing Bulletin, 11, 1983, S. 73-82.

Stamatatos, E.; Fakotakis, N; Kokkinakis, G. (2001). Computer-Based Authorship Attribution Without Lexical Measures. Computers and the Humanities, Nr. 35. S. 193-214.

Tweedie, Fiona J.; Baayen R. Harald (1998). How Variable May a Constant be? Measures of Lexical Richness in Perspective. Computers and the Humanities, Nr. 32. S. 323-352.

Yule Udny G (1944). The Statistical Study of Literary Vocabulary. Cambridge.

nach oben

Links

Bookish Maths. Artikel zu stilometrischen Methoden aus Science News. (Dez 03). Enthält weiterführende Literaturangaben und Links.
http://www.sciencenews.org/20031220/bob8.asp

Veröffentlichungshinweis
Die Texte auf dieser Seite basieren auf einer von mir im Oktober 2003 bei G. Schneider in Zürich verfassten Seminararbeit zur Stilometrie (Fach Computerlinguistik). Für die Veröffentlichung im Web habe ich die Arbeit überarbeitet, gekürzt und an einigen Stellen ergänzt (hauptsächlich, aber nicht ausschliesslich die Links).

Die Site wird in unregelmässigen Abständen erweitert. Anmerkungen, Lob Kritik und insbesondere Hinweise auf Fehler (auf meiner eigenen Site) oder defekte Links bitte an kontaktBEIcornelia.siteware.ch. (BEI bitte durch @ ersetzen).
Für die Inhalte verlinkter Sites kann ich keine Verantwortung übernehmen.

[Home] [Home Linguistik] [Googlesuche]
[Forensische Linguistik/ Stilometrie] [Grammatik] [Korpuslinguistik] [Linksammlungen/Kurse] [Morphologie] [Nachschlagen] [Orthographie] [Phonetik/Phonologie] [Pragmatik] [Schrift] [Semantik] [Spracherwerb] [Sprachgeschichte] [Sprachkritik] [Textlinguistik] [Varietäten] [Zeitschriften]

Erstellt am 25.12.03 von Cornelia Steinmann. Letzte Bearbeitung am 06.03.04
.
Webhosting durch Siteware Systems GmbH.