Die Textkategorisierung mittels rein semantischer Informationen, z.B. die Kontextuierung mit Schlagwörtern o.Ä., mangelt an einer sprachlichen Informationsquelle, nämlich dem syntaktischen Textfluss. Zwar können viele Informationen über das verbreitete "bag-of-words"-Modell entnommen werden, doch dieses ist für die Betrachtung realisierter Sprachformen i.d.R. wohl nicht adäquat. Das Menzerathsche Gesetz spricht für diese Annahme, da die syntaktische Komplexität und die damit verbundene Anstrengung je nach Textintension verschieden lange Konstituenten bilden kann. Verschiedene pragmatische Absichten und konventionelle Stile in der Texterschaffung legen nahe, dass sich syntaktische Unterschiede in verschiedenen Textkategorien finden lassen könnten. Ein Gesetzestext wird beispielsweise erwartungsgemäß eine höhere syntaktische Komplexität aufweisen als ein Großteil gesprochener Reden.
In Anlehnung an die Musiktheorie wurden für Texte sequenzielle Einheiten mit quantitativer Ausprägung, die sog. Motive, gebildet. Zu unterscheiden sind L-, F- und T-Motive, welche für Längen-, Frequenz- und thematische Informationen stehen. Ein Motiv ist definiert als eine Sequenz von monoton steigenden Zahlen, welche gewisse Eigenschaftswerte repräsentieren. Für ein Längenmotiv können beispielsweise Wort oder Silbenlängen dienen, für die Frequenzmotive Worthäufigkeit pro Text oder Korpus und für T-Motive Werte wie die Polysemie eines Wortes. Innerhalb einer Motiveinteilung eines Satzes oder Abschnittes können daher auf- oder absteigende Gruppen gebildet werden. Wenn, zur Veranschaulichung, ein Text in L-Motive eingeteilt wurde, bilden benachbarte, aufsteigende Wortlängen (hier gemessen in Buchstaben je Wort) eine Gruppe. Die nächste Gruppe beginnt, sobald eine Länge geringer ist als die Vorherige. Z.B.:
My identity, too, is bewilderingly cloudy.
(2 8) (3) (2 13) (6)
Über diese Motivstruktur können weitere Strukturen gebildet werden, z.B. eine weitere Schicht L-Motive - in diesem Falle sog. LL-Motive usw.:
(2) (1 2) (1)
Mit dem Gedanken, dass sich in verschiedenen Textsorten entsprechend unterschiedliche Ausprägungen von Motiven finden lassen, wurden zwei Kategorisierungsalgorithmen implementiert (Rocchio und K-Nearest). Dabei werden Vektoren gebildet, die aus verschiedenen Motivkombinationen bestehen. Diese Vektoren - einer pro Text - werden zunächst für Texte bereits bekannter Textsorten ermittelt und diesen zugeordnet (überwachtes Lernverfahren). Die Auswahl an Motivkombinationen wird dabei vor Beginn der Lernphase festgelegt und über den gesamten Lern- und Kategorisierungsprozess hinweg beibehalten. Zur Kategorisierung von Texten unbekannter Textsorte wird dann, nach Abschluss der Lernphase, der für den zu kategorisierenden Text ermittelte Vektor im Vergleich mit den jeweiligen Vektoren der einzelnen Textsorten oder aus diesen erstellten paradigmatischen Vektoren (Zentroiden) verglichen und so gemäß des jeweiligen Kategorisierungsverfahrens eingeordnet.
Quellen: