********************************************** igerman98 ***************** Ein deutsches Wörterbuch zur Rechtschreibkontrolle nach den neuen Rechtschreibregeln mit den Programmen Ispell oder Aspell ********************************************** Bei einer automatischen Rechtschreibkontrolle sollen Schreibfehler in einem Text von einem Prüfprogramm gefunden werden. Die korrekte Schreibweise wird dazu in einem Wörterbuch hinterlegt. Bei der Zusammenstellung des Wörterbuchs sind jedoch die drei folgenden Kriterien zu berücksichtigen. 1. Voraussetzung für zuverlässige Ergebnisse ist, dass das Wörterbuch selbst möglichst keine Fehler enthält. 2. Das Wörterbuch muss einen breiten Wortschatz abdecken. Andernfalls wird das Prüfprogramm viele korrekte Wörter eines Textes als falsch abweisen, die nicht in dem Wörterbuch enthalten sind. Dieses Verhalten ist lästig und versperrt den Blick auf die wahren Fehler. 3. Es ist notwendig, dass ein Wörterbuch nicht zu viele Wörter enthält. Zum einen kann ein selten verwendetes Wort gerade so geschrieben werden wie ein falsch geschriebenes Wort in dem zu prüfenden Text, welches dann nicht als fehlerhaft erkannt wird. Zum anderen belastet ein sehr großes Wörterbuch den Arbeitsspeicher eines Computers evtl. so sehr, dass die Prüfung unerträglich lange dauert. **** Eigenschaften **** Dieses Wörterbuch liegt nicht als eine große Datei vor, sondern die Wörter sind nach verschiedenen Kriterien in einzelne Dateien aufgeteilt. Dadurch wird es möglich, ein relativ kleines Wörterbuch zusammenzustellen, das den individuellen Anforderungen leichter genügt. Nicht zuletzt ist das Gesamtwerk so besser zu warten. Außerdem sind Schreibweisen, die alternativ zu `alten' Schreibweisen existieren in separaten Wörterbuchdateien. So ist es möglich, `progressive' Schreibweisen wie `Delfin' zu erzwingen, indem man die älteren Schreibweisen (`Delphin') deaktiviert. Wem `Delfine' oder `Jogurts' nicht gefallen kann natürlich auch die progressiveren Schreibweisen deaktivieren und fortan seine Delphine mit Joghurt füttern. (vgl. INSTALL - Datei) **** Inhalt der Teilwörterbücher **** Es folgt eine Beschreibung der einzelnen Dateien und der Kriterien, nach denen die Aufteilung der Worte vorgenommen wurde. abkuerzpunkt Abkürzungen, die einen Punkt am Ende erfordern (etc., usw.) abkuerzungen gebräuchliche Abkürzungen abkuerz2 weitere Abkürzungen adjektive Adjektive alphabeta einige griechische Buchstaben anglizismen mehr oder weniger notwendige Anglizismen austriazismen in Österreich gebräuchliche Worte helvetismen in der Schweiz gebräuchliche Worte compeng Computer-Englisch, insbesondere deutsch-englische Mischwörter elektronik Fachbegriffe und Abkürzungen aus dem Bereich Elektronik geografie2 weitere geografische Begriffe geografie gebräuchliche geografische Begriffe infoabk gebräuchliche Abkürzungen aus dem EDV Bereich informatik Fachbegriffe aus dem Bereich der Datenverarbeitung klein Zahlworte, Fürworte, ... latein lateinische Redewendungen (et cetera) marken Namen von Firmen und Produkten mathematik mathematische Begriffe medizin medizinische Fachbegriffe (noch sehr leer!) namen Nachnamen bekannter Personen, Götter, Sagengestalten, ... namen2 weitere Namen orgabk Abkürzungen als Bezeichnung von Organisationen roemisch einige römische Zahlen seltenes wirklich seltene Worte, umgangssprachliche Wörter technik technische Begriffe verben Verbformen, keine Befehlsformen vornamen gebräuchliche Vornamen vornamen2 weitere Vornamen worte Substantive und ähnliches worte2 weitere, weniger gebräuchliche Substantive zusammen zusammengesetzte Begriffe (sehr gemischt) **** Verbesserungsvorschläge **** Ich möchte das Wörterbuch weiter pflegen, um regelmäßig neue, verbesserte Versionen zu veröffentlichen. Dafür sendet mir bitte - Hinweise auf fehlerhafte Worte oder Beugungsformen, - Vorschläge zur Aufteilung in weitere Fachwörterbücher, z. B. Medizin - Ergänzungen um fehlende gebräuchliche Worte. Sendet Eure Vorschläge bitte an die unten angegebene E-Mail Adresse. Hilfreich ist auch, mir einfach die .ispell_german Datei zu schicken (natürlich erst, wenn schon einige Wörter drin sind), damit ich wichtige Worte aus verschiedenen Beutzerwörterbüchern in dieses Wörterbuch übernehmen kann. Die aktuelle Version ist immer hier zu finden: http://members.xoom.com/maccy/ispell/ **** Vorarbeiten **** Dieses Wörterbuch basiert ursprünglich auf dem ispell Wörterbuch von Heinz Knutzen, das unter ftp.informatik.uni-kiel.de:/pub/kiel/dicts/hk2-deutsch.tar.gz zu finden ist. Heinz Knutzens Wörterbuch basiert wiederum auf Wörterbüchern von Martin Schulz, die man z. B. unter ftp.th-darmstadt.de:/pub/dicts/ispell/dictionaries/deutsch.tar.gz findet. **** Ispell **** Das Programm ispell ist verfügbar in /ftp.cs.ucla.edu:pub/ispell-3.1. Dieses Wörterbuch wurde mit der Version ispell-3.1.20 verwendet. Um Ispell auf Texte mit deutschen Umlauten anwenden zu können, ist es je nach Kodierung mit der Option -Ttex oder -Tlatin1 aufzurufen. Weitere Kodierungen sind in der Datei `german.aff' erläutert. Falls hauptsächlich deutsche Texte geprüft werden, so sollte man die Environment-Variable `DICTIONARY' auf den Wert `german' setzen. Dann braucht die Option `-d german' beim Aufruf von ispell nicht mehr angegeben zu werden. **** Aspell **** Aspell geht bei seiner Arbeit dank seiner phonetischen Vergleiche deutlich intelligenter als Ispell vor und löst Ispell hoffentlich bald ab. Zu finden ist Aspell unter http://aspell.sourceforge.net . Obwohl Aspell noch im Alphastadium steckt kann ich nur jedem empfehlen von Ispell auf Aspell umzusteigen! **** Verschiedenes **** Ich habe meine Wörberbuch-Datei absichtlich `german' genannt, damit man sie parallel zu dem `deutsch' Wörterbuch von Heinz Knutzen benutzen, und so sowohl die alten als auch die neuen Rechtschreibregeln verwenden kann. In Linux Debian Distributionen ist jedoch auch schon das alte Wörterbuch mit `german' bezeichnet, weshalb bei Debian Distributionen dieses Wörterbuch `ngerman' genannt wurde (analog zum ngerman.sty TeX Paket). Via 'make isowordlist' ist es übrigens nun möglich eine riesige Datei zu erstellen, in der alle Wörter und die abgeleiteten Wortformen enthalten sind. Diese Datei namens `isowordlist' enthält dann ca. 300.000 Wörter und eignet sich sehr gut z. B. zum Testen, ob die Benutzer eines Rechners ,sichere' Passwörter benutzen ;-) Wer nicht glaubt, dass ein einfacher Taschenrechner auch eine Schreibmaschine sein kann, sollte mal folgendes probieren: grep -i ^[eghilos]*$ isowordlist | tr [eghilos] [3641705] | less Björn Jacke <bjoern.jacke@gmx.de> PGP fingerprints: (encrypted mail is welcome) RSA-Key: BC 64 6A AC E5 55 BC 4A BA D9 BD 75 50 F1 E0 5D DSS-Key: 7A26 F4A0 DA1C 22B5 906A C7B8 768A 34B3 E848 7A39 http://members.xoom.com/maccy/ispell/