Heiner Kücker

Java Spell Checker Silbentrennung

Home

Java-Seite

   Bit Packed Array

   ASM Improved

   heterogene
   Map, HMap

   Constraint
   Code Generator

   JSP WorkFlow
   PageFlow FlowControl
   Page Flow Engine
   Web Flow Engine
   Control_and_Command

   JSP_Spreadsheet

   Code-Generator
   für Option-Either-Stil
   in Java

   verbesserter
   Comparator

   Fluent-Interface
   Code-Generator
   auf Basis
   einer Grammatik

   Visitor mit Multidispatch

   for-Schleife mit
   yield-return

   Kognitions-Maschine
   semantisches Netz

   Domain Parser

   Codegenerator_für
   hierarchische
   Datenstrukturen

   Expression_Engine
   Formula_Parser

   Thread Preprocessor

   State Transition Engine

   AspectJ

   Java_Explorer

   DBF_Library

   Kalender_Applet

   SetGetGen

   BeanSetGet

   CheckPackage

   LineNumbers

   GradDms

   Excel-Export

   StringTokenizer

   JspDoc

   JspCheck

   JSP-Schulung
   Java Server Pages
   Struts

   Ascii-Tabellen-
   Layouter

   Ascii-Baum-
   Layouter

   Ascii-Art-Fluss-
   Diagramm-
   Parser

   AsciiArt
   AssignmentMatrix
   Layouter

   StringSerial

   Silbentrennung

   JDBC_Schlüssel-
   Generierung

   bidirektional/
   unidirektional
   gelinkte Liste

   Java_Sitemap
   Generator

   XmlBuilder

   RangeMap

   StringFormatter

   VersionSafe
   XCopy

   JTextField

   CommandLine-
   ParamReader

   Bitmap-Grafik

   MultiMarkable-
   Buffered-
   InputStream

   JavaCache

   JdomUtil

   CollectionUtil

   XML Really
   Pull Parser

   Log-Filter

   Remote-Protokoll

   Sudoku-Generator

   Delegation statt
   Mehrfachvererbung

   Disjunct
   Interval Set

   WebCam_Demo

   Weiterentwicklung_Java

Alaska-XBase++-Seite

Projekte

Philosophien
Techniken


Konzepte

Sudoku

Kontakt /
Impressum


Links

SiteMap





Letzte Aktualisierung:
08.07.2004
Spell.java

Kleines Programm zur Silbentrennung in Java (Spell Checker).

Anwendung:

-Trennen eines Wortes

Die Methode String[] spellWord(String) liefert ein String-Array mit den einzelnen Silben eines Wortes.

-Formatieren einer Zeile

Die Methode String formatLine(String paStr , int paIntWidth) bricht eine Zeile in der verlangten Breite um.

-Formatieren eines Textes

Die Methode String formatText(String paStr , int paIntWidth) bricht einen Text in der verlangten Breite um.

-Grundsätzliche Vorgehensweise

Alle beginnenden Konsonanten der zu untersuchenden Silbe werden übersprungen. Dann wird über alle Vokale gelaufen. Am Ende der Silbe werden alle Konsonanten bis auf den letzten mit einbezogen. Der letzte Konsonant bleibt für die nächste Silbe.

Dann werden folgende Regeln angewendet:

st wird nicht getrennt
ft am Ende der Silbe bleibt zusammen
ng wird nicht getrennt
sch wird nicht getrennt
str wird nicht getrennt

ck wird in kk umgewandelt

Problem nicht anwendbarer Regeln

Das Wort Seitengestaltung wird in Sei-ten-ge-stal-tung getrennt. Dabei wird eine ng-Verbindung, die entsprechend obiger Regeln nicht getrennt werden dürfte, getrennt. Dafür habe ich vorgesehen, dass für solche Wörter Trennungen in einer HashMap hinterlegt werden.

Methode addWord( String , String )
Methode addIgnoreCasexxx

Alternativ wäre es möglich, Teilworte mit den dazugehörigen Trennungen zu hinterlegen. Dies führt aber zu einer kombinatorischen Explosion mit entsprechend schlechten Laufzeiten.

Weiter besteht das Problem, dass Teilworte erkannt werden könnten:

Problem: Auto-rennen <--> Autoren-nennungen

Es ist sehr problematisch, ob nun die längeren oder kürzeren Worte zum Vergleich herangezogen werden sollten.

Eine weitere denkbare Möglichkeit ist das Definieren von Worten und Wortkombinationen:

Wort A: Teilzeit
Wort B: Mitarbeiter
Wort G: A+B Teilzeitmitarbeiter

Dies wird in dieser Klasse wegen der oben genannten Probleme nicht gemacht.

Problem: ck zu kk oder ß zu ss umgewandelt. Bei nicht erfolgter Trennung muss der originale String in den endgültigen Text eingefügt werden.

Formatieren eines Textes mit Silbentrennung:

Es ist günstig für die Trennung ein Spezialzeichen zu verwenden, damit eine Trennung jederzeit wieder rückgängig gemacht werden kann. Ein weiteres Problem ist das Rückgängigmachen von Änderungen, die durch das Trennen entstanden sind ( ck -> kk , ß -> ss )

Zusammenfassend kann man sagen, dass die Silbentrennung sehr problematisch ist. Sie zu lösen, reicht in den Bereich der künstlichen Intelligenz hinein. Verbreitete kommerzielle Textverarbeitungen arbeiten mit umfangreichen Wörterbüchern und beziehen den Benutzer interaktiv in den Vorgang der Silbentrennung im Zusammenhang mit der Rechtschreibprüfung ein.

Dieses kleine Programm, das aus einer Laune entstand, kann also nur für ganz einfache Aufgaben und zum Kennenlernen der Problematik dienen.

Download der Quelldateien Spell.zip

Installation:

Entpacken in Verzeichnis Ihrer Wahl (z.B. G:\Spell)

Start mit run.bat . (Achtung: die Umgebungsvariable JAVA_HOME muss gesetzt sein)

Achtung: Erweiterungen und Fixes stelle ich ohne Historie und ohne Ankündigung hier bereit.
Deshalb am besten immer die letzte Version runterladen.

Lizenzbedingungen:

Die Programme, Quelltexte und Dokumentationen können ohne irgendwelche Bedingungen kostenlos verwendet werden.
Sie sind Freeware und Open Source. Für Fehler und Folgen wird keinerlei Haftung übernommen.

Hinweise zur Fehlerbeseitigung und Verbesserung sind mir willkommen.

Ich freue mich auch über Feedback bezüglich der erfolgreichen Verwendung meiner Sourcen.

Bei Fragen helfe ich gern mit Hinweisen oder zusätzlicher Dokumentation, falls ich dafür Zeit habe.