Heiner KückerJava Spell Checker Silbentrennung |
|
Home Java-Seite Bit Packed Array ASM Improved heterogene Map, HMap Constraint Code Generator JSP WorkFlow PageFlow FlowControl Page Flow Engine Web Flow Engine Control_and_Command JSP_Spreadsheet Code-Generator für Option-Either-Stil in Java verbesserter Comparator Fluent-Interface Code-Generator auf Basis einer Grammatik Visitor mit Multidispatch for-Schleife mit yield-return Kognitions-Maschine semantisches Netz Domain Parser Codegenerator_für hierarchische Datenstrukturen Expression_Engine Formula_Parser Thread Preprocessor State Transition Engine AspectJ Java_Explorer DBF_Library Kalender_Applet SetGetGen BeanSetGet CheckPackage LineNumbers GradDms Excel-Export StringTokenizer JspDoc JspCheck JSP-Schulung Java Server Pages Struts Ascii-Tabellen- Layouter Ascii-Baum- Layouter Ascii-Art-Fluss- Diagramm- Parser AsciiArt AssignmentMatrix Layouter StringSerial Silbentrennung JDBC_Schlüssel- Generierung bidirektional/ unidirektional gelinkte Liste Java_Sitemap Generator XmlBuilder RangeMap StringFormatter VersionSafe XCopy JTextField CommandLine- ParamReader Bitmap-Grafik MultiMarkable- Buffered- InputStream JavaCache JdomUtil CollectionUtil XML Really Pull Parser Log-Filter Remote-Protokoll Sudoku-Generator Delegation statt Mehrfachvererbung Disjunct Interval Set WebCam_Demo Weiterentwicklung_Java Alaska-XBase++-Seite Projekte Philosophien Techniken Konzepte Sudoku Kontakt / Impressum Links SiteMap Letzte Aktualisierung: 08.07.2004 |
Spell.java
Kleines Programm zur Silbentrennung in Java (Spell Checker). Anwendung: -Trennen eines Wortes Die Methode String[] spellWord(String) liefert ein String-Array mit den einzelnen Silben eines Wortes. -Formatieren einer Zeile Die Methode String formatLine(String paStr , int paIntWidth) bricht eine Zeile in der verlangten Breite um. -Formatieren eines Textes Die Methode String formatText(String paStr , int paIntWidth) bricht einen Text in der verlangten Breite um. -Grundsätzliche Vorgehensweise Alle beginnenden Konsonanten der zu untersuchenden Silbe werden übersprungen. Dann wird über alle Vokale gelaufen. Am Ende der Silbe werden alle Konsonanten bis auf den letzten mit einbezogen. Der letzte Konsonant bleibt für die nächste Silbe. Dann werden folgende Regeln angewendet: st wird nicht getrennt ft am Ende der Silbe bleibt zusammen ng wird nicht getrennt sch wird nicht getrennt str wird nicht getrennt ck wird in kk umgewandelt Problem nicht anwendbarer Regeln Das Wort Seitengestaltung wird in Sei-ten-ge-stal-tung getrennt. Dabei wird eine ng-Verbindung, die entsprechend obiger Regeln nicht getrennt werden dürfte, getrennt. Dafür habe ich vorgesehen, dass für solche Wörter Trennungen in einer HashMap hinterlegt werden. Methode addWord( String , String ) Methode addIgnoreCasexxx Alternativ wäre es möglich, Teilworte mit den dazugehörigen Trennungen zu hinterlegen. Dies führt aber zu einer kombinatorischen Explosion mit entsprechend schlechten Laufzeiten. Weiter besteht das Problem, dass Teilworte erkannt werden könnten: Problem: Auto-rennen <--> Autoren-nennungen Es ist sehr problematisch, ob nun die längeren oder kürzeren Worte zum Vergleich herangezogen werden sollten. Eine weitere denkbare Möglichkeit ist das Definieren von Worten und Wortkombinationen: Wort A: Teilzeit Wort B: Mitarbeiter Wort G: A+B Teilzeitmitarbeiter Dies wird in dieser Klasse wegen der oben genannten Probleme nicht gemacht. Problem: ck zu kk oder ß zu ss umgewandelt. Bei nicht erfolgter Trennung muss der originale String in den endgültigen Text eingefügt werden. Formatieren eines Textes mit Silbentrennung: Es ist günstig für die Trennung ein Spezialzeichen zu verwenden, damit eine Trennung jederzeit wieder rückgängig gemacht werden kann. Ein weiteres Problem ist das Rückgängigmachen von Änderungen, die durch das Trennen entstanden sind ( ck -> kk , ß -> ss ) Zusammenfassend kann man sagen, dass die Silbentrennung sehr problematisch ist. Sie zu lösen, reicht in den Bereich der künstlichen Intelligenz hinein. Verbreitete kommerzielle Textverarbeitungen arbeiten mit umfangreichen Wörterbüchern und beziehen den Benutzer interaktiv in den Vorgang der Silbentrennung im Zusammenhang mit der Rechtschreibprüfung ein. Dieses kleine Programm, das aus einer Laune entstand, kann also nur für ganz einfache Aufgaben und zum Kennenlernen der Problematik dienen. Download der Quelldateien Spell.zip Installation: Entpacken in Verzeichnis Ihrer Wahl (z.B. G:\Spell) Start mit run.bat . (Achtung: die Umgebungsvariable JAVA_HOME muss gesetzt sein)
Achtung: Erweiterungen und Fixes stelle ich ohne Historie
und ohne Ankündigung hier bereit. Lizenzbedingungen:
Die Programme, Quelltexte und Dokumentationen können ohne
irgendwelche Bedingungen kostenlos verwendet werden. |