Przetwarzanie tekstów polskich w systemie tłumaczenia automatycznego POLENG
Krzysztof Jassem
Dane szczegółowe: | |
Wydawca: | Wydawnictwo Naukowe UAM |
Rok wyd.: | 2006 |
Oprawa: | miękka |
Ilość stron: | 355 s. |
Wymiar: | 170x240 mm |
EAN: | 9788323216384 |
ISBN: | 83-232-1638-X |
ISSN: | 1896-379X |
Data: | 2009-10-15 |
Opis książki:
The book presents the process of handling a text written in the Polish language in order to achieve its representation useful for machine translation into another language. All definitions, methods, technologies described in the book are "applicational": they have been developed to be applied in a specific system, i.e. the POLENG Machine Translation System. A Polish text processed by POLENG is transformed into intermediate forms, the final form being the equivalent text in the English language. The intermediate forms result from subsequent phases: morphological analysis, syntactical analysis, semantic analysis, transfer, syntactical generation and finally morphological generation. The intermediate results may be applied in other systems that need the processing of the Polish language (they have been implemented to the ACALA system, where a virtual robot is controlled by commands in the natural language, or to the speech synthesis of Polish). The book is divided into two parts. Part 1 describes the lexical database of the POLENG system: it provides the definition of a dictionary intended for computerized text processing; presents the structure of the POLENG dictionary; describes how the lexical data for the POLENG system have been obtained; discusses the interrelations between syntax and semantics. Part 2 describes text processing algorithms: it describes tokenization, morphological analysis; describes the algorithm for syntactical analysis; deals with the problem of disambiguation; presents the transfer phase and gives a view on algorithms for the translation of lexical phrases.
Książka "Przetwarzanie tekstów polskich w systemie tłumaczenia automatycznego POLENG" - Krzysztof Jassem - oprawa miękka - Wydawnictwo Naukowe UAM. Książka posiada 355 stron i została wydana w 2006 r.
Spis treści:
Wprowadzenie
ZARYS HISTORYCZNY TŁUMACZENIA AUTOMATYCZNEGO
METODY TŁUMACZENIA AUTOMATYCZNEGO
Tłumaczenie bezpośrednie, czyli//wyraz po wyrazie"
Tłumaczenie oparte na regułach
Tłumaczenie przez analogię
Tłumaczenie statystyczne
System POLENG
CZĘŚĆ 1. OPIS DANYCH LEKSYKALNYCH
1. Realizacje słowników w tłumaczeniu automatycznym
2. Charakterystyka leksykalnej bazy danych w systemie POLENG
2.1. Klasy gramatyczne
2.2. Struktura słownika
2.2.1. Format hasła
2.3. Charakterystyka poszczególnych elementów słownika
2.3.1. Atrybut canon
2.3.2. Atrybut sinflection
2.3.3. Blok form fleksyjnych
2.3.4. Blok odpowiedników
2.4. Formalny opis atrybutów
2.4.1. Pojęcie idiomu
2.4.2. Atrybuty organizacyjne
2.4.3. Atrybuty z bloku odpowiedników
2.4.4. Gramatyka opisu atrybutu complementation
2.4.5. Typy kategorii w dopełnieniach
2.4.6. Wartości atrybutów charakterystyczne dla poszczególnych klas gramatycznych
2.5. Podsumowanie
3. Proces tworzenia bazy leksykalnej
3.1. Słownik POLENG-1
3.1.1. Przygotowywanie i selekcja korpusów tekstowych
3.1.2. Lematyzacja korpusu
3.1.3. Stworzenie list frekwencyjnych i ustalenie częstościowego progu włączenia hasła do słownika
3.1.4. Ręczne opisanie haseł na podstawie słowników i wystąpień w korpusach
3.2. Słownik POLENG-2
3.2.1. Przygotowywanie i selekcja korpusów tekstowych
3.2.2. Lematyzacja korpusu
3.2.3. Stworzenie list frekwencyjnych i ustalenie częstościowego progu włączenia hasła do słownika
3.2.4. Ręczne opisanie haseł na podstawie słowników i wystąpień w korpusach
3.3. Adaptowanie słownika WSAP do systemu POLENG
3.3.1. Cele i zasoby
3.3.2. Przetwarzanie automatyczne i ręczne
3.3.3. Automatyczna konwersja całego słownika
3.3.4. Ręczna weryfikacja i modyfikacja słownika
3.3.5. Półautomatyczna korekta
3.3.6. Wnioski
3.3.7. Status słownika
3.4. Generowanie form fleksyjnych
3.5. Podsumowanie
4. Klasyfikacja polskich spójników pod kątem komputerowej analizy składniowej
4.1. Cel badań
4.2. Definicja spójnika
4.3. Klasyfikacja spójników
4.3.1. Rodzaje łączonych członów:
4.3.2. Wektor opisu spójnika
4.4. Klasy spójników
4.5. Podsumowanie
5. Klasyfikacja spójników angielskich
5.1. Definicja spójnika języka angielskiego
5.2. Własności składniowe spójników angielskich
5.3. Wektor opisu spójnika
5.4. Klasy spójników
5.5. Podsumowanie
6. Klasyfikacja semantyczna przymiotników polskich na podstawie ich własności syntaktycznych w jeżyku polskim i angielskim
6.1. Motywacja stworzenia klasyfikacji
6.1.1. Nadrzędność i podrzędność składników w zdaniu
6.1.2. Składniki podrzędne w słowniku systemu POLENG
6.1.3. Metoda analogii semantycznej
6.2. Dyskusja historyczna
6.2.1. Pierwotny podział przymiotników
6.2.2 Antonimia
6.2.3. Oznaczoność
6.2.4. Wieloznaczność
6.2.5. Użycie przydawkowe i orzecznikowe
6.2.6. Opcjonalność przyłączania składników podrzędnych
6.2.7. Zakres zależności
6.3. Klasyfikaqa przymiotników
Grupa 1. Przymiotniki określające relacje między ludźmi
Grupa 2. Przymiotniki określające relację człowiek -" czynność
Grupa 3. Relacja człowiek - zjawisko lub wydarzenie
Grupa 4. Przymiotniki opisujące subiektywne cechy obiektów nieosobowych
Grupa 5. Relacje pomiędzy nieosobowymi obiektami fizycznymi
Grupa 6. Przymiotniki określające relacje między obiektami różnych typów
Grupa 7. Przymiotniki przestrzenne nieoznaczone
Grupa 8. Przymiotniki odczasownikowe (imiesłowy)
Grupa 9. Inne klasy przymiotników
Grupa 10. Pozostałe przymiotniki
6.4. Algorytm opisu własności przymiotników
6.5. Podsumowanie
7. Ontologia konceptualna w systemie POLENG
7.1. Podstawowe pojęcia i definicje
7.2. Ontologie leksykalne
7.2.1. WordNet
7.2.2. Sensus
7.3. Ontologie konceptualne w systemach tłumaczenia automatycznego
7.4. Ontologia systemu POLENG
7.5. Tworzenie ontologii POLENG
7.6. Analiza błędów w ujednoznacznianiu semantycznym
7.7. Nowe koncepty i definicje w ontologii POLENG
7.7.1. Usunięcie konceptów
7.7.2. Wprowadzenie nowych konceptów
7.7.3. Modyfikacja w organizacji hierarchii
7.7.4. Przedefiniowanie znaczeń konceptów
7.8. Hierarchia konceptów w ontologii POLENG
7.9. Opis konceptów ontologii POLENG
7.10. Ujednoznacznianie semantyczne oparte na leksykalnych regułach translacji
7.10.1. Reguły leksykalno-semantyczne
7.10.2. Reguły składniowo-semantyczne
7.10.3. Algorytm ujednoznaczniania semantycznego
7.11. Podsumowanie
CZĘŚĆ 2. OPIS PRZETWARZANIA
8. Zagadnienia tokenizacji
8.1. Proces tokenizacji
8.2. Zjawiska, które należy brać pod uwagę w trakcie procesu tokenizacji
8.2.1. Kropka
8.2.2. Spacja
8.2.3. Myślnik
8.3. Trudności napotkane w trakcie analizy leksykalnej tekstów i propozycje rozwiązań
8.3.1. Inicjały
8.3.2. Skróty niezakończone kropką
8.3.3. Wyrażenia "pseudomatematyczne"
8.3.4. Liczby pisane słownie
8.3.5. Data i czas
8.3.6. Reprezentacje liczb
8.3.7. Wypunktowania i numerowania
8.3.8. Adresy internetowe
8.3.9. Błędy w tokenizowanych tekstach
8.4. Reguły korzystające ze słownika
8.5. Podsumowanie
9. Analiza morfologiczna
9.1. Analiza morfologiczna przez analogię
9.1.1. Struktura logiczna słownika w rozpoznawaniu przez analogię
9.1.2. Algorytm analizy przez analogię
9.1.3. Zastosowanie algorytmu w praktyce
9.1.4. Trudności w analizie morfologicznej przez analogię
9.1.5. Zastosowanie analizy morfologicznej przez analogię
9.2. Analiza słowotwórcza w tłumaczeniu automatycznym z języka polskiego na język angielski
9.2.1. Potrzeba analizy słowotwórczej w tłumaczeniu automatycznym
9.2.2. Ograniczenia analizy słowotwórczej w tłumaczeniu automatycznym
9.2.3. Specyfika słownictwa komputerowego
9.2.4. Formalizm opisu reguł słowotwórczych
9.2.5. Składnia reguły słowotwórczej
9.2.6. Przykłady reguł derywacyjnych
9.3. Analiza słowotwórcza w tłumaczeniu angielsko-polskim
9.4. Podsumowanie
10. Narzędzia do opisu i interpretacji skończonych sieci przejść w systemie POLENG
10.1. Wstęp
10.2. Geneza pomysłu
10.3. PTND - POLENG Transition Nerwork Definition
10.3.1. XTND - XML Transition Network Definition
10.3.2. Elementy formalizmu XTND przejęte w PTND
10.3.3. Referencje do argumentów z historii
10.4. Algorytm nawracania
10.5. Interpreter graficzny
10.6. Generator
10.7. Produktor - obsługa błędów o
10.8. Podsumowanie
11. Analiza składniowa w systemie POLENG
11.1. Parsowanie w systemach POLENG-1 i POLENG-2
11.2. Ogólna koncepcja nowego parsera
11.3. Opis gramatyki
11.3.1. Produkcja
11.3.2. Instrukcja budowy drzewa struktury składniowej
11.3.3. Wyrażenie opisujące operacje wykonywane na atrybutach
11.4. Opis gramatyki a słownik systemu
11.5. Dopełnienia
11.6. Fragment gramatyki - przykład
11.7. Podsumowanie
12. Statystyczne i heurystyczne algorytmy rozwiązywania wieloznaczności w systemie FOLENG
12.1. Typy niejednoznaczności
12.1.1. Niejednoznaczności typograficzne
12.1.2. Niejednoznaczności leksykalne
12.1.3. Niejednoznaczności strukturalne
12.2. Ujednoznacznianie statystyczne
12.3. Ujednoznacznianie strukturalne metodą heurystyczną
12.3.1. Przykłady zastosowania podejścia heurystycznego
12.4. Podsumowanie
13. Algorytmy transferu automatycznego w systemie POLENG
13.1. Język opisu reguł transferu
13.1.1. Narzędzia do weryfikacji poprawności składniowej reguł
13.1.2. Symbole języka opisu reguł
13.2. Reguły transferu
13.3. Reguły modyfikacji składniowej
13.4. Reguły syntezy morfologicznej
13.5. Podsumowanie
14. Przetwarzanie fraz leksykalnych w tłumaczeniu automatycznym z języka polskiego na jeżyk angielski
14.1. Klasyfikacja fraz leksykalnych
14.1.1. Opis struktury frazy
14.2. Przetwarzanie fraz leksykalnych
14.2.1. Reguły transferu fraz leksykalnych
14.2.2. Reguły transformacyjne fraz leksykalnych
14.2.3. Algorytm tłumaczenia fraz leksykalnych
14.3. Podsumowanie
PODSUMOWANIE PRACY
DODATEK 1. ALFABETYCZNA LISTA SPÓJNIKÓW JEDNOWYRAZOWYCH
DODATEK 2. ALFABETYCZNA LISTA SPÓJNIKÓW WIELOWYRAZOWYCH
DODATEK 3. LISTA FRAZ SPÓJNIKOWYCH
DODATEK 4. FRAGMENT PLIKU WEJŚCIOWEGO DO PROGRAMU FLEX
DODATEK 5. FRAGMENT PLIKU WEJŚCIOWEGO DO PROGRAMU BISON
LITERATURA