Academic journal article Literator: Journal of Literary Criticism, comparative linguistics and literary studies

The Development of a Hyphenator and Compound Analyser for Afrikaans/Die Ontwikkeling Van 'N Woordafbreker En Kompositumanaliseerder Vir Afrikaans

Academic journal article Literator: Journal of Literary Criticism, comparative linguistics and literary studies

The Development of a Hyphenator and Compound Analyser for Afrikaans/Die Ontwikkeling Van 'N Woordafbreker En Kompositumanaliseerder Vir Afrikaans

Article excerpt

Abstract

The development of two cote-technologies for Afrikaans, viz, a hyphenator and a compound analyser is described in this article. As no annotated Afrikaans data existed prior to this project to serve as training data for a machine learning classifier, the core-technologies in question are first developed using a rule-based approach. The rule-based hyphenator and compound analyser are evaluated and the hyphenator obtains an f-score of 90,84%, while the compound analyser only reaches an f-score of 78,20%. Since these results are somewhat disappointing and/or insufficient for practical implementation, it was decided that a machine learning technique (memory-based learning) will be used instead. Training data for each of the two core-technologies is then developed using "TurboAnnotate", an interface designed to improve the accuracy and speed of manual annotation. The hyphenator developed using machine learning has been trained with 39 943 words and reaches an f-score of 98,11% while the f-score of the compound analyser is 90,57% after being trained with 77 589 annotated words. It is concluded that machine learning (specifically memory-based learning) seems an appropriate approach for developing core-technologies for Afrikaans.

Key concepts:

Afrikaans linguistics compound analyser core-tech nologies hyphenator machine learning

Opsomming

In hierdie artikel word crie ontwikkeling van twee kemtegnologiee vir Afrikaans, 'n woordafbreker en 'n kompositumanaliseerder, beskryf. Aangesien geen geannoteerde data waarmee masjienleermodules afgerig kan word voor hierdie projek beskikbaar was nie, word eers van 'n reelgebaseerde benadering gebruik gemaak om hierdie kemtegnologiee te ontwikkel. Die reelgebaseerde modules word geevalueer en die woordafbreker behaal 'n f-telling van 90,84% en die kompositumanaliseerder 'n f-telling van 78,20%. Aangesien hierdie resultate nie heeltemal bevredigend vit praktiese implementering is nie, word 'n masjienleertegniek (geheuegebaseerde leer) vervolgens gebruik om hierdie modules te ontwikkel. Afrigtingsdata vir albei die kerntegnologiee word ontwikkel met behulp van "TurboAnnotate", 'n koppelvlak wat ontwikkel is om die akkuraatheid en spoed van handmatige annotasie te verhoog. Die masjienleerwoordafbreker word afgerig met 39 943 geannoteerde woorde en behaal 'n f-telling van 98, 11%, terwyl die kompositumanafiseerder'n f-telling van 90,57% behaal nadat dit met 77 589 geannoteerde woorde afgerig is. Dit word ten slotte gestel dat masjienleer (spesifiek geheuegebaseerde leer) suksesvol blyk te wees in crie ontwikkeling van kerntegnologiee vir Afrikaans.

Kernbegrippe:

Afrikaanse taalkunde kerntegnologiee kompositumanaliseerder masjienleer woordafbreker

I. Inleiding

Die groei en ontwikkeling van 'n mensetaaltegnologie-industrie van 'n taal is afhanklik van die ontwikkeling van kerntegnologiee (d.i. modules wat vir spesifieke take ontwikkel word en dan in toepassings geimplementeer kan word) vir die betrokke taal. Dit is daarom van kardinale belang om effektiewe en herbruikbare kerntegnologiee vir tale met ontluikende mensetaaltegnologie-industriee te ontwikkel.

Een van die belangrikste kerntegnologiee in die ontwikkeling van taaltegnologietoepassings is 'n outomatiese morfologiese analiseerder (d.i. 'n module wat gebruik word om woorde en hulle konstituente outomaties te analiseer; Lezius et al., 1996; Minnen et al., 2001; Van den Bosch & Daelemans, 1999). Morfologiese analiseerders word nie alleen in teksgebaseerde toepassings (soos spel- en grammatikatoetsers, masjienvertaal-, tekskategorisering- en inligtingonttrekkingsisteme) gebruik nie, maar ook in spraakgebaseerde toepassings (byvoorbeeld spraakherkenningsisteme en dialoogsisteme; vgl. Sproat, 1992:2-14). Aangesien morfologiese analise es sensieel is in die meeste taaltegnologietoepassings (Daelemans et al., 2005), is dit daarom van kernbelang om 'n gesofistikeerde, herbruikbare morfologiese analiseerder vir 'n taal soos Afrikaans te ontwikkel. …

Search by... Author
Show... All Results Primary Sources Peer-reviewed

Oops!

An unknown error has occurred. Please click the button below to reload the page. If the problem persists, please try again in a little while.