Dissertaties - Rijksuniversiteit Groningen
 
vpplank.jpg
English | Nederlands

Domain adaptation for parsing

(2011) Plank, Barbara

Het doel van de computationele taalkunde is het maken van systemen die in staat zijn natuurlijke taal te begrijpen en te produceren, net zoals wij mensen dat doen. Het maken van dergelijke systemen is moeilijk, onder andere vanwege het probleem van de ambiguïteit van natuurlijke taal. In dit proefschrift ligt de focus op het automatisch ontleden, het bepalen van welke woorden en woordgroepen bij elkaar
horen, en wat de functie van de verschillende woordgroepen is. Het probleem van ambiguïteit doet zich ook hier voor omdat er vaak meerdere ontledingen bestaan voor een uiting.

Om het probleem van ambiguïteit aan te pakken wordt veelal gebruik gemaakt van machinaal leren. Een model wordt geleerd door parameters te berekenen op basis van soms wel duizenden kenmerken van de trainingdata. Die trainingdata bestaat uit duizenden zinnen waarvoor de correcte ontleding handmatig is vastgelegd. Het blijkt dat deze aanpak voor het automatisch ontleden goede resultaten geeft zolang de
trainingdata representatief is. Dus, als de trainingdata bestaat uit krantenartikelen uit de Volkskrant dan zal het resulterende model vooral goede prestaties halen op andere krantenartikelen uit de Volkskrant. Maar als we dat model toepassen op bijvoorbeeld een wetenschappelijk essay over oceanografie, dan worden de prestaties snel veel minder. Automatische ontleedsystemen zijn dus sterk
afhankelijk van het domein van de teksten waaruit de trainingdata is opgebouwd.

Dit proefschrift onderzoekt de domeinafhankelijkheid van automatische ontleedsystemen. De belangrijkste bijdragen van dit proefschrift zijn de volgende. Na een inleiding in het automatisch ontleden en het probleem van domeinafhankelijkheid onderzoeken we in het tweede deel
van dit proefschrift de effectiviteit van nieuwe en bestaande
algoritmes voor het aanpassen van modellen aan andere domeinen. Deze worden geëvalueerd in het kader van een automatisch ontleedsysteem voor het Nederlands dat gebaseerd is op een handgeschreven grammatica, de Alpino parser. Eerder werk was gericht op domeinafhankelijkheid van
ontleedsystemen die in zijn geheel zijn gebaseerd op data
(datagedreven ontleedsystemen). In het derde deel bekijken we de gevoeligheid van verschillende soorten ontleedsystemen op domeinverschuivingen. De hypothese dat het grammatica-gebaseerde systeem Alpino minder beïnvloed wordt door domeinverschuivingen wordt getest, en, dus, dat datagebaseerde systemen meer behoefte hebben aan
technieken voor aanpassing aan nieuwe domeinen. Het hoofdstuk laat zien dat Alpino robuust is in vergelijking met de ontleedsystemen die in zijn geheel gebaseerd zijn op geannoteerde data. De laatste bijdrage van dit proefschrift is de ontwikkeling van een meetinstrument om aan te geven in hoeverre twee teksten tot een verschillend of juist tot een vergelijkbaar domein behoren. De meeste studies nemen aan dat er data van het nieuwe domein ter beschikking staat. Dit is echter niet altijd het geval. Daarom evalueren we maten
om automatisch geschikte trainingdata te selecteren voor een nieuw domein. De resultaten tonen aan dat een eenvoudige techniek gebaseerd op frequenties van woorden effectief is voor het selecteren van trainingdata voor beide onderzochte talen, het Engels en het Nederlands.




file:Volledige dissertatie
file:Titel
file:Dankwoord
file:Inhoud
file:Hoofdstuk 1
file:Hoofdstuk 2
file:Hoofdstuk 3
file:Hoofdstuk 4
file:Hoofdstuk 5
file:Hoofdstuk 6
file:Hoofdstuk 7
file:Samenvatting in het Engels
file:Bijlage
file:Literatuuropgaven
file:Samenvatting in het Nederlands
file:GRODIL

Gebruik a.u.b. deze link om te verwijzen naar dit document:
http://irs.ub.rug.nl/ppn/338594299

Meer informatie in de catalogus
Meer informatie in Picarta

[print]Afdrukken op bestelling.




 
To top