| |
|
|
|
|
(2010) Van de Cruys, Tim
Woorden hebben een bepaalde betekenis. Taalgebruikers kunnen die betekenis meestal moeiteloos achterhalen, maar voor een computersysteem is dat een lastige opgave. In dit proefschrift onderzoeken we hoe een computer de betekenis van een woord automatisch uit grote tekstcollecties kan afleiden. Dat gebeurt concreet door de context van woorden (zoals de omringende woorden, of de syntactische relaties
van een woord) met elkaar te vergelijken, en zo te bepalen in welke mate woorden op elkaar lijken of van elkaar verschillen. Die informatie stelt de computer in staat om groepen van woorden die semantisch op elkaar lijken volledig automatisch uit teksten te halen.
Een belangrijk gedeelte van het onderzoek is gewijd aan methodes voor dimensionaliteitsreductie, en de toepassing ervan op taal. Het gebruik van grote tekstcollecties houdt in dat het aantal verschillende contexten al snel oploopt tot
enkele honderdduizenden. Met een wiskundige dimensionaliteitsreductie kan de overvloed aan individuele contexten teruggebracht worden tot een beperkt aantal
dimensies. Kenmerkend hierbij is dat die dimensies latente semantiek bevatten: de waarde van een woord voor een bepaalde dimensie geeft aan hoe sterk het woord op een bepaald betekenisveld (zoals economie, transport, voedsel, . . . ) scoort.
De databanken die op die manier opgebouwd worden, worden daarna gebruikt in verschillende taalgerichte toepassingen, zoals het ontdekken van versteende uitdrukkingen, het onderscheiden van de verschillende betekenissen van een woord, en de extractie van typische argumenten voor werkwoorden.
Gebruik a.u.b. deze link om te verwijzen naar dit
document:
http://irs.ub.rug.nl/ppn/327295317 |
Meer informatie in de catalogus
Meer informatie in Picarta
Afdrukken op bestelling.
|
|
| |
| To top
|
| |
© 2003-2007 RUG : De Rijksuniversiteit Groningen heeft de rechten van deze repository. Alle rechten voorbehouden. Powered by WildFire
| |