Language for Granted - Automatic Evalutation of the Language Used in Grant Applications
Author
Summary, in English
Abstract
This thesis examines whether it is possible to ascertain a measurable difference between granted and refused grant applications with automatic methods. A corpus of project descriptions from the Swedish Science Council was examined with different classification techniques and using different linguistic features. A Naive Bayes classifier is shown to be a good predictor for this type of problem and the number of prepositional phrases in a document is shown to be a good attribute for classification. The results show that there does exist a statistically measurable linguistic difference between granted and refused applications.
Sammanfattning
Denna uppsats undersöker om det går att, med automatiska metoder, mäta en skillnad mellan godkända och avslagna bidragsansökningar. En korpus med projektbeskrivningar från Vetenskapsrådet undersöktes med olika klassifikationstekniker för olika lingvistiska särdrag. Det visar sig att en "Naive Bayes"-klassificerare fungerar bra för denna slags problem och också att antalet prepositionsfraser i ett dokument är en bra utgångspunkt för klassificering. Resultaten visar slutligen att det finns en statistiskt mätbar språklig skillnad mellan godkända och avslagna ansökningar.
This thesis examines whether it is possible to ascertain a measurable difference between granted and refused grant applications with automatic methods. A corpus of project descriptions from the Swedish Science Council was examined with different classification techniques and using different linguistic features. A Naive Bayes classifier is shown to be a good predictor for this type of problem and the number of prepositional phrases in a document is shown to be a good attribute for classification. The results show that there does exist a statistically measurable linguistic difference between granted and refused applications.
Sammanfattning
Denna uppsats undersöker om det går att, med automatiska metoder, mäta en skillnad mellan godkända och avslagna bidragsansökningar. En korpus med projektbeskrivningar från Vetenskapsrådet undersöktes med olika klassifikationstekniker för olika lingvistiska särdrag. Det visar sig att en "Naive Bayes"-klassificerare fungerar bra för denna slags problem och också att antalet prepositionsfraser i ett dokument är en bra utgångspunkt för klassificering. Resultaten visar slutligen att det finns en statistiskt mätbar språklig skillnad mellan godkända och avslagna ansökningar.
Department/s
Publishing year
2007
Language
English
Full text
- Available as PDF - 312 kB
- Download statistics
Document type
Student publication for Master's degree (one year)
Topic
- Languages and Literatures
Keywords
- Language Technology
- Text Categorization
- Grant Applications
- Linguistics
- Allmän språkvetenskap/Lingvistik
Supervisor
- Caroline Willners