About DoKS      NL  |  EN Search: Advanced Search
  Part of a word (e.g. tele*)    Exact wordgroup (e.g. "wireless communication")
 
Home
folder Authors
folder Departments
folder Help
folder Years
 
Most popular theses: 2014 2015 2016 2017 2018 2019


1,233 theses on-line.



Doks PHL
Doks XIOS



Open Archives Initiative
Home

Kunnen documenten geclassificeerd worden met 'machine learning’- principes ?

2019
Pupinin, Sergey
Professionele bachelor in de toegepaste informatica

Abstract :
Cegeka ondersteunt haar klanten met de Office 365-clouddienst die ontwikkeld is door Microsoft. De dienst wordt veel gebruikt bij bedrijven, scholen en particulieren. SharePoint Online is een belangrijk component van Office 365 en laat toe om documenten, informatie te synchroniseren om aldus een efficiënte samenwerking tussen werknemers van de klanten van Cegeka te bewerkstellingen. Een probleem ontstaat echter wanneer veel data in documenten wordt bewaard. Voor elk document moet dan metadata ingevuld worden zodat het sneller kan gevonden worden in SharePoint. Er is tot op heden geen systeem ontwikkeld dat deze handeling kan automatiseren.

Voor dit probleem wenst Cegeka een oplossing te bedenken. De voorgestelde oplossing is dat alle documenten automatisch worden gescand op inhoud wanneer ze worden ingegeven in het SharePoint-platform en dat een kenmerk of een "klasse" wordt toegekend die in de gegevens van het document wordt opgeslagen. Hiermee worden drie problemen opgelost: metadata wordt correct ingevuld, vermindert kans op menselijke fouten en de gebruiker verliest geen tijd met het invullen van metadata.

De classificatie gebeurt door een 'artificieel intelligentie’-model toe te passen zodat de juiste kenmerken voor documenten wordt toegekend. Dit was de opdracht in deze stage. Het 'artificiële intelligentie’-model (AI-model) dat gebruikt wordt om de classificatie te maken is Bidirectional Encoder Representations from Transformers (BERT) en is open source. Dit model is recent ontwikkeld (augustus 2018) en heeft de beste score behaald in testen om contextuele informatie te begrijpen. Bovendien is BERT voorgetraind in verschillende talen, waaronder het Nederlands. Wat in dit model echter ontbreekt, is een manier om een klasse toe te kennen. Hiervoor is in Python een classifier geschreven. Dit geheel is op een dataset getraind zodat het documenten kan classificeren.

Toegang tot een krachtige computer is niet ter beschikking. Daarom wordt Azure Machine Learning gebruikt om het model aan te spreken en te trainen. Azure Machine Learning is één van de services van Azure, een clouddienst van Microsoft.

Dit onderzoek behandelde voornamelijk de vergelijking tussen het BERT-model en het LDA-model (Latent Dirichlet Allocation). Deze modellen zijn met dezelfde dataset getraind en de resultaten worden vergeleken om te achterhalen welke als beste oplossing voor de problematiek kan worden gebruikt.

Full text:
File Size Type Checksum  
eindwerk Pupinin.pdf 2 MB PDF MD5 Open file

Dit eindwerk werd 141 keer bekeken.
Translate to English (Google translate)
 

Show record details

Show ETD - Dublin Core

If you want to cite this thesis in your own thesis, paper, or report, use this format (APA):

Pupinin, S. (2019). Kunnen documenten geclassificeerd worden met 'machine learning’- principes ?. Unpublished thesis, Hogeschool PXL, PXL-Digital.
Retrieved from http://doks.pxl.be/doks/do/record/Get?dispatch=view&recordId=SEtd8ab2a8216cd3194f016cd32ec7bc0771.




©2004-2008 - Hogeschool PXL - webmaster - Contact - Disclaimer