DoKS @ Hogeschool PXL > Kunnen documenten geclassificeerd worden met 'machine learning’- principes ?

	Auteurs
	Departementen
	Help
	Jaren


	Meest populaire eindwerken: 2014 2015 2016 2017 2018 2019

1,572 eindwerken on-line.

Doks PHL
Doks XIOS

Home > Departementen

ETD

Titel :

Kunnen documenten geclassificeerd worden met 'machine learning’- principes ?

Auteur :

Pupinin, Sergey

Samenvatting :

Cegeka ondersteunt haar klanten met de Office 365-clouddienst die ontwikkeld is door Microsoft. De dienst wordt veel gebruikt bij bedrijven, scholen en particulieren. SharePoint Online is een belangrijk component van Office 365 en laat toe om documenten, informatie te synchroniseren om aldus een efficiënte samenwerking tussen werknemers van de klanten van Cegeka te bewerkstellingen. Een probleem ontstaat echter wanneer veel data in documenten wordt bewaard. Voor elk document moet dan metadata ingevuld worden zodat het sneller kan gevonden worden in SharePoint. Er is tot op heden geen systeem ontwikkeld dat deze handeling kan automatiseren.

Voor dit probleem wenst Cegeka een oplossing te bedenken. De voorgestelde oplossing is dat alle documenten automatisch worden gescand op inhoud wanneer ze worden ingegeven in het SharePoint-platform en dat een kenmerk of een "klasse" wordt toegekend die in de gegevens van het document wordt opgeslagen. Hiermee worden drie problemen opgelost: metadata wordt correct ingevuld, vermindert kans op menselijke fouten en de gebruiker verliest geen tijd met het invullen van metadata.

De classificatie gebeurt door een 'artificieel intelligentie’-model toe te passen zodat de juiste kenmerken voor documenten wordt toegekend. Dit was de opdracht in deze stage. Het 'artificiële intelligentie’-model (AI-model) dat gebruikt wordt om de classificatie te maken is Bidirectional Encoder Representations from Transformers (BERT) en is open source. Dit model is recent ontwikkeld (augustus 2018) en heeft de beste score behaald in testen om contextuele informatie te begrijpen. Bovendien is BERT voorgetraind in verschillende talen, waaronder het Nederlands. Wat in dit model echter ontbreekt, is een manier om een klasse toe te kennen. Hiervoor is in Python een classifier geschreven. Dit geheel is op een dataset getraind zodat het documenten kan classificeren.

Toegang tot een krachtige computer is niet ter beschikking. Daarom wordt Azure Machine Learning gebruikt om het model aan te spreken en te trainen. Azure Machine Learning is één van de services van Azure, een clouddienst van Microsoft.

Dit onderzoek behandelde voornamelijk de vergelijking tussen het BERT-model en het LDA-model (Latent Dirichlet Allocation). Deze modellen zijn met dezelfde dataset getraind en de resultaten worden vergeleken om te achterhalen welke als beste oplossing voor de problematiek kan worden gebruikt.

Uitgever :

Hogeschool PXL

Publicatiedatum :

2019

Tekst :

Bestand	Grootte	Type	Controle
eindwerk Pupinin.pdf	2 MB	PDF	MD5	Bestand openen

Bijlagen :

Bestand	Grootte	Type	Controle

Type :

Bachelorproef

Taal :

Nederlands

Rechten :

Naam van de graad :

Professionele bachelor in de toegepaste informatica

Niveau :

Bachelor

Optie :

Applicatieontwikkeling

Instituut :

Hogeschool PXL

Departement :

PXL-Digital

Prijzen :

Status :

PUBLISHED

Persistent Identifier :

Aangemaakt :

27/08/2019 15:05

Laatst gewijzigd :

29/09/2019 23:23

Collecties :

PXL-IT

2019

11601050

Aantal keer bekeken :

4431

Aantal keer gedownload :

924

Eenvoudige weergave