About DoKS      NL  |  EN Zoek: Geavanceerd Zoeken
  Deel van een woord (bv. tele*)    Exacte woordgroep (bv. "draadloze communicatie")
 
Home
folder Auteurs
folder Departementen
folder Help
folder Jaren
 
Meest populaire eindwerken: 2014 2015 2016 2017 2018 2019


1,572 eindwerken on-line.



Doks PHL
Doks XIOS



Open Archives Initiative
Home  >  Departementen
ETD
Titel : Kunnen documenten geclassificeerd worden met 'machine learning’- principes ?
Auteur :
Pupinin, Sergey
Samenvatting : Cegeka ondersteunt haar klanten met de Office 365-clouddienst die ontwikkeld is door Microsoft. De dienst wordt veel gebruikt bij bedrijven, scholen en particulieren. SharePoint Online is een belangrijk component van Office 365 en laat toe om documenten, informatie te synchroniseren om aldus een efficiënte samenwerking tussen werknemers van de klanten van Cegeka te bewerkstellingen. Een probleem ontstaat echter wanneer veel data in documenten wordt bewaard. Voor elk document moet dan metadata ingevuld worden zodat het sneller kan gevonden worden in SharePoint. Er is tot op heden geen systeem ontwikkeld dat deze handeling kan automatiseren.

Voor dit probleem wenst Cegeka een oplossing te bedenken. De voorgestelde oplossing is dat alle documenten automatisch worden gescand op inhoud wanneer ze worden ingegeven in het SharePoint-platform en dat een kenmerk of een "klasse" wordt toegekend die in de gegevens van het document wordt opgeslagen. Hiermee worden drie problemen opgelost: metadata wordt correct ingevuld, vermindert kans op menselijke fouten en de gebruiker verliest geen tijd met het invullen van metadata.

De classificatie gebeurt door een 'artificieel intelligentie’-model toe te passen zodat de juiste kenmerken voor documenten wordt toegekend. Dit was de opdracht in deze stage. Het 'artificiële intelligentie’-model (AI-model) dat gebruikt wordt om de classificatie te maken is Bidirectional Encoder Representations from Transformers (BERT) en is open source. Dit model is recent ontwikkeld (augustus 2018) en heeft de beste score behaald in testen om contextuele informatie te begrijpen. Bovendien is BERT voorgetraind in verschillende talen, waaronder het Nederlands. Wat in dit model echter ontbreekt, is een manier om een klasse toe te kennen. Hiervoor is in Python een classifier geschreven. Dit geheel is op een dataset getraind zodat het documenten kan classificeren.

Toegang tot een krachtige computer is niet ter beschikking. Daarom wordt Azure Machine Learning gebruikt om het model aan te spreken en te trainen. Azure Machine Learning is één van de services van Azure, een clouddienst van Microsoft.

Dit onderzoek behandelde voornamelijk de vergelijking tussen het BERT-model en het LDA-model (Latent Dirichlet Allocation). Deze modellen zijn met dezelfde dataset getraind en de resultaten worden vergeleken om te achterhalen welke als beste oplossing voor de problematiek kan worden gebruikt.
Uitgever : Hogeschool PXL
Publicatiedatum : 2019
Tekst :
Bestand Grootte Type Controle  
eindwerk Pupinin.pdf 2 MB PDF MD5 Bestand openen
Bijlagen :
Bestand Grootte Type Controle  
Type : Bachelorproef
Taal :
Nederlands
Rechten : All rights reserved
Naam van de graad : Professionele bachelor in de toegepaste informatica
Niveau : Bachelor
Optie : Applicatieontwikkeling
Instituut : Hogeschool PXL
Departement : PXL-Digital
Prijzen :
Status : PUBLISHED
Persistent Identifier :
Aangemaakt : 27/08/2019 15:05
Laatst gewijzigd : 29/09/2019 23:23
Collecties :
PXL-IT
2019
11601050
Aantal keer bekeken : 4431
Aantal keer gedownload : 924
 
 

Eenvoudige weergave




©2004-2008 - Hogeschool PXL - webmaster - Contact - Disclaimer