Verschil tussen beslisboom en willekeurig bos

Inhoudsopgave:

Anonim

De grootste verschil tussen beslisboom en willekeurig bos is dat een beslissingsboom is een grafiek die een vertakkingsmethode gebruikt om elke mogelijke uitkomst van een beslissing te illustreren, terwijl een willekeurig bos een reeks beslissingsbomen is die de uiteindelijke uitkomst geeft op basis van de output van al zijn beslissingsbomen.

Machine learning is een toepassing van kunstmatige intelligentie, waarmee een systeem kan leren en verbeteren op basis van ervaringen uit het verleden. Beslisboom en willekeurig bos zijn twee technieken in machine learning. Een beslisboom brengt de mogelijke uitkomsten van een reeks gerelateerde keuzes in kaart. Het is populair omdat het eenvoudig en gemakkelijker te begrijpen is. Wanneer de dataset veel groter wordt, is een enkele beslisboom niet voldoende om de voorspelling te vinden. Een willekeurig bos, dat een verzameling beslisbomen is, is een alternatief voor dit probleem. De output van het willekeurige forest is gebaseerd op de output van al zijn beslissingsbomen.

Beslisboom, machinaal leren, willekeurig bos

Wat is beslisboom?

Een beslisboom is een boomvormdiagram dat wordt gebruikt om een ​​handelwijze te bepalen. Elke tak van de boom vertegenwoordigt een mogelijke beslissing, gebeurtenis of reactie.

Er zijn verschillende termen verbonden aan een beslisboom. Entropie is het meten van onvoorspelbaarheid in de dataset. Na het splitsen van de dataset neemt het entropieniveau af naarmate de onvoorspelbaarheid afneemt. Informatiewinst is de afname van de entropie na het spugen van de dataset. Het is belangrijk om de data zo te splitsen dat de informatiewinst groter wordt. De uiteindelijke beslissingen of de classificaties worden de bladknooppunten genoemd. Het bovenste of het hoofdknooppunt wordt het hoofdknooppunt genoemd. De dataset moet worden gesplitst totdat de uiteindelijke entropie nul wordt.

Een eenvoudige beslisboom ziet er als volgt uit.

Figuur 1: Beslisboom

Bovenstaande beslisboom classificeert een reeks vruchten. Er zijn 4 druiven, 2 appels en 2 sinaasappels. Als de diameter kleiner is dan 5, worden de druiven aan de ene kant gecategoriseerd, terwijl sinaasappels en appels aan de andere kant. Druiven kunnen niet verder worden geclassificeerd omdat het geen entropie heeft. Bij het categoriseren op basis van de kleur, d.w.z. of het fruit rood is of niet, worden appels aan de ene kant geclassificeerd, terwijl sinaasappels aan de andere kant worden geclassificeerd. Zo classificeert deze beslisboom een ​​appel, druif of sinaasappel met 100% nauwkeurigheid.

Over het algemeen is een beslisboom eenvoudig te begrijpen, gemakkelijker te interpreteren en te visualiseren. Het vereist niet veel gegevensvoorbereiding. Het kan zowel numerieke als categorische gegevens verwerken. Aan de andere kant kan de ruis in gegevens overfitting veroorzaken. Bovendien kan het model door kleine variaties ook instabiel worden.

Wat is een willekeurig bos?

Willekeurig bos is een methode die werkt door meerdere beslissingsbomen te construeren tijdens de trainingsfase. De beslissingen van de meerderheid van de bomen zijn de uiteindelijke beslissing van het willekeurige bos. Een eenvoudig voorbeeld is als volgt.

Stel dat er een set fruit is (kersen, appels en sinaasappels). Hieronder volgen de drie beslisbomen die deze drie fruitsoorten categoriseren.

Figuur 2: Beslisboom 1

Figuur 3: Beslisboom 2

Figuur 4: Beslisboom 3

Een nieuwe vrucht met een diameter van 3 wordt aan het model gegeven. Deze vrucht is oranje van kleur en groeit in de zomer. De eerste beslisboom zal deze als een sinaasappel categoriseren. De tweede beslisboom categoriseert het als een kers, terwijl de derde beslisboom het als een sinaasappel categoriseert. Bij het beschouwen van alle drie de bomen zijn er twee uitgangen voor oranje. Daarom is de uiteindelijke uitvoer van het willekeurige bos een sinaasappel.

Over het algemeen biedt het willekeurige forest nauwkeurige resultaten op een grotere dataset. Het vermindert ook het risico op overfitting.

Verschil tussen beslisboom en willekeurig bos

Definitie

Een beslissingsboom is een beslissingsondersteunend hulpmiddel dat gebruikmaakt van een boomachtige grafiek of model van beslissingen en hun mogelijke gevolgen, waaronder toevallige uitkomsten van gebeurtenissen, kosten van hulpbronnen en nut. Willekeurige bossen is een ensemble-leermethode die werkt door een groot aantal beslissingsbomen te construeren tijdens de trainingstijd en de klas uit te voeren afhankelijk van de individuele bomen.

Overfitting

Er is een mogelijkheid van overfitting in een beslisboom. Het gebruik van meerdere bomen in het willekeurige bos verkleint de kans op overbeplanting.

Nauwkeurigheid

Een willekeurig bos geeft nauwkeurigere resultaten dan een beslisboom.

Complexiteit

Een beslisboom is eenvoudiger en gemakkelijker te begrijpen, interpreteren en visualiseren dan een willekeurig bos, dat relatief complexer is.

Conclusie

Het verschil tussen beslissingsboom en willekeurig bos is dat een beslissingsboom een ​​grafiek is die een vertakkingsmethode gebruikt om elke mogelijke uitkomst van een beslissing te illustreren, terwijl een willekeurig bos een reeks beslissingsbomen is die de uiteindelijke uitkomst geeft op basis van de output van alle zijn beslisbomen.

Verwijzing:

1. Random Forest Algoritme – Random Forest uitgelegd | Random Forest in Machine Learning, Simplilearn, 12 maart 2018, hier beschikbaar.

Verschil tussen beslisboom en willekeurig bos