• Privacywetgeving
    Het is bij Helpmij.nl niet toegestaan om persoonsgegevens in een voorbeeld te plaatsen. Alle voorbeelden die persoonsgegevens bevatten zullen zonder opgaaf van reden verwijderd worden. In de vraag zal specifiek vermeld moeten worden dat het om fictieve namen gaat.

Winsorizen

Status
Niet open voor verdere reacties.

BastiaanLier

Gebruiker
Lid geworden
10 jun 2010
Berichten
59
Allen,

Voor mijn uiteindelijke dataset heb ik een aantal variabelen die als 'outlier' kunnen worden bestempeld, omdat ze ver buiten de normale verdeling van de data liggen. Nu is het een optie om deze bedrijven in z'n geheel uit de dataset te knikkeren, maar je kunt ook de data winsorizen, dus bijstellen naar een bepaalde percentiel van je data. Nu vroeg ik mij af of excel de 0,5% en 99,5% percentiel van een set variabelen kan geven en tevens of hij die waarden die daarbuiten liggen naar de 1ste of 99e percentiel kan aanpassen, afhankelijk van of ze hier respectievelijk onder of boven liggen.
Wederom benieuwd.
 
Hoi Bastiaan

Het Winsorizen zegt mij niets maar Excel heeft wel de functie Percentiel.

Kan je een klein voorbeeldje geven met data zoals het is en wat het zou moeten worden ?
 
@ Gelens,

Bij deze een voorbeeld van de uiteindelijke data. Graag zou ik per variabele, dus de eerste is CASH over de gehele tijdsperiode de 0,5 en 99,5 percentiel opzoeken en waarden die hieronder of hierboven liggen aanpassen tot aan deze percentiel.
 

Bijlagen

Om te beginnen kun je Excel het 0,05-percentiel laten opzoeken, maar dan mogen er in het betreffende bereik geen foutwaarden staan. In jouw voorbeeldbestand komt echter regelmatig een foutwaarde voor. Kun je ervoor zorgen dat deze foutwaarde niet verschijnt, of moet de oplossing van jouw vraag zo zijn dat deze foutwaarden worden genegeerd?
 
Het voorbeeld is afkomstig van mijn ruwe data. In beginsel gooi ik alle bedrijven eruit die een foutwaarde vertonen in een van de variabelen in een of meer van de jaren. Dus in principe hoeft hier geen rekening mee te worden gehouden!
 
Bastiaan,

De fouten in jouw data komen waarschijnlijk voort uit formule's die meegekopieerd zijn. Je kunt de data beter als waarde kopieeren.

Ik hoop dat ik jouw vraag goed begrepen heb en dus met iets zinvols op de proppen kom. Zie bijlage.
 

Bijlagen

ik heb de functie gewijzigd in if(B2<laagstepercentiel;laagstepercentiel;if(b2>hoogstepercentiel;hoogstepercentiel;b2))
Want als je met if(and( gaat werken, dan pakt hij soms willekeurig de hoogste of laagste waarde... kwam ik ook spelenderwijs achter... In ieder geval bedankt voor de opzet!
 
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan