• Privacywetgeving
    Het is bij Helpmij.nl niet toegestaan om persoonsgegevens in een voorbeeld te plaatsen. Alle voorbeelden die persoonsgegevens bevatten zullen zonder opgaaf van reden verwijderd worden. In de vraag zal specifiek vermeld moeten worden dat het om fictieve namen gaat.

Meest voorkomende combinatie van gegevens

Status
Niet open voor verdere reacties.

Patricia8091

Gebruiker
Lid geworden
24 jun 2022
Berichten
10
Ik heb een dataset bestaande uit: verschillende symptomen i.c.m. een uniek persoonsnummer(ID). 1 persoon heeft vrijwel altijd meerdere symptomen. Ik wil een analyse maken van de meest voorkomende combinatie van symptomen. Het gaat om een vrij grote dataset (ong. 25000 rijen) dus ik ben opzoek naar een handige manier om dit te kunnen onderzoeken, hopelijk met Excel.

In de bijlage een verkort voorbeeld van de data.
De data wordt geëxporteerd uit een systeem waardoor ieder symptoom van de persoon in een nieuwe rij staat. Niet elk persoon heeft het zelfde aantal symptomen.

Ik wil dus graag iets kunnen zeggen over welke symptomen het meest in combinatie voor komen, heeft iemand hiervoor een idee? Alvast bedankt voor het meedenken!

(De ID-nummers kunnen niet herleid worden, de data in voorbeeld bestand is fictief)
 

Bijlagen

  • Data symptomen.xlsx
    18,7 KB · Weergaven: 41
zoiets als in het eerste tabblad?
 

Bijlagen

  • Data symptomen (hs).xlsx
    30,8 KB · Weergaven: 25
zoiets als in het eerste tabblad?
Nee, helaas is dit niet wat ik zoek.

Ik wil iets kunnen zeggen over hoe vaak de combinatie van 2 of meer symptomen voorkomt. Dus bijvoorbeeld: 10 personen hebben zowel het symptoom Hart als het symptoom Nier (+ eventuele andere symptomen).
Dit zou ik natuurlijk kunnen doen door Excel te laten tellen hoeveel voldoen aan waarde Hart Én Nier, maar dit worden veel berekeningen voor alle mogelijke combinaties.
(In mijn echte databestand zijn er ongeveer 150 symptomen, dit geeft dan 150*149=22350 mogelijke combinaties van 2 symptomen.)
 
Patricia, welke excel gebruik jij?
en hoeveel regels bevat jouw tabel in werkelijkheid ?
 
Laatst bewerkt:
misschien bedoel je ongeveer deze tabel: (het is een eenvoudig opzetje om te zien of je zoiets bedoeld)
 

Bijlagen

  • Data symptomen sp .xlsm
    39,6 KB · Weergaven: 13
misschien bedoel je ongeveer deze tabel: (het is een eenvoudig opzetje om te zien of je zoiets bedoeld)

Patricia, welke excel gebruik jij?
en hoeveel regels bevat jouw tabel in werkelijkheid ?

Dank Sylvester, met deze info zou ik wel wat kunnen.
Is er hiermee ook de mogelijkheid om de combinatie van 3 factoren te bekijken?

De volledige tabel bestaat uit 5 jaar aan data, 24130 regels. Dit zijn 7462 unieke personen, met allemaal meerdere symptomen. In totaal 189 unieke symptomen.

Vanuit het systeem wordt Excel 2013 gebruikt, maar mocht het nodig zijn kan ook met Excel 365 gewerkt worden.
 
Zo tel je alle combinaties van 2 symptomen:

Code:
Sub M_snb()
  sn = Sheet1.Cells(1).CurrentRegion
  Sheet1.Cells(1).CurrentRegion.Columns(5).AdvancedFilter 2, , Sheet1.Cells(1, 20), True
  Sheet1.Cells(1, 20).CurrentRegion.Sort Sheet1.Cells(1, 20),1 , , , , , , 1
  sp = Sheet1.Cells(1, 20).CurrentRegion
   
  With CreateObject("scripting.dictionary")
    For j = 2 To UBound(sn)
      .Item(sn(j, 3)) = .Item(sn(j, 3)) & sn(j, 5) & "_"
    Next
   
    For j = 2 To UBound(sp) - 1
      For jj = j + 1 To UBound(sp)
        st = Filter(Filter(.items, sp(j, 1)), sp(jj, 1))
        If UBound(st) > 0 Then c00 = c00 & vbLf & sp(j, 1) & "_" & sp(jj, 1) & ": " & UBound(st) + 1
      Next
    Next
  End With
   
  MsgBox c00
End Sub
 
Laatst bewerkt:
Patricia, hoe ga je dat bedoelen?
bedoel je de 3 meest voorkomende symptomen steeds bij alle 189 symptomen ?
of.....?
 
Patricia, hoe ga je dat bedoelen?
bedoel je de 3 meest voorkomende symptomen steeds bij alle 189 symptomen ?
of.....?

Wat ik nu de door jou gemaakte tabel kan aflezen is: 6 personen hebben (naast alle andere symptomen die ze hebben) zowel het symptoom Lever als het symptoom Buiten. Een tabel het aantal combinatie van 2 symptomen, waaruit ik kan halen wat dan de meest voorkomende is.
Maar mocht het mogelijk zijn zou ik ook graag iets kunnen zeggen over een groep personen die 3 overeenkomstige symptomen hebben of zelfs 4, gezien de meeste personen 4 symptomen hebben.
In andere woorden: 6 personen hebben een combinatie van symptomen; Lever, Buiten & Hart

Ps. Ik ben al blij met de hulp die je mij hebt gegeven om een overzicht van de combi van 2 symptomen in beeld te brengen, dus als meer niet gemakkelijk mogelijk is ben ik al tevreden!
 
Begin met de code gewoon te laten lopen.
Als je hem begrijpt zul je zien dat die eenvoudig uit te breiden is naar meer symptomen.
Het aantal personen met 3 overeenkomsitge symptomen is natuurlijk kleiner dan 2 overeenkomsitge sysmptomen. dta geldt temeer voor 4 overeenkomsite symptomen.
De meestvoorkomende combinatie (zie de titel van deze draad) is dus altijd een combinatie van 2 symptomen.
 
Laatst bewerkt:
Ik ben niet zo'n Exceller. Voor dit soort complexere zaken neig ik al snel naar Access. Daar kan je naar mijn mening veel meer kanten mee op. Het bestand heb ik daarom omgezet in een database (zie plaatje voor de structuur). Met een query kan ik het bijgevoegde overzicht ophoesten. Ik heb het geëxporteerd naar Excel, maar dat is niet noodzakelijk.

Wat ik me nog wel afvraag is wat te doen als een patient meerdere keren voorkomt (op verschillende datums, dus meerdere "consulten" per patient)? Moet je dan alle datums per patient bij elkaar nemen of moet je combinaties per datum maken? In het voorbeeldbestand maakt het niet uit. Ik kan me voorstellen dat het in het echt wel uitmaakt.
 

Bijlagen

  • symptomen.jpg
    symptomen.jpg
    18,7 KB · Weergaven: 18
  • TellingCombinaties.xlsx
    9,3 KB · Weergaven: 25
zie voorbeeldje
 

Bijlagen

  • Data symptomen sp .xlsm
    50,9 KB · Weergaven: 23
Ik ben niet zo'n Exceller. Voor dit soort complexere zaken neig ik al snel naar Access.
Wat ik me nog wel afvraag is wat te doen als een patient meerdere keren voorkomt (op verschillende datums, dus meerdere "consulten" per patient)?

Dank Peter voor de reactie, ik zelf werk dan juist weer niet vaak met Access. Maar dat is voor dit probleem misschien een mooie kans om daar wat meer mee te doen.
Wat betreft de zelfde persoon op verschillende datums gaat bij dit onderzoek niet voorkomen. Weet dat dit misschien een beetje raar klinkt maar de personen bevinden zich niet in een ziekenhuis gerelateerde omgeving.
 
@XPS

Vergelijk jouw resultaten eens met die van anderen en het verwachte resultaat zoals beschreven in #9
 
Cow18 dank voor het meedenken. Maar met deze manier wordt het in het werkelijke databestand een zeer grote lijst gezien er 189 symptomen zijn die allemaal gecombineerd kunnen voor komen
Dat was toch de vraag, een combinatie van alle gebruikte symptomen en daarvan de vaakst voorkomende tonen.
Deze maakt dus een lijstje en dat gaat lekker goed tot ongeveer 1.048.000 combinaties. Vermoedelijk kom je zelfs nooit in de buurt van dat getal, op geen kilometer.
Die krijg je netjes gesorteerd van de meest naar de minst voorkomende.
En dan wis je die combinaties met bijvoorbeeld minder dan 10 patienten.
Desnoods mag je me die lijst even sturen via PM, dan kijk ik het na of het werkt met je data.

PS. een niet gebruikte combinatie wordt niet aangemaakt !!!
 
Laatst bewerkt:
Dat was toch de vraag, een combinatie van alle gebruikte symptomen en daarvan de vaakst voorkomende tonen.
PS. een niet gebruikte combinatie wordt niet aangemaakt !!!

Excuus, had vanochtend niet helemaal goed door je oplossing heen gekeken. Dit gaat inderdaad wel lukken met het volledige data bestand en geeft zeker een gewenst resultaat. Bedankt daarvoor!
 
Dank allen voor de reacties en het meedenken!
Met alle aangeboden oplossingen ga ik even verder spelen met het volledige dataset, voor nu zal ik de vraag op opgelost zetten. Ga ervanuit dat ik met de door jullie geboden hulp het gewenste resultaat ga halen

Groet, Patricia
 
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan