• Privacywetgeving
    Het is bij Helpmij.nl niet toegestaan om persoonsgegevens in een voorbeeld te plaatsen. Alle voorbeelden die persoonsgegevens bevatten zullen zonder opgaaf van reden verwijderd worden. In de vraag zal specifiek vermeld moeten worden dat het om fictieve namen gaat.

CSV File van 880 MB

  • Onderwerp starter Onderwerp starter rikik
  • Startdatum Startdatum
Status
Niet open voor verdere reacties.

rikik

Gebruiker
Lid geworden
14 feb 2017
Berichten
125
Hey Hey,

Ik heb een CSV bestand van 880 MB welke ik heb opgeladen in PowerQuery.
Het bestand bestaat uit 4 kolommen met 17 000 000 rijen.

Nu had ik graag een selectie gemaakt.
Dit doormiddel van "Sort By" in PowerQuery.

Spijtg genoeg krijg ik de foutmelding dat er niet voldoende geheugen is.

Heeft iemand hier ervaring mee?

Ik heb al gezocht, waarbij er wordt aangeraden om gebruik te maken van een SQL server.
Spijtg genoeg heb ik hier geen ervaring in.

Iemand tips? :)
 
Excel kan maximaal 1.048.576 regels in een werkblad bevatten.
Die 17000000 zijn er dus veel te veel.
 
Je kan eens proberen (als je het programma hebt) om de csv eerst in Access te zetten. Van daaruit kun je dan selecties maken die je wél in Excel kan inlezen. Of een andere database. SQL server is bepaald niet geschikt voor beginners :).
 
voor de TS :

  • zijn dit niet-vertrouwelijke gegevens ?
  • is het mogelijk om je selectie eenvoudig te beschrijven ?

Indien 2x ja dan moeten we misschien afspreken hoe je het bestand naar bij mij krijgt en wil ik dat wel voor je uitvoeren...
 
Nu had ik graag een selectie gemaakt. Dit doormiddel van "Sort By" in PowerQuery.
Dit is, wellicht terzijde, geen techniek waarmee je een filter maakt. Filteren is het verminderen van het aantal records door het maken van (de naam zegt het al) een selectie. Sorteren doet niets anders dan de volgorde van de gegevens veranderen. Je blijft dan dus nog steeds 17M records inlezen, wat dus, zoals al gezegd is, niet kan. Als je in een selectie het aantal kan terugbrengen naar onder 1M, dan zou het misschien wél kunnen. Ik weet niet wat de limieten zijn van PowerQuery.
 
PowerQuery is een tool op Excel, dus heeft dezelfde beperkingen als Excel.
 
voor de TS :

  • zijn dit niet-vertrouwelijke gegevens ?
  • is het mogelijk om je selectie eenvoudig te beschrijven ?

Indien 2x ja dan moeten we misschien afspreken hoe je het bestand naar bij mij krijgt en wil ik dat wel voor je uitvoeren...

Hey DigiCafee, blij om te horen. 2x ja :)
Alle informatie is publiekelijk beschikbaar...
Ik heb een lijst met alle BTW nummers van alle Belgische ondernemingen verbonden met hun NACEBEL code.
Graag had ik een selectie gemaakt van alle BTW nummers die uitsluitend de NACEBEL code 49410 hebben.

Met welk progamma zou je dit doen?

Alvast bedankt
 
Nee, niet echt, dat is een analyse-tool ... ik zou het doen met Access en dat heb ik hier draaien. Heb hier zelfs een SQL Server draaien dus dat moet lukken.
Als je het ziet zitten mag je het bestand ergens plaatsen in de cloud (Onedrive, Google Drive, Dropbox, WeTransfer, ...) en hier de link delen om het te downloaden.
 
Laatst bewerkt:
Mij lijkt dit voldoende:
Wijzig "G:\OF\0_catalogi.csv" in de fullname van het bestand.

Code:
Sub M_snb()
    Open "G:\OF\0_catalogi.csv" For Input As #1
       Do Until EOF(1)
          Line Input #1, c00
          If InStr(c00, "49410") Then c01 = c01 & vbLf & c00
       Loop
    Close
    
    MsgBox c01
End Sub
 
Dat denk ik niet ... het zal al fout lopen bij het 'Open...' statement.
De beperking van Excel zal ook in VBA er immers voor zorgen dat slechts een deeltje van het bestand wordt ingelezen.
 
De beperkingen van Excel zijn van een totaal andere orde dan van VBA (dat je bijv. ook vanuit Access kunt gebruiken).
In mijn voorbeeldcode wordt dan ook helemaal geen gebruik gemaakt van de Excel-VBA-bibliotheek.
 
Laatst bewerkt:
49.410 = Goederenvervoer over de weg, m.u.v. verhuisbedrijven ?
filteren bij de bron
 
Laatst bewerkt:
Nee, niet echt, dat is een analyse-tool ... ik zou het doen met Access en dat heb ik hier draaien. Heb hier zelfs een SQL Server draaien dus dat moet lukken.
Als je het ziet zitten mag je het bestand ergens plaatsen in de cloud (Onedrive, Google Drive, Dropbox, WeTransfer, ...) en hier de link delen om het te downloaden.


Hey DigiCafee, zeer vriendelijk van je. :D
Onderstaande vind je de link.

Zou het mogelijk zijn om een selectie te maken op het aantal NACEBEL codes?
Ik zou namelijk op zoek zijn naar alle Entity Numbers die specifiek slechts één NACEBEL Code hebben.
Vervolgens zou ik op zoek zijn naar de Entity numbers met slechts één NACEBEL code waarvan die NACEBEL code 49410 is.

Als ik het goed versta is Access dus het programma dat ik moet gebruiken? :thumb:
Dikke merci :d

https://drive.google.com/file/d/1RnO6DHkOLoIU2TF2FOLD_SMtuvbAwfJJ/view?usp=sharing
 
49.410 = Goederenvervoer over de weg, m.u.v. verhuisbedrijven ?
filteren bij de bron

Indeed :)
Maar ik zoek alle ondernemingen die slechts één nacebel code hebben.
Dus ondernemingen die uitsluitend transport doen.

Volgens mij moet ik éérst een selectie maken op alle ondernemingen die slechts één nacebel code hebben.
Vervolgens een selectie maken van deze ondernemingen met code 49410.
 
Heeft iemand nog de tijd gehad hier naar te kijken?
Dank bij voorbaat.
 
Ik kan het bestand daar niet weghalen.
Als jij het hebt, plaats het dan via Wetranster met een link in deze draad.
 
Laatst bewerkt:
Probeer dit eens (heb zelf geen ervaring tot nu toe):
https://docs.microsoft.com/es-es/ar...iles-with-more-than-a-million-rows-into-excel

of:

https://en.wikipedia.org/wiki/List_of_spreadsheet_software
Program Rows per sheet Operating system
Gnumeric 16,777,216 Linux (heb de portable versie van Windows gebruikt maar die kan hem niet importeren)
Pyspread ~80 000 000 (limited by sum of row heights Linux/Windows?

Microsoft Excel 2007, or later versions 1,048,576 Windows referentie
 
Laatst bewerkt:
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan