• Privacywetgeving
    Het is bij Helpmij.nl niet toegestaan om persoonsgegevens in een voorbeeld te plaatsen. Alle voorbeelden die persoonsgegevens bevatten zullen zonder opgaaf van reden verwijderd worden. In de vraag zal specifiek vermeld moeten worden dat het om fictieve namen gaat.

Tabel uit een PDF-bestand overzetten naar Excel en hulp bij het analyseren

Status
Niet open voor verdere reacties.

derksuh

Gebruiker
Lid geworden
22 mrt 2017
Berichten
19
Beste allen,

Ik heb en zeer moeilijke en volgens mij uitgebreide vraag. Voor een onderzoek wil ik een tabel van het CBS (PDF-bestand) overnemen in Excel om vervolgens een analyse uit te voeren. Iemand enig idee hoe ik dit voor elkaar krijg? Het betreft bijlage bestand hoofdstuk 4 (blz. 32 tm 41). Mocht het bestand in de bijlage niet werken (krijg zelf een foutmelding), zie website: https://www.cbs.nl/nl-nl/publicatie/2015/52/demografische-kerncijfers-per-gemeente-2015

Daarna de vraag of er een mogelijkheid bestaat om alle gemeenten te categoriseren op basis van omgevingsadressendichtheid (categorie 1 < 500) (categorie 2 tussen 500 en 600) (categorie 3 is tussen de 600 en 700) (categorie 4 is tussen de 700 en 800) (categorie 5 is tussen de 800 en 900) (categorie 6 is tussen de 900 en 1000) (categorie 7 is > 1000).

Vervolgens binnen deze 7 categorieën de gemeente met het meeste oppervlakte in km2, waaronder land bovenaan te plaatsen en de gemeente met de minste oppervlakte in km2 onderaan te plaatsen. In de bijlage een voorbeeld zoals ik het bedoel Bekijk bijlage Voorbeeld output 2.0.xlsx. De gebruikte data per gemeente is even fictief verzonnen!

Het is een hele opgave en ik hoop dat iemand mij verder kan helpen!!

Met vriendelijke groet,
Derksuh
 
Het minste werk: stuur een email of je van de auteur(s?) het Excel bestand kunt krijgen....
Als ze het niet willen geven.
Copyen en pasten is niet makkelijk, ook niet met paste special. Alles wordt achter elkaar gezet, wel met een spatie dat zou een escape kunnen zijn.
Selecteer met de muis alleen de cijfers van de tabel zelf (niet de headers) en copy dat naar excel met past special.
Sla dan het excel bestand op als txt of als csv bestand.
De opmaak en headers,.... later zorg
Doe dat voor elke pagina die je wilt hebben.
Klaar?
Open een nieuw excel bestand en importeer de 1e txt/csv als databestand.
Zorg dat je muis in cel A1 staat.
Kies spatie als "scheidingsteken".
En importeer het.

Nu verhuis je met de muis naar beneden en laat een paar rijen vrij.

Importeer vanaf dat punt exact op dezelfde manier de 2e pagina..
Etcetra tot je alles gedaan hebt.

Dus nu heb je alle dat binnen en maak je de koppen van de kolommen in orde ne de opmaak als dat nodig is.
Loop de tabel nog even na of alles op zijn plaats gekomen is (er kan immers een type fout in de tabel zitten).
Klaar... opslaan als je dat nog niet gedaan had...

En nu verder wat je er mee wil doen...
succes.
 
Beste Route99,

Bedankt voor de uitgebreide toelichting. Ik heb het CBS inderdaad een E-mail gestuurd maar helaas nog zonder resultaat. Hopelijk reageren ze snel! Jouw methode heb ik uitgeprobeerd alleen krijg ik (helaas) onbetrouwbare waardes. Dit komt bijvoorbeeld doordat de gemeente Ten Boer niet aan elkaar is geschreven waardoor kolom 1 Ten is en kolom 2 Boer. Appingedam gaat daarentegen een stuk beter! Helaas neemt hij de spatie bij 5 850 ook mee waardoor kolom 1 5 wordt en kolom 2 850. Het is inderdaad onbegonnen werk..
 
Tja, het hangt idd af van hoeveel je corrigeren moet.
Helaas neemt hij de spatie bij 5 850 ook mee waardoor kolom 1 5 wordt en kolom 2 850
Op welke pagina en bij welke plaats stond dit?
 
Selecteer met de muis alleen de cijfers van de tabel zelf (niet de headers) en copy dat naar excel met past special.

Probeer heet eerst eens naar WORD te kopiëren en daarna naar excel.
 
Tja, het hangt idd af van hoeveel je corrigeren moet.

Op welke pagina en bij welke plaats stond dit?

Pagina 31: code 0003 Appingedam onder woningvoorraad of omgevingsadressendichtheid. Bij die getallen staat een spatie omdat het een duizendste is waardoor het in Excel twee aparte kolommen zijn. Ander voorbeeld is pagina 31: code 0009 Ten Boer. Ten kolom 1 en Boer kolom 2. Het heeft zijn doorwerking op het gehele document. Hadden ze nu maar met "." gewerkt om duizendsten aan te geven..
 
Laatst bewerkt:
Zou in principe niet uit moeten maken, maar is wel het proberen waard.
 
Eerst kopiëren naar word en dan inladen in Excel (volgens de manier van route99) zorgt helaas niet voor een verbetering. Ik wacht anders de mail van het CBS wel even af en bij verkrijgen van de data kom ik wel weer terug voor het tweede deel van mijn vraag. Mocht ik de data niet ontvangen dan moet ik een andere manier zoeken.
 
Laatst bewerkt:
Helaas geen verrassing dus.
Heb het nog even als txt in Calc van Libre Office geprobeerd, idem plus dat die de voorloop nullen van bijv 005 weglaat.
In Writer van LO idem als Word, helaas.
Je zou na moeten gaan of er nog iets slims in de tabel te vinden is waardoor de afwijkingen via een macro herkend/gerepareerd kunnen worden...
 
Bedankt voor alle hulp! Inderdaad route99.. Als hij nou een tab zou herkennen tussen de kolommen dan was het probleem zo opgelost! Ik wacht eerst het resultaat van het CBS af. Hopelijk kunnen ze mij dit gewoon toesturen :)
 
Er bestaan programma's die dat kunnen PDF2XL is zo eentje,in bijlage heb ik dat even voor jou gedaan, hoop dat je er iets aan hebt
 

Bijlagen

Deze doet het ook. Hij zet de verschillende tabellen op verschillende tabbladen:
https://smallpdf.com/pdf-to-excel

Er bestaan programma's die dat kunnen PDF2XL is zo eentje,in bijlage heb ik dat even voor jou gedaan, hoop dat je er iets aan hebt

JeanPaul en Edmoor hartelijk dank voor jullie reacties! :thumb: Dit is precies wat ik nodig had. Fantastisch programma zeg! Ben de dataset nu aan het ordenen en hoop morgenvroeg de categorieën te kunnen maken. Mocht het niet lukken dan zal ik jullie nogmaals om hulp vragen :P
 
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan