foxit document niet doorzoekbaar of bewerkbaa. wat kan ik eraan doen?

  • Onderwerp starter Onderwerp starter htil
  • Startdatum Startdatum
Status
Niet open voor verdere reacties.

htil

Terugkerende gebruiker
Lid geworden
2 sep 2009
Berichten
2.256
ik heb vandaag een document gedownload en daar kan ik niks mee.
onder properties staat dat alles is toegestaan, er is dus niets 'secured'.
ik kan niet markeren en zo. Daarna ontdekte ik dat ik ook met de zoekfunctie geen enkel woord kan vinden.
wat is hier aan de hand?
wie helpt mij?
 
Tsja, we weten natuurlijk niet welk pdf document het is, maar stel dat de pagina's tekst als afbeeldingen in de pdf zitten, dan kan er niets gezocht worden en ook geen stukken tekst gemarkeerd (eenvoudigweg omdat het document dan helemaal geen tekst bevat, alleen afbeeldingen...)

Tijs.
 
uitleg is helder! dank! maar hoe vind ik uit of het een afbeelding is?
 
Zou handiger zijn als je de link erbij deed van het document. Maar als dat (privacy-technisch etc.) niet kan:
a. Als de pagina's pure afbeeldingen zijn, dan zou het zo werken (lijkt me) dat als je ergens klikt op de leesbare inhoud van een pagina dat dan die pagina in zijn geheel wordt geselecteerd.
b. De bestandsgrootte zou ook een hint kunnen/moeten geven. Tekst-only PDF's zijn (veel) kleiner dan PDF's met (alleen) plaatjes erin.

[Ik heb alleen thuis Foxit reader op de pc, niet hier op mijn werk-pc.]

Tijs.
 
Laatst bewerkt:
ik kan het hele document bijvoegen, het is een Engelse tekst. Ik weet intussen wel hoe ik met PrScr en paint moet werken, maar zo zal het wel niet moeten denk ik zo..
 
Als je het via PrtScn doet weet je 100% zeker dat het alleen nog maar een plaatje is. Even op geavanceerd antwoorden drukken en dan bestand toevoegen.
 
Pak het pdf document in in .ZIP formaat, en upload het .ZIP bestand via http://www.mijnbestand.nl
Dat levert een link naar die .zip op. Die link hier posten.

Tijs.
 
Dit is precies zoals ik het zei/dacht: Als ik een pagina-inhoud aanklik, dan markeert hij de hele pagina.
Oftewel: Dit is een ingescand boek, zonder dat de pagina's door OCR software zijn gehaald.
Alle pagina's zijn dus plaatjes, geen tekst.

Het enige dat géén plaatjes zijn zijn de kopteksten van de pagina's ["Thompson, C. Bradley, John Adams's Machiavellian Moment , Review of Politics, 57:3
(1995:Summer) p.389"] Dus zoeken op Thompson of Bradley etc. zou wél een vondst moeten opleveren.

Tijs.
 
Laatst bewerkt:
nog even: is er niet een methode om het document te bewerken met OCR-software?
 
Ja, dat zou je kunnen proberen en dan zou (bij goede herkenning van de tekst) het resulterende document (Word, Kladblok etc.) wél doorzoekbaar en citeerbaar moeten zijn.
Door Online OCR gehaald levert dat het Word document op in de bijlage.
[Ga er overigens niet vanuit dat OCR alles direct goed herkent, dus er kunnen herkennings- en formatterings-fouten in staan.]


Tijs.
 

Bijlagen

Laatst bewerkt:
gaat prima toch!
ik kreeg alleen de eerste pagina, klopt dat? ik wil best de rest zelf doen, maar moet je wel even uitleggen hoe dat gaat
 
Dat er nu maar 1 pagina staat zal met de volgende beperking van deze gratis dienst te maken hebben:
OnlineOCR.net is a free service in a "Guest mode" (without registration) that allows you to convert 15 images per hour.
Oftewel: je moet het per pagina/plaatje bij ze uploaden, met een maximum van 15 pagina's/plaatjes per uur.

Een werkmethode:
Kopieer de inhoud van elke pagina afzonderlijk naar het klembord en plak het in je favoriete afbeeldingen editor en sla het plaatje dan op onder een naam.
Doe dit voor elke pagina. Upload elk plaatjes-bestand naar die OCR service (max. 15 per uur), vul de Captcha code in en klik op Recognise.
Dan:
a. Download de gegenereerde uitvoerbestanden
b. óf (slimmer in mijn ogen): kopieer de tekst-versie die dan in een vak wordt weergegeven op de website in 1 nieuw Word- of Kladblok-document, zodat je (langzamerhand) alle pagina's netjes achter elkaar daarin krijgt, en sla dan het Word/Kladblok bestand op.

Herhaal dit voor alle afbeeldingsbestanden die je in het proces hebt aangemaakt.

Tijs.
 
Laatst bewerkt:
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan