login  Naam:   Wachtwoord: 
Registreer je!
 Forum

PDF naar HTML / text

Offline Koen1 - 26/08/2006 21:15
Avatar van Koen1Nieuw lid Om PDF bestandjes doorzoekbaar te maken wilde ik de tekst van het pdf-je converteren naar tekst of html om dit in een database op te kunnen slaan.

Na veel zoeken kom ik toch wel tot de conclusie dat er twee tot drie opties zijn:
:rechts: 1. PDFtoHTML
Dit schijnt een progje te zijn dat PDF bestandjes om kan zetten in HTML. Nu kan ik mijn host vragen dit te installeren, maar ik krijg geen informatie gevonden over hoe ik dit in mijn php script zou moeten aanroepen / gebruiken.
De vraag hierbij is: krijgt iemand hier tutorials van gevonden of heeft iemand er ervaring mee? Om je tijd te besparen: ik heb uren gezocht met diverse zoekmachines, maar omdat er veel van die gasten aan SEO doen kom je constant op dezelfde waardeloze zooi uit.

:rechts: 2. Met fread 
Kelly McKiernan heeft op phpfreaks.com een stukje code geplaatst waarmee bepaalde info van pdf-jes uitgelezen zou moeten kunnen worden. Jammer genoeg is er een groot deel van weggevallen, maar wellicht dat jullie zijn/haar idee beter begrijpen dan ik.
Citaat:
I too couldn't find what you were looking for, so I was forced to roll my own code. It's a bit rough, but you can use it as a basis to get meta information like Title, Version, Creator, etc. The sample below has six things it looks for, just add what you need in that array.

It doesn't always work perfectly but at least it's a starting point. [..code..]


:rechts: de pop mail uitlezen
De laatste mogelijkheid die ik zie is het sturen van mailtjes naar Adobe's online tool: pdf2txt@adobe.com of pdf2html@adobe.com. Vervolgens zou ik dan de pop mail uit moeten lezen en zo verder indexeren.
Hierbij voorzie ik enkele problemen, omdat ik begod niet weet hoe ik mn pop mail kan uitlezen, laat staan toegevoegde bijlagen. Daarnaast weet ik niet of Adobe blij zal zijn met zoveel requests en denk ik dat ik vrij lang kan wachten op een reply wanneer het om een groot pdf bestand gaat.

Mocht iemand andere opties weten, laat het dan zeker even weten!

:lamp: Voorkeur gaat overigens uit naar HTML i.p.v. tekst, omdat het dan nog mogelijk is om gewicht toe te kennen aan tags (bijv. <h.> tellen zwaarder dan gewone tekst). Maar ik ben al een gelukkig man wanneer ik tekst geretourneerd kan krijgen.

:!: Steek aub niet te veel van je vrije tijd in het zoeken van meer info voor mij, want daar ben ik al uren mee zoet geweest...

7 antwoorden

Gesponsorde links
Offline Maarten - 26/08/2006 21:18
Avatar van Maarten Erelid Wat geeft file_get_contents('mijnpdf.pdf') ?
Offline Koen1 - 28/08/2006 19:44
Avatar van Koen1 Nieuw lid Een grote binary string...
Oftewel een rij van allerlei leuke tekens.
Offline xSc - 29/08/2006 08:29
Avatar van xSc Onbekend http://www.ros.co.nz/pdf/
Offline Thomas - 29/08/2006 14:33
Avatar van Thomas Moderator Hij wil de andere kant op xSc... maar je zou eens naar die class kunnen kijken voor het bakken van een PDF, misschien kun je dat ding omschrijven.
Offline Koen1 - 29/08/2006 22:56 (laatste wijziging 30/08/2006 08:41)
Avatar van Koen1 Nieuw lid Oops... maybe not. R&OS werkt waarschijnlijk toch zonder PDFlib en aangezien ik die andere (die volgens mij beter was) class niet kan vinden zal ik toch eens deze class downloaden. Maar viceversa zie ik alleen nog maar pdftohtml. Wellicht dat iemand in het algemeen ervaring heeft met het aanroepen van extra geinstalleerde modulles in php, das altijd welkom ;)
Wat vraag ik weer veel Even op een rijtje:
:rechts: Zijn er mensen die ervaring hebben met pdf2html
:rechts: Zijn er mensen die in het algemeen ervaring hebben met externe modulles
:rechts: Snapt iemand wat die gast van phpfreaks.com wilde proberen / hoe dat in z'n werk gaat
:rechts: Hoe open je pop-mail met bijlage in php
:rechts: Ruimte voor alternatieven ;)

Updateje: het belangrijkste bestand van die pdf class is al ruim 3075 regels groot. Word een hele speurtocht om dat om te zetten...:o
Offline jensen - 30/08/2006 09:52
Avatar van jensen Nieuw lid Hoewel een PDF bestand binair is zit er toch wat info in die gewoon kan uitgelezen worden. Vergelijk het met de ID3 tags in een MP3 bestand. Op die manier kan een applicatie (en ook je besturingssysteem) eenvoudig de nuttige info uitlezen, als hij weet hoe die opgemaakt is.

Als je een PDF bestand opendoet in kladblok zou je dus zonder al te veel problemen de info Author, CreationDate, ... moeten kunnen terugvinden, en dat is volgens mij ook wat die kerel op phpfreaks.com wil doen.
Offline Koen1 - 30/08/2006 23:31
Avatar van Koen1 Nieuw lid Dat is in principe wel leuke data voor de statistieken, maar niet iets waaruit je trefwoorden kan extraheren.
Dus iemand die toevallig ervaring heeft met externe modules?
Gesponsorde links
Dit onderwerp is gesloten.
Actieve forumberichten
© 2002-2024 Sitemasters.be - Regels - Laadtijd: 0.184s