Scripts - Tutorials - Forum - Downloads - Showcase - Contact

Artikels

VPN vergelijken

Algemeen

Beginpagina

FAQ

Grafische worm (243)

Links

Nieuwsartikels

Nieuwsarchief

Boeken programmeren

Overzicht

Samenwerken

Webhosting

Zoek op Sitemasters

Leden

Registreren

Ledenlijst

Ons team

Links

webhostingtop10.be

Sociale media

Follow @sitemasters

Sitemasters

Adverteren op Sitemasters?

Contacteer ons

RSS

Link naar ons

Donaties

Poll

Je moet ingelogd zijn om te stemmen.

Statistieken

Linkpartners

Forum

Categorieën > PHP

PDF naar HTML / text

Koen1 - 26/08/2006 21:15
Nieuw lid		Om PDF bestandjes doorzoekbaar te maken wilde ik de tekst van het pdf-je converteren naar tekst of html om dit in een database op te kunnen slaan. Na veel zoeken kom ik toch wel tot de conclusie dat er twee tot drie opties zijn: :rechts: 1. PDFtoHTML Dit schijnt een progje te zijn dat PDF bestandjes om kan zetten in HTML. Nu kan ik mijn host vragen dit te installeren, maar ik krijg geen informatie gevonden over hoe ik dit in mijn php script zou moeten aanroepen / gebruiken. De vraag hierbij is: krijgt iemand hier tutorials van gevonden of heeft iemand er ervaring mee? Om je tijd te besparen: ik heb uren gezocht met diverse zoekmachines, maar omdat er veel van die gasten aan SEO doen kom je constant op dezelfde waardeloze zooi uit. :rechts: 2. Met fread Kelly McKiernan heeft op phpfreaks.com een stukje code geplaatst waarmee bepaalde info van pdf-jes uitgelezen zou moeten kunnen worden. Jammer genoeg is er een groot deel van weggevallen, maar wellicht dat jullie zijn/haar idee beter begrijpen dan ik. Citaat: I too couldn't find what you were looking for, so I was forced to roll my own code. It's a bit rough, but you can use it as a basis to get meta information like Title, Version, Creator, etc. The sample below has six things it looks for, just add what you need in that array. It doesn't always work perfectly but at least it's a starting point. [..code..] :rechts: de pop mail uitlezen De laatste mogelijkheid die ik zie is het sturen van mailtjes naar Adobe's online tool: pdf2txt@adobe.com of pdf2html@adobe.com. Vervolgens zou ik dan de pop mail uit moeten lezen en zo verder indexeren. Hierbij voorzie ik enkele problemen, omdat ik begod niet weet hoe ik mn pop mail kan uitlezen, laat staan toegevoegde bijlagen. Daarnaast weet ik niet of Adobe blij zal zijn met zoveel requests en denk ik dat ik vrij lang kan wachten op een reply wanneer het om een groot pdf bestand gaat. Mocht iemand andere opties weten, laat het dan zeker even weten! :lamp: Voorkeur gaat overigens uit naar HTML i.p.v. tekst, omdat het dan nog mogelijk is om gewicht toe te kennen aan tags (bijv. <h.> tellen zwaarder dan gewone tekst). Maar ik ben al een gelukkig man wanneer ik tekst geretourneerd kan krijgen. :!: Steek aub niet te veel van je vrije tijd in het zoeken van meer info voor mij, want daar ben ik al uren mee zoet geweest...

7 antwoorden

Gesponsorde links

Maarten - 26/08/2006 21:18
Erelid		Wat geeft file_get_contents('mijnpdf.pdf') ?

Koen1 - 28/08/2006 19:44
Nieuw lid		Een grote binary string... Oftewel een rij van allerlei leuke tekens.

xSc - 29/08/2006 08:29
Onbekend		http://www.ros.co.nz/pdf/

Thomas - 29/08/2006 14:33
Moderator		Hij wil de andere kant op xSc... maar je zou eens naar die class kunnen kijken voor het bakken van een PDF, misschien kun je dat ding omschrijven.

Koen1 - 29/08/2006 22:56 (laatste wijziging 30/08/2006 08:41)
Nieuw lid		Oops... maybe not. R&OS werkt waarschijnlijk toch zonder PDFlib en aangezien ik die andere (die volgens mij beter was) class niet kan vinden zal ik toch eens deze class downloaden. Maar viceversa zie ik alleen nog maar pdftohtml. Wellicht dat iemand in het algemeen ervaring heeft met het aanroepen van extra geinstalleerde modulles in php, das altijd welkom ;) Wat vraag ik weer veel Even op een rijtje: :rechts: Zijn er mensen die ervaring hebben met pdf2html :rechts: Zijn er mensen die in het algemeen ervaring hebben met externe modulles :rechts: Snapt iemand wat die gast van phpfreaks.com wilde proberen / hoe dat in z'n werk gaat :rechts: Hoe open je pop-mail met bijlage in php :rechts: Ruimte voor alternatieven ;) Updateje: het belangrijkste bestand van die pdf class is al ruim 3075 regels groot. Word een hele speurtocht om dat om te zetten...:o

jensen - 30/08/2006 09:52
Nieuw lid		Hoewel een PDF bestand binair is zit er toch wat info in die gewoon kan uitgelezen worden. Vergelijk het met de ID3 tags in een MP3 bestand. Op die manier kan een applicatie (en ook je besturingssysteem) eenvoudig de nuttige info uitlezen, als hij weet hoe die opgemaakt is. Als je een PDF bestand opendoet in kladblok zou je dus zonder al te veel problemen de info Author, CreationDate, ... moeten kunnen terugvinden, en dat is volgens mij ook wat die kerel op phpfreaks.com wil doen.

Koen1 - 30/08/2006 23:31
Nieuw lid		Dat is in principe wel leuke data voor de statistieken, maar niet iets waaruit je trefwoorden kan extraheren. Dus iemand die toevallig ervaring heeft met externe modules?

Gesponsorde links

Dit onderwerp is gesloten.

Actiefste leden van de maand

Actieve forumberichten