login  Naam:   Wachtwoord: 
Registreer je!
 Forum

PHP website inlezen

Offline Danet - 04/05/2012 15:18
Avatar van DanetLid Ik wil dus gewoon de html code van een website inlezen, daar vervolgens de tekst uitknippen.

Ik weet dat dit lukt met PHP DOM, maar ik krijg een overload van informatie terwijl ik enkel de html code wil inlezen en dan een bepaald stuk hier wil uitknippen?

Heeft iemand een minieme tutorial of enkele functies die ik sowieso nodig heb?

Alvast bedankt !

4 antwoorden

Gesponsorde links
Offline Martijn - 04/05/2012 15:34 (laatste wijziging 04/05/2012 15:36)
Avatar van Martijn Crew PHP PHP.net: file_get_contents en PHP.net: preg_replace?

Heb je een voorbeeld van wat je wilt hebben?
Offline Pieter - 04/05/2012 16:16
Avatar van Pieter Gouden medaille

SEO guru
Je kan best even zoeken op "php scraper". Daarmee vind je heel wat code waarmee je de voor jou relevante code van een site kan 'pikken' .
Offline Danet - 09/05/2012 14:42 (laatste wijziging 09/05/2012 14:57)
Avatar van Danet Lid Got it nicee !
Nu zou ik enkel de correcte informatie er moeten kunnen uitknippen,

  1. <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  2. <META http-equiv="Content-Type" content="text/html; charset=utf-8">
  3. <link rel="stylesheet" href="styles//pagina.css" type="text/css"><script language="JavaScript" src="scripts/controles.js"></script><script language="Javascript"> var selectPPN = '29274420X'; var selectISBN = '9789021582771'; var selectBNR = '2006210189'; var selectAuteur = 'Rogak, Lisa'; var selectKeyword = 'Brown, Dan'; </script></head>
  4. <div id="panel">
  5. <div id="metadata">
  6. <div class="label">Titel:</div><div class="inhoud">Dan Brown</div><br><div class="label">Auteur:</div><div class="inhoud">Rogak, Lisa</div><br><div class="label">ISBN:</div><div class="inhoud">978-90-215-8277-1</div><br></div>
  7. <div id="content">
  8. <h1>Korte bespreking</h1>
  9. <p><img class="omslag" src="lala.jpg">Informatie over boek</p>
  10. </div>
  11. </div>
  12. <div id="footer">
  13. <hr>
  14. <p></p>
  15. </div>
  16. </body>
  17. </html>


De eerste regex zou dan volgende uitvoer moeten hebben:

  1. <div class="label">Titel:</div><div class="inhoud">Dan Brown</div><br><div class="label">Auteur:</div><div class="inhoud">Rogak, Lisa</div><br><div class="label">ISBN:</div><div class="inhoud">978-90-215-8277-1</div><br></div>
  2. <div id="content">
  3. <h1>Korte bespreking</h1>
  4. <p><img class="omslag" src="lala.jpg">Informatie over boek</i></p>


om dan uiteindelijk de titel, auteur, omslagfoto en VOORAL informatie tussen de <p> tags in variabele te kunnen steken
Als iemand dit zou kunnen fixen, eeuwig dankbaar?! 
Offline Martijn - 09/05/2012 14:56
Avatar van Martijn Crew PHP
  1. preg_replace("/(?:.*)\"metadata\"\>(.*?)\<\/div\>\<div id=\"footer(?:.*)/si", "\\1", $page);


zo even uit mn hoofd zou dat je een zetje moeten geven
Gesponsorde links
Je moet ingelogd zijn om een reactie te kunnen posten.
Actieve forumberichten
© 2002-2024 Sitemasters.be - Regels - Laadtijd: 0.213s