php - Hvordan skraber alt indhold fra en hjemmeside?

Indlæg af Hanne Mølgaard Plasc

Problem



Jeg udvikler websites og nogle gange har kunder allerede hjemmesider, men har brug for dem helt fornyet, men det meste af indholdet og billederne skal forblive det samme. Jeg leder efter software, selvom det koster eller er et desktopprogram, der let giver mig mulighed for at indtaste en webadresse og skrabe alt indhold til en bestemt mappe på min lokale maskine. Enhver hjælp ville blive meget værdsat.

Bedste reference


htttrack vil fungere fint for dig. Det er en offline browser, der vil trække ned websteder. Du kan konfigurere det som du ønsker. Dette vil ikke trække ned PHP naturligvis siden php er serverens sidekode. Det eneste du kan trække ned er html og javascript, og billeder er trykt på browseren. [4]

Andre referencer 1


file\_put\_contents('/some/directory/scrape\_content.html', file\_get\_contents('http://google.com'));


Spar dine penge til velgørenhed.

Andre referencer 2


Ved indhold betyder du hele indholdet på siden, fordi du kun kan 'gemme som ...' hele siden med de fleste medfølgende medier.


Firefox, i værktøj -> Sideinfo -> Medier, indeholder en liste over alle medier på den side, du kan downloade.

Andre referencer 3


Du må ikke gribe med PHP til noget som dette. Du kan bruge wget til at gribe et helt websted trivielt. Men vær opmærksom på, at det ikke vil fortolke ting som CSS for dig, så det vil ikke tage nogen filer refereret via (siger) background-image: URL('/images/pic.jpg'), men vil snag de fleste alt andet for dig. [5]

Andre referencer 4


Denne klasse kan hjælpe dig med at skrabe indholdet: http://simplehtmldom.sourceforge.net/[6]

Andre referencer 5


Du kan opnå dette ved at gemme som mulighed for browseren, gå til fil-> Gem side som i firefox, og alle billederne og js gemmes i en mappe

Andre referencer 6


Jeg begyndte at bruge HTTrack for et par år siden, og jeg er glad for det. Det ser ud til at gå ud for at få sider, jeg ikke ville se selv. [7]

Andre referencer 7


Du kan skrabe websites med http://scrapy.org og få det indhold, du vil have. [8]


Scrapy er en hurtig skærmskramning og webkrydsningsramme på højt niveau, der bruges til at gennemgå websites og uddrage strukturerede data fra deres sider. Den kan bruges til en bred vifte af formål, fra data mining til overvågning og automatiseret test.