Back to Question Center
0

Semalt Expert: Python in BeautifulSoup. Spletna mesta z lahkoto

1 answers:

Pri izvajanju analize podatkov ali projektov strojnega učenja boste morda morali brati spletne strani potrebne podatke in dokončajte svoj projekt. Programski jezik Python ima močno zbirko orodij in modulov, ki jih je mogoče uporabiti v ta namen. Na primer, za modifikacijo HTML lahko uporabite modul BeautifulSoup.

Tukaj bomo pogledali BeautifulSoup in ugotovili, zakaj je zdaj tako široko uporabljen v spletnem strganju .

Funkcije BeautifulSoup

- Zagotavlja različne načine za preprosto navigacijo, iskanje in spreminjanje razčlenjevanja dreves, kar vam omogoča, da enostavno razkrijete dokument in izvlečete vse, kar potrebujete, brez pisanja preveč kode.

- Samodejno pretvori izhodne dokumente v UTF-8 in dohodne dokumente v Unicode - solar powered greenhouse equipment liquidation. To pomeni, da vam ne bo treba skrbeti za kodiranje, pod pogojem, da je dokument določil kodiranje, ali pa jo lahko samodejno zazna Beautiful Soup.

- BeautifulSoup velja za boljše od drugih priljubljenih analizatorjev Pythona, kot so html5lib in lxml. Omogoča preizkus različnih strategij razčlenjevanja. Ena pomanjkljivost tega modula pa je, da zagotavlja več prožnosti na račun hitrosti.

Kaj potrebujete za strganje spletne strani z BeautifulSoup?

Če želite začeti delati s programom BeautifulSoup, morate na vašem računalniku nastaviti programsko okolje Python (lokalno ali strežno). Python je običajno vnaprej nameščen v operacijskem sistemu OS X, vendar če uporabljate Windows, boste morali prenesti in namestiti jezik z uradnega spletnega mesta.

Imeti bi morali modele BeautifulSoup in Requests.

Nazadnje, poznavanje in udobje pri HTML označevanju in strukturi je vsekakor koristno, saj boste delali s spletnimi podatki.

Uvažanje zahtev in knjižnice BeautifulSoup

S programskim okoljem Python je dobro nastavljeno, zdaj lahko ustvarite novo datoteko (na primer s pomočjo nano) s poljubnim imenom, ki vam je všeč.

knjižnica Zahtev omogoča uporabo človeško berljivega HTTP obrazca v svojih programih Python, medtem ko BeautifulSoup dobi strganje, opravljeno s hitrejšo hitrostjo. Uvozno izjavo lahko uporabite za pridobitev obeh knjižnic.

Kako zbrati in razčleniti spletno stran

Uporabite zahteve. get

metodo za zbiranje URL-ja spletne strani, iz katere želite izvleči podatke. Nato ustvarite objekt BeautifulSoup ali razrežite drevo. Ta predmet vzame dokument iz zahtevkov kot svoje argumente in nato razčleni. S pomočjo zbrane, razčlenjene in nastavljene strani kot predmeta BeautifulSoup lahko nadaljujete z zbiranjem podatkov, ki jih potrebujete.

Izvleček želenega besedila iz razčlenjene spletne strani

Vedno, ko želite zbrati spletne podatke, morate vedeti, kako jih opisuje Model predmeta dokumenta (DOM) spletne strani. V spletnem brskalniku z desno tipko miške kliknite (če uporabljate Windows) ali kliknete CTRL + (če uporabljate MacOS) na eni od postavk, ki so del podatkov, ki jih zanimajo. Na primer, če želite izvleči podatke o državljanstvu študentov, kliknite na eno od imen študenta. Pojavi se kontekstni meni, znotraj katerega se prikaže element menija, ki je podoben elementu Inspect Element (za Firefox) ali Inspect (za Chrome). Kliknite ustrezen element menija Pregled, orodja za spletno razvijalce pa bodo prikazana v vašem brskalniku.

BeautifulSoup je preprosto, a močno HTML orodje za analizo, ki vam omogoča veliko prožnosti, ko strganje spletnih strani . Ko ga uporabljate, ne pozabite upoštevati splošnih pravil za strganje, kot je preverjanje pravil in pogojev spletnega mesta; redno obišče spletno stran in posodablja svojo kodo glede na spremembe na spletnem mestu. Če imate to znanje o strganju spletnih mest s programom Python in BeautifulSoup, lahko zdaj preprosto dobite spletne podatke, ki jih potrebujete za svoj projekt.

December 22, 2017