Semalt: HTML-skrapguiden - bästa tips

Webbinnehållet är mestadels i strukturerade eller HTML-format. Varje sida är organiserad på sitt unika sätt beroende på typen av innehåll i den. Om någon vill extrahera webbinformation är det varje persons önskan att få informationen på ett strukturerat och välorganiserat sätt. Detta hjälper till att spara den tid som krävs för att granska, analysera och organisera dokumentet innan du delar det. Att få det strukturerade formatet är emellertid inte lätt eftersom de flesta webbplatser inte erbjuder det alternativet för att förhindra att människor drar ut stora mängder data. Vissa webbplatser tillhandahåller dock API: erna som ger människor möjlighet till utvinning av information i en snabb och enkel process.

I sådana händelser har du inget annat val än att använda hjälp av en programvaruprogrammering som kallas skrapning. Det är en metod som använder datorprogram som hjälper användare att samla in information i ett användbart format och bevara datorns struktur.

Lxml och begär

Detta är ett omfattande skrapbibliotek som hjälper till att analysera och utvärdera XML och HTML snabbt och hjälper till att spara tid. Det är också bra att hantera trassliga taggar i analysprocessen. I den här proceduren använder du Lxml-förfrågningar snarare än den inbyggda urllib2 eftersom den är snabbare, robust och lättillgänglig. Det är enkelt att installera det genom att använda pip install Lxml och pip install begäran.

Följ dessa steg för HTML-skrapning

Börja med import - här importerar du HTML från Lxml, importerar sedan begäran. Använd begäran och spåra sedan webbsidan som innehåller data som du vill extrahera, analysera den med HTML-modul och spara sedan den analyserade informationen i trädet.

Du måste använda sidinnehållet snarare än text eftersom HTML förväntar sig att få inmatningen i byte. Trädet, där du lagrade dina analyserade data, innehåller nu HTML-dokumentet i en trädstruktur. Du kan gå över trädstrukturen i olika tillvägagångssätt, XPath och CSSelect.

XPath hjälper dig att hämta information eller få den i ett strukturerat format som HTML eller XML. Det finns olika sätt på vilka du kan få XPath-elementen. Dessa inkluderar Firebug för Firefox eller Chrome Inspector. När du använder Chrome är det enkelt att inspektera information eftersom du bara behöver "högerklicka" på elementet som kräver inspektion, välj "Inspektera element", markera den medföljande koden och sedan högerklicka och välj kopia XPath. Den här processen hjälper dig att veta vilka element som finns på din sida och därifrån är det enkelt att skapa rätt XPath-fråga och tillämpa Lxml XPath korrekt.

Genom att gå igenom de här stegen säkerställer du att du har skrapat all data du ville extrahera från en viss webb med Lxml och Requests. Du kommer att ha informationen lagrad i ett tvålistarminne, och nu är den redo för sortering. Du kan analysera det med ett programmeringsspråk som Python eller spara det och dela det. Du kanske också vill skriva om eller redigera vissa delar av informationen innan du delar den.

mass gmail