Scraping

目次

クロールとスクレイピング

  • クロールは泳ぐ、HPを「巡回」するイメージ(スパイダーともよぶ)
  • スクレイピングは「こする」「かき集める」から必要な情報だけを抽出するイメージ

イメージ

  • HPの情報を取得→(解析)→ 何かをする(情報を取得、ダウンロード等)
  • そのために使うツールとその組み合わせは下図のとおり
  • ログイン後のセッション情報はcookieに保存される。画面遷移やツールが変わる場合は、そのcookie情報を利用すれば対応できる

GPAD

スクレイピングの流れ(考案)

  • G:html を Get(取得)
  • P:html を Perse(パース)
  • A:抽出データをリストに Append
  • D:json に Dump または データをDownload

Webページの構成を確認

基本

Requests

BeautifulSoup

Selenium

JSON本

その他