Scraping

目次

クロールとスクレイピング

クロールは泳ぐ、HPを「巡回」するイメージ（スパイダーともよぶ）
スクレイピングは「こする」「かき集める」から必要な情報だけを抽出するイメージ

イメージ

HPの情報を取得→（解析）→ 何かをする（情報を取得、ダウンロード等）
そのために使うツールとその組み合わせは下図のとおり
ログイン後のセッション情報はcookieに保存される。画面遷移やツールが変わる場合は、そのcookie情報を利用すれば対応できる

GPAD

スクレイピングの流れ（考案）

G：html を Get（取得）
P：html を Perse（パース）
A：抽出データをリストに Append
D：json に Dump またはデータをDownload

Webページの構成を確認

Chromeのデベロッパーツールや、Jupyter lab で探りながらやった方がよい
CSSセレクタのチートシート

基本

Requests

公式
ラジオボタン、チェックボックス、その他入力
ファイルと画像のサブミット
Webフォームへのログイン、ログインしたまま遷移
HTTP Basic認証
request.get()でWebテキストをDLする
Google検索結果をブラウザで開く（退屈本P278）
すべてのリンク先をダウンロードする（〃P282）

BeautifulSoup

Selenium

JSON本

画像ダウンローダーを作ろう

その他

mapIt

Iconic One Theme | Powered by Wordpress