- パッケージ名:tabula-py
- 表組みのPDFファイルからpandasへDataFrameとして抽出可能
- 通常、PDFの表組みからデータをきれいに取り出すことは不可だがこれはできる
- PyPiから
- Doc
- tabula には Java のインストールも必要(doc参照)
- Java インストール後、パスを通す必要あり。でないと「JavaNotFoundError: java command is not found from this Python process.Please ensure Java is installed and PATH is set for java」エラー
df = tabula.read_pdf(‘test.pdf’, pages=’all’, lattice=True)optionとして、以下がある
- デフォルトではP1のみ
- 複数ページを取得したい場合は、pages=3, pages=’1-3,5’, pages=’all’
- lattice=True:セルの区切り線がある場合。表が複数に分かれているときは使わないほうが良い
- stream=True: セルの区切り線がない場合(デフォルト)
- pandas_options={‘header’:[0,1]} ←効く?Noneで読み込んだほうが無難?
- password=’password’