tabula – note to self

パッケージ名：tabula-py
表組みのPDFファイルからpandasへDataFrameとして抽出可能
通常、PDFの表組みからデータをきれいに取り出すことは不可だがこれはできる
PyPiから
- https://pypi.org/project/tabula-py/
Doc
- https://tabula-py.readthedocs.io/en/latest/
tabula には Java のインストールも必要（doc参照）
- Java インストール後、パスを通す必要あり。でないと「JavaNotFoundError: java command is not found from this Python process.Please ensure Java is installed and PATH is set for java」エラー

df = tabula.read_pdf(‘test.pdf’, pages=’all’, lattice=True)

optionとして、以下がある