tabula

投稿者: | 2022-03-20
  • パッケージ名:tabula-py
  • 表組みのPDFファイルからpandasへDataFrameとして抽出可能
  • 通常、PDFの表組みからデータをきれいに取り出すことは不可だがこれはできる
  • PyPiから
  • Doc
  • tabula には Java のインストールも必要(doc参照)
    • Java インストール後、パスを通す必要あり。でないと「JavaNotFoundError: java command is not found from this Python process.Please ensure Java is installed and PATH is set for java」エラー
df = tabula.read_pdf(‘test.pdf’, pages=’all’, lattice=True)

optionとして、以下がある

  • デフォルトではP1のみ
  • 複数ページを取得したい場合は、pages=3, pages=’1-3,5’, pages=’all’
  • lattice=True:セルの区切り線がある場合。表が複数に分かれているときは使わないほうが良い
  • stream=True: セルの区切り線がない場合(デフォルト)
  • pandas_options={‘header’:[0,1]} ←効く?Noneで読み込んだほうが無難?
  • password=’password’

カテゴリー: Tool