重たいCSVの先頭だけをチラ見したいとき

投稿者: | 2022-01-11
  • ちら見した後に、headerの指定やnrowsで正しく読み込むと楽
  • (powershellでcatは?)
with open(p, encoding='cp932') as f:
    s = f.read(1000) # 任意
print(s, end='') # end=''ないと繋がる
# ちょっとだけみたい
with open(big_csv, 'r') as f:
    print(f.read(1000), end='')

# ---------------------------------

# 構造化されていない場合の読み込み
import csv
with open(big_csv) as f:
    df = pd.DataFrame(csv.reader(f))

# ---------------------------------

# メモリに乗らない場合はChunkで少しずつ読み込む
reader = pd.read_csv(big_csv, skiprows=3, chunksize=50)

# 返り値は TextFileReader
for r in reader:
    print(type(r), r.shape)

# ---------------------------------

reader = pd.read_csv(big_csv, skiprows=3, chunksize=50)

# 先頭から5行読み込み
print(reader.get_chunk(2))

# さらに次の3行読み込み
print(reader.get_chunk(3))