pandas」カテゴリーアーカイブ

to_excel と ExcelWriter

to_excel 参考 基本(単一シート) シート名を指定する セルを指定する ウィンドウ枠を固定する with pd.ExcelWriter(path) as writer: 参考 基本(複数シート書き出し) 既存ファ… 続きを読む »

tqdmプログレスバー

プログレスバー 進捗の見える化 ポイントはループで利用 for文のin直後にtqdmを加える ループ中にprintがあると表示が大変 ctrl + C で停止 desc=で、バーのタイトルがつく(例の場合「test」) … 続きを読む »

groupbyの集約パターン

基本形 df.groupby(グループ分けカラム).agg({集約カラム: 集約関数}) グループ分けカラム データをグループに分割して、計算する単位になる 集約カラム そのカラムのデータ(値)を使って集約される 集約関… 続きを読む »

構造化されてないCSVをpandasで読み込む

各行の列数が異なるとエラー 解消方法1 解消方法2 または、skiprows や usecols で読み込む範囲を狭めて(構造化された箇所だけを)読み込むやり方でもよい 過去分・算定からNG行だけを取出し、再作成

rank

https://note.nkmk.me/python-pandas-rank/

平均 mean

https://deepage.net/features/pandas-mean.html#nan値を無視しない skipna=True 欠損値を無視して、それ以外で平均値を出す skipna=False 欠損値を無視し… 続きを読む »

ダミー変数 get_dummies(途中)

https://note.nkmk.me/python-pandas-get-dummies/ カテゴリの値ごとに項目をわけて保持し、データが該当する項目に1、それ以外の項目に0を付与するなどして作成した変数を「ダミー変… 続きを読む »

timeit

pythonファイルで計測 timeit.timeit()にlambda式を使う jupyterで計測する場合はコレ デフォルト値 ループ数(n)を変える 繰り返し数(r)を変える timeの方がわかりやすい?

改・結合の仕方

concatとmergeの違い 項目 pd.concat pd.merge 用途 縦横に結合したい場合※単純に縦または横に結合するだけ 共通のデータ列で結合したい場合 結合するobjs指定 [df1, df2](戻り値:… 続きを読む »

データの揺れ

Python実践データ分析100本ノック第2章より 商品名の揺れ 現状のユニークアイテム一覧 半角全角スペース、大文字小文字の混在を解消する 金額欠損値の補完 今回の流れ 欠損値の場所を特定 その商品名を取得(ユニークで… 続きを読む »

クロス集計 crosstab

pd.crosstab(df[‘-‘],df[‘-‘],) カテゴリデータ(カテゴリカルデータ、質的データ)のカテゴリごとのサンプル数(出現回数・頻度)の算出などが可能。 … 続きを読む »

2つのDataFrameを比較する

2つのDFを比較するには「この」の方法がベスト ただし、2つのDFの列名はあわせておく必要あり 比較する列を切り出しておくとよい 理由:他列に余計なNaNや文字列が含まれていると比較できないため あくまで比較したい列だけ… 続きを読む »

メモリ使用量の削減

正確なメモリ使用量を表示させる object型が含まれる場合、メモリ使用量は正確に表示されない df.info()またはdf.memory_usage()にオプションを付与すれば表示可能 df.info(memory_u… 続きを読む »

日付の加工

サンプル作成 DatetimeIndexに変換 年、月を追加 年度を追加

pandas 条件抽出

query サンプルCSV 主な条件抽出の記法 上:Booleanインデックス法(Boolean選択法) 下:クエリー 欠損値NaNがある場合の注意点 NoneやNanがある列に対して文字列メソッドを適用して条件とすると… 続きを読む »

duplicated、drop_duplicates(重複)

重複行をすべて確認したい場合 duplicatedはデフォルトでは、最初の値「以外」を重複(True)として扱う 重複した行をすべてを表示させたい場合は、keep=False(カンマ不要)をセットする sort_valu… 続きを読む »

pandasの「型」

型を確認する(df.dtypes) 型を変換する 読み込み時(dtype) 一括変換 列ごとに変換 読み込み後(astype) 注意:元のDataFrameは変更されない 一括変換 列ごとに変換 インデックスの型を変換し… 続きを読む »

データ概要確認

基本 df.isnull().any() は、DF全体で欠損値があるかないか(Boolean) 型を確認 特定の型の列名を表示 各列に含まれるユニークな要素の数 ある列の要素ごとの件数

乱数発生

cumsum()を利用すると折線などのグラフデータが作成しやすい 一様乱数 乱数(標準正規分布) 乱数(整数) 一次元の複数個のndarrayは工夫が必要(?) 同じ乱数を使いたい(seed)

unique

Series.unique() Series.value_counts() pandas.Series.nunique()pandas.DataFrame.nunique() pandas.Series.nunique(… 続きを読む »

merge と join

・2つのDataFrameの連結において ・merge()とjoin()なら、汎用的なmerge()を使ったほうが良い ・merge()は、pd.merge()のほうが使いやすそう(df.merge()より) ・キーに列… 続きを読む »

サンプルDataFrameを作成

DataFrameをつくる ここがわかりやすい:【Python】pandasのデータフレームを作成する方法6つ 関連記事:サンプルDF作成・出力、フォルダ内のpklファイルを全結合 df = pd.DataFrame(*… 続きを読む »