目次
サンプルデータ
- movie.csv
- https://miwadaice.info/wp-content/uploads/2022/05/movie.csv
- サンプルCSVデータ(DS100ノック)
まとめ
- サンプルDataFrameを作成する
- 概要表示のため、ちょっとしたDFを作成したい
- jupyter labのオプション設定
- 最初にすべき10ステップ
- read_csvのオプション
- read_excelのオプション
- to_csv
- to_csvのオプション(クォート設定)
- to_excel とExcelWriter
- メモリ節約
- メモリ使用量の削減
- データ概要確認
- chunkで読み込む
- 変換図(DataFrame ⇆ ndarray ⇆ List)
- 行列の選択
- 欠損値の判定①(欠損値CSV)
- 欠損値の判定②、抽出・穴埋め
- 欠損値の削除
- 行や列の削除
- pandas「型」変換(キャスト) ★
- pandas 条件抽出(重複)
- 時系列データ
- スタイル・フォーマット
- 重複(duplicated、drop_duplicates)
時系列
その他
- A value is trying to be a set on a copy of a slice from a DataFrame.
- 2つのデータフレームを比較して差を見つける
- 重たいデータの先頭をちら見したい
- unique
- 条件抽出(boolean,query,filter)(重複)
- 型混在・強制的に数値やNaNへ変換する
to_numeric()★ - 列がint型に変換不可なときはto_numeric()
- Jupyter Widgets
- クロス集計 crosstab
- 条件に応じて値を代入(iloc, where, mask)
- 後方の列を先頭に移動する
- データの揺れ
- tabula
- tqdmプログレスバー
- データを行列方向にずらす
- pandaオブジェクトの結合(cookbookより)
- 改・結合の仕方
- 列Aのある値を検索、隣の列の値を取得する
- 3桁区切りの数値をintに変換する(読み込み後)
- 列「郵便番号」が100以上209以下であれば1、でなければ0のフラグを付ける
- str.split(~,expand=True)[*]で置換後に取得
- Series/DataFrameが空かどうか
- ダミー変数get_dummies
- 平均 mean
- ランキング rank
- dfの単体列Seriesの列名を変更
- 構造化されてないCSVをpandasで読み込む
- 顧客コード2行を1行に集約
- DtypeWaring: Columns (2,12,14) have mixed types.★
- NaNの区別、作り方
- dfカラムから辞書をつくる