.pyスクリプトの実行、シバン行、バッチ
.pyスクリプトの実行方法 Pythonランチャー(py.exe) バッチファイル(.bat) Macの場合 python.exeのインストール場所 シバン行で直接実行する cf. シバンはモジュールを実装するときには不… 続きを読む »
.pyスクリプトの実行方法 Pythonランチャー(py.exe) バッチファイル(.bat) Macの場合 python.exeのインストール場所 シバン行で直接実行する cf. シバンはモジュールを実装するときには不… 続きを読む »
前提 参考URL 仮想環境の作成 注意点:作成された仮想環境のディレクトリは隠しファイル(.ディレクトリ名)になっている 手順概要 macOS Windows 仮想環境の切り替え mac Windows コマンドプロンプ… 続きを読む »
ライブラリの格納ディレクトリ 3種類のライブラリがある 標準ライブラリディレクトリ site-packageディレクトリ ユーザー別site-packagesディレクトリ 種類 Unix系OS Windows 標準ライブ… 続きを読む »
例外処理まとめ(GoogleDoc) 例外処理まとめ
USAGE 数値の出力桁数を指定する 数値に桁区切りを入れる 表示する文字数を指定する 文字のアラインメント(位置揃え) ゼロパディング 参考)zfill fromat と f文字列 での桁数表記 num = 99.12… 続きを読む »
len()は文字列の長さを返すため、全角も半角も同じ1文字でカウントする 文字列の幅を求める基準としては使えない east_asian_width()の戻り値 戻り値 説明 F Fullwidht:全角文字 H Half… 続きを読む »
行に分割する スペース文字で分割する 生徒と点数の間はスペースがある カンマで分割する 計算する 文字列を数値に変換する必要がある printでカンマなどで連結して使った場合、変なスペースが入る(※箇所) フォーマット済… 続きを読む »
メニューを取得 投稿データを書き込む(CSV)
以下のファイルを修正する PATAHは読み替える 参考HP:https://ninthcode.net/211003-pyautogui/ import sys > sys.executable でPythonのイ… 続きを読む »
ファイルを作成し、書き込む HTMLテーブルを読み込んでCSVで書き出す <手順> TABLE構造 editors.csv Webから文字列で取得し、StringIOオブジェクトでラップすればファイルとして扱える … 続きを読む »
note.nkmk.meより クォートを付けてCSVファイルを書き込む クォート設定を行って書き出す to_csvのクォート設定 定数 説明 csv.QUOTE_MNIMAL 「特別な文字」が含まれる場合のみダブルクォー… 続きを読む »
オプション 使用例 内容 備考 sep or delimiter sep=’\t’ 指定文字で区切って読み込む header header=Noneheader=1 ヘッダー行を指定… 続きを読む »
https://ipywidgets.readthedocs.io/en/latest/index.html ToggleButton CheckBox Dropdown RadioButtons With dynami… 続きを読む »
Python実践データ分析100本ノック第2章より 商品名の揺れ 現状のユニークアイテム一覧 半角全角スペース、大文字小文字の混在を解消する 金額欠損値の補完 今回の流れ 欠損値の場所を特定 その商品名を取得(ユニークで… 続きを読む »
参考HP:note.nkmk.me 通常のif文 三項演算子を使ったif文 ①条件によって、値を切り替える場合 ②条件によって、処理を切り替える場合 ③値を返さない式(Noneを返す式)でもよい ④複数の条件式を論理演算… 続きを読む »
以前、Chromeを利用していたときは、JupyterからHTML出力>Chromeで開き、それをPDF化していた。しかしあまりにも重いため、Safariを使用。その時のPDF出力方法を記載。ただPDFの文字サイズが大き… 続きを読む »
検索するリストは昇順で並び替えておく 線形探索に比べ、激速い
末尾のカンマを取り除く 列数が異なるCSVをPandasで取得。その後、末尾のカンマを取り除く正規表現 列数が異なるCSVをpandasで呼び込む際、列名を作って強制的に読み込むと 最大列数に不足する行にはカンマが付与さ… 続きを読む »
jupyter notebookの起動ディレクトリを変更する すでにJNを利用している場合、以下フォルダの「jupyter_notebook_config.py」ファイルを修正する(またはjupyter_lab_conf… 続きを読む »
Windwos版 PATHの通し方 PATHを通してないと 以下のエラーが発生する 「’Python’は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチファイルとして認識されていません」 PATHを通す… 続きを読む »
Sファイルの個人情報を削除する
selen の最初の書き出し。忘れがち。 https://www.selenium.dev/documentation/webdriver/ MEMO ブラウザを操作するには 基本の型 プロセスを殺す 前提知識(HTML… 続きを読む »
終了と閉じる 終了 こちらが大事 quiteではない 閉じる アクティブな現在のタブを閉じる プロセス終了のため最終的にはquit()する必要がある 順番的には、close()→quit() プロセスが終了されたか確認す… 続きを読む »
Seleniumに必要なもの 動作確認 WebDriverの起動許可(Mac) ブラウザの操作テスト
基本 マウス操作 マウスの移動(絶対座標) メソッド 説明 pag.easeInQuad 開始は遅く、終了は早く pag.easeOutQuad 開始は早く、終了遅く pag.easeInOutQuad 開始と終了は早く… 続きを読む »
Typeoraの設定 「Typora」→「設定」より 起動時のフォルダ 起動時のフォルダを以下に設定 画像の保存場所 起動時フォルダが上記の場合、画像フォルダは「./Markdown/${filename}.assets… 続きを読む »
pd.crosstab(df[‘-‘],df[‘-‘],) カテゴリデータ(カテゴリカルデータ、質的データ)のカテゴリごとのサンプル数(出現回数・頻度)の算出などが可能。 … 続きを読む »
参考HP pd.isin()、todict()、all()を利用すれば出力可能 df1.isin(df2)としてしまうと、同じ行列であれば突合可能(=compare) しかし、2つのDFの行数や列数(行名、列名)が違うと… 続きを読む »
型が混在するケース 混在なしの場合(列:int) 文字列(文字列の空白含む)が混在(列:int) NaNが混在する場合(列:int) NaNが混在する場合(列:str) 列を全て int に変換 pd.to_numeri… 続きを読む »
2つのDFを比較するには「この」の方法がベスト ただし、2つのDFの列名はあわせておく必要あり 比較する列を切り出しておくとよい 理由:他列に余計なNaNや文字列が含まれていると比較できないため あくまで比較したい列だけ… 続きを読む »
スライスのコピー 参考HP:https://note.nkmk.me/python-pandas-setting-with-copy-warning/https://note.nkmk.me/python-pandas-… 続きを読む »
正確なメモリ使用量を表示させる object型が含まれる場合、メモリ使用量は正確に表示されない df.info()またはdf.memory_usage()にオプションを付与すれば表示可能 df.info(memory_u… 続きを読む »
サンプル作成 DatetimeIndexに変換 年、月を追加 年度を追加
Styler.format( formatter=None, subset=None, na_rep=None, precision=None, decimal=’.’, thousands=No… 続きを読む »
query サンプルCSV 主な条件抽出の記法 上:Booleanインデックス法(Boolean選択法) 下:クエリー 欠損値NaNがある場合の注意点 NoneやNanがある列に対して文字列メソッドを適用して条件とすると… 続きを読む »
参考HP:pandasのオプション設定を確認・変更する方法 Jupyter labの行列の最大値を設定する デフォルトに戻す
DataFrameの作り方6種(理解してないとだめ) 参考HP:https://www.self-study-blog.com/dokugaku/python-pandas-dataframe-make/ サンプルデータ… 続きを読む »
メモ: TODO: Seriesに対して桁区切りとかはできるのか? # %の列を追加 df[‘件数_%’] = df[‘顧客コード’] / df[‘顧客コード’].sum() # 列名を変更 df.rename(colu… 続きを読む »
行を削除(行名で指定) 行を削除(行番で指定) 列を削除(列名で指定) 列を削除(列番で指定) 行と列を同時に削除
重複行をすべて確認したい場合 duplicatedはデフォルトでは、最初の値「以外」を重複(True)として扱う 重複した行をすべてを表示させたい場合は、keep=False(カンマ不要)をセットする sort_valu… 続きを読む »
型を確認する(df.dtypes) 型を変換する 読み込み時(dtype) 一括変換 列ごとに変換 読み込み後(astype) 注意:元のDataFrameは変更されない 一括変換 列ごとに変換 インデックスの型を変換し… 続きを読む »
基本 df.isnull().any() は、DF全体で欠損値があるかないか(Boolean) 型を確認 特定の型の列名を表示 各列に含まれるユニークな要素の数 ある列の要素ごとの件数
japanize_matplotlib
デフォルト このようなCSVをread_csvで読み込む際、datetime型で読み込みたい(デフォルトだとobject型で読み込まれる) デフォルトで読み込むとobject型となる parse_dates=[] par… 続きを読む »
手法1 手法2
サンプルDFを作成後、pklで出力する フォルダ内のpklファイルを全結合(concat) 一部エリアの売上を集計
conda conda list conda search conda config conda info conda install パッケージのインストール conda update パッケージの更新 c… 続きを読む »
cumsum()を利用すると折線などのグラフデータが作成しやすい 一様乱数 乱数(標準正規分布) 乱数(整数) 一次元の複数個のndarrayは工夫が必要(?) 同じ乱数を使いたい(seed)
Jupyterより未まとめ
変更前:Export Notebook As…>PDF で出力しても日本語が抜ける 参考HP 以下のファイルを修正するだけ /Users/*****/opt/anaconda3/share/jupyte… 続きを読む »
Series.unique() Series.value_counts() pandas.Series.nunique()pandas.DataFrame.nunique() pandas.Series.nunique(… 続きを読む »
・2つのDataFrameの連結において ・merge()とjoin()なら、汎用的なmerge()を使ったほうが良い ・merge()は、pd.merge()のほうが使いやすそう(df.merge()より) ・キーに列… 続きを読む »
cookbook P256に記載の方法ではDF同士がふっついてしまいNG(?) 以下でよい → 参考HP
データ結合の種類 【77】DataFrameに新たな行を追加 locインデクサ appendメソッド カラム名を書き出す 1000行をappendする 【78】複数のDataFrameを接合 concat 縦にそのまま連… 続きを読む »
DataFrameをつくる ここがわかりやすい:【Python】pandasのデータフレームを作成する方法6つ 関連記事:サンプルDF作成・出力、フォルダ内のpklファイルを全結合 df = pd.DataFrame(*… 続きを読む »