先週、pythonのデータを整理するライブラリーpandasの説明をしました。その続きです。データの読み込み・保存の話です。
資料はこちら → Jupyterその9
p.1 Excelで左下のような表を作成したとします。①これを現在Jupyterのファイル同じフォルダに、保存ファイルの種類を「csv UTF-8(コンマ区切り)(*.csv)」で保存してください。②jupyterを起動して、csvファイルを読み込みます。変数=[DataFrame],read_csv(ファイルパス)を用います。最初の5行だけ表示したものが、右下の表です。 読み込みが確認されました。ファイルが同じフォルダ内であればパス名は不要です。別フォルダ内のファイルは、保存フォルダのパス名を追加してください。
p.2 今回は、教科・氏名・点数という列名が表の中にありましたが、計測器などのデータの場合、列名がない場合があります。その場合、呼び込む際に例えばA・B・Cのようなヘッダー名を予めスクリプト内に入れておけば、読み込んだ表に反映できます。
p.3 jupyterのデータをcsvファイルで保存後、Excelで読み込むと文字化けすることがあります。その場合は、①~⑤の手順で行うと文字化けが解消します。
p.4 何も指示なしで保存すると、左のように最左列に数字のインデックスが自動で付きます。 インデックス不要の場合は、index=False にしてください。
p.5 Excelデータを読み込む際は、WindowsPowershellあるいはコマンドプロンプトを用いて予めpip install openpyxlを入力して実行しておけば、csvファイルでなくとも楽にできます。
以上で、pandasの説明は終了です。後は、numpyやsympyで解析するまえの前処理として威力を発してくれると思います。
本日使用したスクリプトはこちら → jupyter9(スクリプト)