このところ jupyternotebook をつかってデーターフレーム作りしてます
データ分析はpandasでDataFrameを作ることから始まります。
基本的にはcsvファイルを読み込むことが多いですが、
必ずしも手に入れたデータがcsv形式であるとは限りません。で、
毎回一度csvに変換して読み込むの? 調べてみました。
1 csv 2 tsv 3 json 4 excel
5 sql
6 html
くらいが読み込めるようです。他にもありそうですが
よく目にするやつから読み込んでみました。
csv は前回やった ちなみにデーターごとにカンマ(,)で区切るやつです
tsv 聞いたことないなー ぐぐったらタブ区切りでした
tsv はタブ区切りと言われるほど区切りに普通表示されない
タブ文字ascii9番の文字が使われている表示されてないので
8不明ですね 間違ってるかどうかは 表示してもわからない。
csvにはpd.read_csv()
tsvにはpd.read_table()
3 json ファイルはjavaスクリプトのデーター形式で
サンプル作りました。<sample23.json>
[{"名前":"ピー助","ジェンダー":"m","age":"18"},
{"名前":"ポウ太","ジェンダー":"m","age":"20"},
{"名前":"アリス","ジェンダー":"f","age":"15"},
{"名前":"デビッド","ジェンダー":"m","age":"17"},
{"名前":"ジャスミン","ジェンダー":"f","age":"17"}]
で単純にリストのような、{}でデーターを
表しています。懐かしのC言語思い出します。 javaですが
<sample23jpynb>
import pandas as pd
df = pd.read_json("sample23.json")
df