SUSHI
寿司は好きですか?
概要
寿司データセットというものがあるというのを知ったので中身を見ます.
データセット
All Data Setからsushi3-2016.zip
というzipを落とします.中身は
- READMEが3つ
- データセットが5つ
という感じになっています.
カラム名等はデータセットにはついていないのでREADMEを読まないと何が何だか分かりません.日本語のREADMEが読みたい場合は文字コードがJIS(ISO-2022-JP)なのでnkf
コマンドなどで変換するといいと思います.
寿司基本データ
どんなデータか知りたかっただけなのでREADME読んだ時点でもう終わりでもいいんですが折角なので適当に見てみました.
適当に列名を付けてsushi3.idata
を読み込みました.
ID Name not_Maki not_Gyokai Categoriy Kotteri Eat-Freq Price \ 0 0 ebi 1 0 6 2.728978 2.138422 1.838420 1 1 anago 1 0 3 0.926384 1.990228 1.992459 2 2 maguro 1 0 1 1.769559 2.348506 1.874725 3 3 ika 1 0 5 2.688401 2.043240 1.515152 4 4 uni 1 0 8 0.813043 1.643478 3.287282 Sale-Freq 0 0.84 1 0.88 2 0.88 3 0.92 4 0.88
寿司嗜好データ(5000人,100カテゴリ中トップ10)
変な行やら列やらがあって,きっとPythonではなくてなにか別のデータ分析の手段のためのフォーマットなんだろうなという感じでした.
sushi3b.5000.10.order
を,先頭1行と先頭1,2列を除いて読み込みました.
1 2 3 4 5 6 7 8 9 10 0 58 4 3 44 87 60 67 1 12 74 1 22 31 60 21 8 24 6 12 17 76 2 2 15 13 1 6 25 46 74 56 55 3 8 0 3 9 24 43 4 5 29 40 4 9 47 50 30 4 19 99 55 31 13
こんな感じで5000人分のトップ10寿司ネタ番号が格納されています.
1位に選ばれる寿司ネタ
上の表の1
のカラム,すなわち1位に選ばれた寿司ネタとその回数をvalue_counts()
しました.
こんな感じでID8が強そうです.ではID8は何なのかということでpd.marge
などしました.
1 ID Name not_Maki not_Gyokai Categoriy Kotteri Eat-Freq \ 8 521.0 8 toro 1 0 1 0.551855 2.057532 19 338.0 19 chu_toro 1 0 1 0.795193 2.034483 4 307.0 4 uni 1 0 8 0.813043 1.643478 2 284.0 2 maguro 1 0 1 1.769559 2.348506 1 283.0 1 anago 1 0 3 0.926384 1.990228 6 258.0 6 ikura 1 0 7 1.264873 1.979462 9 229.0 9 amaebi 1 0 6 1.913987 2.068328 0 215.0 0 ebi 1 0 6 2.728978 2.138422 15 207.0 15 samon 1 0 1 1.271123 2.045497 13 158.0 13 hamachi 1 0 0 1.258497 1.874776 Price Sale-Freq 8 4.485455 0.80 19 3.167569 0.56 4 3.287282 0.88 2 1.874725 0.88 1 1.992459 0.88 6 2.695363 0.88 9 1.924973 0.76 0 1.838420 0.84 15 1.511774 0.64 13 1.673059 0.64
結果トロが強いということが分かりました.わかる.
安定したつよネタ
各ネタが10位以内に選ばれた回数をカウントしました.すなわちsushi3b.5000.10.order
の中身を列ごとにカウントして全て足し合わせました.apply(pd.value_counts).sum(axis=1)
みたいな感じでやりました.
特に1位と10位の間に差はなく,安定したつよネタだというのが伺えます.IDが若い番号で埋まっているのはもともとそういう感じのデータ順だったんですかね.
マージしました.
top10 ID Name not_Maki not_Gyokai Categoriy Kotteri \ 0 1546.0 0 ebi 1 0 6 2.728978 1 1535.0 1 anago 1 0 3 0.926384 3 1457.0 3 ika 1 0 5 2.688401 5 1447.0 5 tako 1 0 5 3.088459 6 1412.0 6 ikura 1 0 7 1.264873 2 1406.0 2 maguro 1 0 1 1.769559 4 1380.0 4 uni 1 0 8 0.813043 7 1353.0 7 tamago 1 1 9 2.368071 8 1321.0 8 toro 1 0 1 0.551855 10 1297.0 10 hotategai 1 0 4 2.345412 Eat-Freq Price Sale-Freq 0 2.138422 1.838420 0.84 1 1.990228 1.992459 0.88 3 2.043240 1.515152 0.92 5 1.717346 1.384330 0.76 6 1.979462 2.695363 0.88 2 2.348506 1.874725 0.88 4 1.643478 3.287282 0.88 7 1.866223 1.032468 0.84 8 2.057532 4.485455 0.80 10 1.785659 1.772196 0.76
非魚介唯一のトップ10入りの卵がやるなって感じですね.ちなみに1位に選ばれる寿司ネタでの序列は16位でした.
終わりに
寿司が食べたくなりました.
jupyterの結果を綺麗に載せられる方法を募集しています.
このデータはユーザー側のIDもユーザーデータ(出身県など)と紐づけられるので,もっと詳しい感じの分析ができそうです.興味を持った方はぜひ寿司にいきましょう.