飽きるまでやります。

私の私による私のためのメモ。内容に一切の責任を負えません。

SUSHI

寿司は好きですか?

概要

寿司データセットというものがあるというのを知ったので中身を見ます.

データセット

www.kamishima.net

All Data Setからsushi3-2016.zipというzipを落とします.中身は

という感じになっています.

カラム名等はデータセットにはついていないのでREADMEを読まないと何が何だか分かりません.日本語のREADMEが読みたい場合は文字コードがJIS(ISO-2022-JP)なのでnkfコマンドなどで変換するといいと思います.

寿司基本データ

どんなデータか知りたかっただけなのでREADME読んだ時点でもう終わりでもいいんですが折角なので適当に見てみました.
適当に列名を付けてsushi3.idataを読み込みました.

   ID    Name  not_Maki  not_Gyokai  Categoriy   Kotteri  Eat-Freq     Price  \
0   0     ebi         1           0          6  2.728978  2.138422  1.838420   
1   1   anago         1           0          3  0.926384  1.990228  1.992459   
2   2  maguro         1           0          1  1.769559  2.348506  1.874725   
3   3     ika         1           0          5  2.688401  2.043240  1.515152   
4   4     uni         1           0          8  0.813043  1.643478  3.287282   

   Sale-Freq  
0       0.84  
1       0.88  
2       0.88  
3       0.92  
4       0.88 

寿司嗜好データ(5000人,100カテゴリ中トップ10)

変な行やら列やらがあって,きっとPythonではなくてなにか別のデータ分析の手段のためのフォーマットなんだろうなという感じでした.

sushi3b.5000.10.orderを,先頭1行と先頭1,2列を除いて読み込みました.

   1   2   3   4   5   6   7   8   9   10
0  58   4   3  44  87  60  67   1  12  74
1  22  31  60  21   8  24   6  12  17  76
2   2  15  13   1   6  25  46  74  56  55
3   8   0   3   9  24  43   4   5  29  40
4   9  47  50  30   4  19  99  55  31  13

こんな感じで5000人分のトップ10寿司ネタ番号が格納されています.

1位に選ばれる寿司ネタ

上の表の1のカラム,すなわち1位に選ばれた寿司ネタとその回数をvalue_counts()しました.

f:id:sdr816:20181119002628p:plain

こんな感じでID8が強そうです.ではID8は何なのかということでpd.margeなどしました.

        1  ID      Name  not_Maki  not_Gyokai  Categoriy   Kotteri  Eat-Freq  \
8   521.0   8      toro         1           0          1  0.551855  2.057532   
19  338.0  19  chu_toro         1           0          1  0.795193  2.034483   
4   307.0   4       uni         1           0          8  0.813043  1.643478   
2   284.0   2    maguro         1           0          1  1.769559  2.348506   
1   283.0   1     anago         1           0          3  0.926384  1.990228   
6   258.0   6     ikura         1           0          7  1.264873  1.979462   
9   229.0   9    amaebi         1           0          6  1.913987  2.068328   
0   215.0   0       ebi         1           0          6  2.728978  2.138422   
15  207.0  15     samon         1           0          1  1.271123  2.045497   
13  158.0  13   hamachi         1           0          0  1.258497  1.874776   

       Price  Sale-Freq  
8   4.485455       0.80  
19  3.167569       0.56  
4   3.287282       0.88  
2   1.874725       0.88  
1   1.992459       0.88  
6   2.695363       0.88  
9   1.924973       0.76  
0   1.838420       0.84  
15  1.511774       0.64  
13  1.673059       0.64 

結果トロが強いということが分かりました.わかる.

安定したつよネタ

各ネタが10位以内に選ばれた回数をカウントしました.すなわちsushi3b.5000.10.orderの中身を列ごとにカウントして全て足し合わせました.apply(pd.value_counts).sum(axis=1)みたいな感じでやりました.

f:id:sdr816:20181119003402p:plain

特に1位と10位の間に差はなく,安定したつよネタだというのが伺えます.IDが若い番号で埋まっているのはもともとそういう感じのデータ順だったんですかね.

マージしました.

     top10  ID       Name  not_Maki  not_Gyokai  Categoriy   Kotteri  \
0   1546.0   0        ebi         1           0          6  2.728978   
1   1535.0   1      anago         1           0          3  0.926384   
3   1457.0   3        ika         1           0          5  2.688401   
5   1447.0   5       tako         1           0          5  3.088459   
6   1412.0   6      ikura         1           0          7  1.264873   
2   1406.0   2     maguro         1           0          1  1.769559   
4   1380.0   4        uni         1           0          8  0.813043   
7   1353.0   7     tamago         1           1          9  2.368071   
8   1321.0   8       toro         1           0          1  0.551855   
10  1297.0  10  hotategai         1           0          4  2.345412   

    Eat-Freq     Price  Sale-Freq  
0   2.138422  1.838420       0.84  
1   1.990228  1.992459       0.88  
3   2.043240  1.515152       0.92  
5   1.717346  1.384330       0.76  
6   1.979462  2.695363       0.88  
2   2.348506  1.874725       0.88  
4   1.643478  3.287282       0.88  
7   1.866223  1.032468       0.84  
8   2.057532  4.485455       0.80  
10  1.785659  1.772196       0.76 

非魚介唯一のトップ10入りの卵がやるなって感じですね.ちなみに1位に選ばれる寿司ネタでの序列は16位でした.

終わりに

寿司が食べたくなりました.
jupyterの結果を綺麗に載せられる方法を募集しています.

このデータはユーザー側のIDもユーザーデータ(出身県など)と紐づけられるので,もっと詳しい感じの分析ができそうです.興味を持った方はぜひ寿司にいきましょう.