田舎っぺ大学生録

ある田舎県の田舎の町で大学生やってる僕が、思ったこと、やったこと、勉強したこと、などをつらつら書いて行く

僕なりipython notebookによるデータ解析

僕は長期インターンをやっていまして、今の仕事内容として、データ分析をやらさせていただいているのですが、そこで使っているのが、ipython notebook(jupter notebook)です

今日もその作業をやっていたので、その辺について書いていきたいと思います

なぜpython??

自分の中ではデータの量や型の制限が他言語に比べないと思っていて、データ解析を始めるにあたって、初めR言語を勉強しました。そしてRを使っていたのですがデータ量が多かったり、データの中に型違いがあったりして、そこに対応できなくて、もともと勉強していたpythonを使ってみて、そして、調べてipythonを使ってみて使いやすかったし、データ量、型違いにも対応できてかつ、スクリプトとして書いて、他の人に使ってもらうこともできたので、pythonにしています

python バージョン

anaconda3-4.1.1でpython3の開発環境をcondaで作ってやっています

いつも使っているライブラリ

  1. pandas
  2. numpy
  3. networkx
  4. graphviz
  5. matplotlib

作業順序

  1. 抽象的な依頼とデータを投げられる
  2. データの確認
  3. 必要データの抽出
  4. 欲しいデータ分析結果を出すために整形
  5. 解析用のスクリプトtest組む
  6. 別ファイルで、これまでのフローを一括でやれるスクリプトとして組み直す
  7. 6で作成したスクリプトを使って何通りかの分析を行う

だいたいこんな流れでやっています 正しいかどうかはわかんないです、助言が欲しいw

勉強したこと

この二つをやりました。 二つとも会社が勉強用に用意してくれたもので、それをやりました。 一つ目の本の方はなかなか面白くできましたし、こういう解析方法があるのか!と思いながら、実際にRをいじりながらできてなかなかためになりましたね

二つ目の講座の方は僕はあまり受け付けませんでした! というのも、僕が受けて見て思ったことが以下の通りです

  1. 翻訳を読んでいるかのようで頭に入ってこない
  2. 1より時間が経つと気持ち悪くなってくる
  3. 個人的にドットインストールの声のが好き

こんな感じで、続きませんでした。 あくまで個人的意見なので、受けて見てもいいかもしれません!

まとめ

こんな感じの環境と手法で解析しているのですが、田舎ではこう行った勉強会などは行われていないので、独学なのでぶっちゃけ古いのか間違っているのかもわかりません!!! ので詳しい人は教えていただけるとありがたいです! こんなツールがあるだとか、pythonよりこっちのがいいだとか…