僕なりipython notebookによるデータ解析
僕は長期インターンをやっていまして、今の仕事内容として、データ分析をやらさせていただいているのですが、そこで使っているのが、ipython notebook(jupter notebook)です
今日もその作業をやっていたので、その辺について書いていきたいと思います
なぜpython??
自分の中ではデータの量や型の制限が他言語に比べないと思っていて、データ解析を始めるにあたって、初めR言語を勉強しました。そしてRを使っていたのですがデータ量が多かったり、データの中に型違いがあったりして、そこに対応できなくて、もともと勉強していたpythonを使ってみて、そして、調べてipythonを使ってみて使いやすかったし、データ量、型違いにも対応できてかつ、スクリプトとして書いて、他の人に使ってもらうこともできたので、pythonにしています
python バージョン
anaconda3-4.1.1でpython3の開発環境をcondaで作ってやっています
いつも使っているライブラリ
- pandas
- numpy
- networkx
- graphviz
- matplotlib
作業順序
- 抽象的な依頼とデータを投げられる
- データの確認
- 必要データの抽出
- 欲しいデータ分析結果を出すために整形
- 解析用のスクリプトtest組む
- 別ファイルで、これまでのフローを一括でやれるスクリプトとして組み直す
- 6で作成したスクリプトを使って何通りかの分析を行う
だいたいこんな流れでやっています 正しいかどうかはわかんないです、助言が欲しいw
勉強したこと
この二つをやりました。 二つとも会社が勉強用に用意してくれたもので、それをやりました。 一つ目の本の方はなかなか面白くできましたし、こういう解析方法があるのか!と思いながら、実際にRをいじりながらできてなかなかためになりましたね
二つ目の講座の方は僕はあまり受け付けませんでした! というのも、僕が受けて見て思ったことが以下の通りです
- 翻訳を読んでいるかのようで頭に入ってこない
- 1より時間が経つと気持ち悪くなってくる
- 個人的にドットインストールの声のが好き
こんな感じで、続きませんでした。 あくまで個人的意見なので、受けて見てもいいかもしれません!
まとめ
こんな感じの環境と手法で解析しているのですが、田舎ではこう行った勉強会などは行われていないので、独学なのでぶっちゃけ古いのか間違っているのかもわかりません!!! ので詳しい人は教えていただけるとありがたいです! こんなツールがあるだとか、pythonよりこっちのがいいだとか…