DASKによる探索的データ分析(EDA) | Kabuku Developers Blog

株式会社カブクで、機械学習エンジニアとしてインターンシップをしている杉崎弘明(大学3年)です。 目次 本記事の目的 探索的データ解析(EDA)とは何か KaggleのコンペティションでEDA サイズの大きいデータの扱い方 DASK EDAの実行 最後に 本記事の目的 本記事では探索的データ解析(EDA)の説明と並列処理フレームワークDASKの処理解説、DASKを用いた実際のデータに対するEDAの一例を紹介いたします。 データはKaggle Competitionにおいて公開されている「TalkingData AdTracking Fraud Detection Challenge」を使用します。 Kaggleという言葉を初めて聞いた方は以下のサイトなどをご覧ください。 - 実行環境 - OS: Ubuntu 16.04 LTS - メモリ(RAM)サイズ: 8 GB - 言語: Python3.5.2 探索的データ解析(EDA)とは何か 探索的データ解析(Exploratory Data Analysis: EDA)は、John W. Tukeyによって提唱された考え方であり、データが持っている様々な側面の情報から特徴を取り出すアプローチ全般のことです。John W. Tukeyは当時、仮定の上でのみ成り立つ数理的統計だけでなく、実際のデータの解析を重要視し、探索的データ解析として箱ひげ図などの可視化によるアプローチを開発しました。 探索的アプローチは複雑なデータからモデルが適用できるような特徴を見つけることに意味があります。例えば、現実のデータは大変複雑な構造をしているので数理統計によるモデルの仮定を最初から満たしてくれません。そこでデータの特徴を上手く把握することでで、それに応じたモデルの選択が可能になります。 EDAの方針としては以下のようなものが挙げられます。 - 記述統計量の把握 - 平均値・四分位数・標準偏差・最大値・最小値などの数値データ - 箱ひげ図による視覚的把握 - サンプル図を挿入 - 単純なデータの可視化 - 各説明変数(特徴量)と目的変数との関係性の可視化 - 記述統計量で得られた値などを元にプロットします。 - 散布図 -

Date: 2019/06/12 21:48

Related Entries

Read more Python 機械学習プログラミング データ分析演習編
Read more Python 機械学習プログラミング データ分析ライブラリー解説編
Read more 言語処理学会第25回年次大会(NLP2019)に一般発表とスポンサーで参加しました - Gunosyデータ分析ブログ
Read more 言語処理学会第24回年次大会(NLP2018)に参加 & 論文賞受賞しました - Gunosyデータ分析ブログ
Read more サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition) - Gunosyデータ分...