あずきみるくのあずきはニガテ - for Engineer

ひよっこプログラマがやってみたことやハマっちゃったことなど、備忘録的な感じで書いていきます。

AzureMLをはじめてみた。(3)データの準備ー整形?編

今回もお手本にならって進めます。

・・・ていうか、このお手本、中途半端に日本語訳されてるから、
ほんと困っちゃう、、、

それはさておき。

データをとりこんだはいいものの、正しいデータの条件である
「全てのデータに抜けがなく、連続したデータであること」
が満たせていないことが今回の問題。


ここでいう、赤枠の部分が抜け、ね。
f:id:azuki-milk-lush:20170818131636p:plain


これを解決していきます。



1)モデルから不要な列を除外する
そもそも、この列が何を意味している列なのか、イマイチわかってないけど、、、
とりあえず除外するらしい。
不必要なデータ、ってことかしらね。。。

まずは、横から「Select Columns in Dataset(列の選択)」モジュールを
ドラッグ&ドロップ。

すると、こんな感じになります。
f:id:azuki-milk-lush:20170818131235p:plain


それから、上の○から下の○に線をひっぱります。
f:id:azuki-milk-lush:20170818132138p:plain


これで接続できた、のかな?


で、「Select〜」を選択して、プロパティウィンドウを開きます。
右上の「<」をぽちすると右からぺろっと出てきます。
(先生には「プロパティウィンドウを〜」とか書いてあるけど、
 最初どこから開くかわかんなかった。。。
 勝手に閉じちゃったからだね)
f:id:azuki-milk-lush:20170818135522p:plain


ので、そこの「Launch Column Selecter(列セレクターの起動)」をポチします。
f:id:azuki-milk-lush:20170818133119p:plain


こんな感じの画面出ましたね。
f:id:azuki-milk-lush:20170818133355p:plain


じゃー、順番に設定します。

  1. 左側の「WITH RULES(規則を使用)」を選択
  2. 「Bigin With(次で始まる)」は「All Column(全ての列)」を選択
  3. 「Exclude(除外)」を選択
  4. テキストボックスをクリックすると、全部の列名が表示される ←いまココ

f:id:azuki-milk-lush:20170818133914p:plain


で、今回は「normalized-losses」列が問題だったので、
そいつを選択してやると、こうなる。(複数選択もできるみたいやね)
#ちなみに、読み進めてわかったんだけど、
 「normalized-losses」は「正規化された損失」って意味だったんだね。
 まだよくわかってないアホがここにおりますが。。。
f:id:azuki-milk-lush:20170818134902p:plain


で、仕上げに右下のチェックボタンを押してあげると、こうなる。
f:id:azuki-milk-lush:20170818140024p:plain


これで、「normalized-losses」列以外は全ての列がフィルターを通過することになった、らしい。



2)データのクリーンアップ
さて、邪魔モノを除外する準備が整ったので、あとは綺麗にするだけ、ってことでしょうか。

今度は、「clean」で検索をかけて、
「Clean Missing Data(見つからないデータのクリーンアップ)」を
ドラッグ&ドロップします。
f:id:azuki-milk-lush:20170818140730p:plain


で、また同じようにつなぎます。
f:id:azuki-milk-lush:20170818141033p:plain


そしたら、またプロパティを編集。
#今度は開きっぱなしだったから迷わないよ笑
「Cleaning mode(クリーニングモード)」を「Remove entire row(行全体を削除)」
にするだけ。

これで、見つからない値を含む行は削除されて、対象データとして
妥当?正当?なデータだけが残されることになる、ようです。
f:id:azuki-milk-lush:20170818141300p:plain


そしたら、仕上げに「RUN(実行)」ボタンをポチしましょう。
f:id:azuki-milk-lush:20170818141750p:plain


正常に動いた場合は、右側に緑のチェックがついて、
上の方に「Finished runnning(実行が完了しました)」って表示されます。
f:id:azuki-milk-lush:20170818141937p:plain


・・・ならなったら、、、がんばって調べてくださいw


3)確認
じゃー、最後に確認してみましょう。
ほんとにちゃんとデータできた?


「Clean Missing Data」を右クリック >「Cleaned dataset」 > 「Visualize」
f:id:azuki-milk-lush:20170818142343p:plain


おおー!なんか、抜けがなくなってる!!
f:id:azuki-milk-lush:20170818142547p:plain



ぶっちゃけ、何が起こってるのかはまだよくわかってないけど、
とりあえず綺麗になった、ってことかな。。。

まだまだ先は長い。。。




docs.microsoft.com