tjtjtjのメモ

自分のためのメモです

BQML で分類モデルを使用して訪問者の購入を予測する

GW 明けても ML Study Jams 受け付けていたのでやってみた。

やったこと

  • ラボアカウントでログイン
  • クーポン入力
  • BigQuery の使い方練習
    • 「従来の UI に移動」が見つからない
    • 迷っているうちに、従来のUIっぽいのが表示された
    • https://bigquery.cloud.google.com/ から行くのがいいっぽい?
  • e コマース データセット の確認
    • e コマース利用者の多くは閲覧するもののすぐ購入しない
  • e コマースデータを探索する
    • sql のコピペ
  • モデル1 作成と評価
    • いくつかモデルタイプがあるらしい
      • linear_reg 数値
      • logistic_reg 0 または 1
      • 今回は 将来購入する/しない ので後者
    • モデル作成
      • create table/insert/select っぽい構文
    • モデル評価
      • 0.7 decent
  • モデル2 作成と評価
    • モデル作成
      • モデル1 より詳細な特徴を評価?
      • insert select っぽい構文
    • モデル評価
      • 0.9 good
  • 予測クエリ
    • 時間がなくコピペのみ

感想

  • 古いBigQueryUIをさがしたり、ラボアカウントでなくなってしまったり、手間取りが多かった
  • 取り組むまえにコースの目的を理解しておかないとBigQueryUIを使うだけになってしまう
  • クエリコピペするだけでは理解できない
  • モデル作成に5-10分かかった
  • 1時間15分で理解できるわけなかった
  • 今度はクエリこねくり回してどんな結果が得られるのか試したい

テキストを読み直す

  • BigQuery とは
  • e コマース利用者の多くは、初見で購入しない
    • これは学習せず既存データのselect から得られた
  • どういったユーザーが購入するか予測してみる
    • 特徴
      • totals.bounces 合計直帰数
      • totals.timeOnSite セッションの合計時間
    • モデル1 作成
    • 評価: 0.7 decent
  • モデルの改善
    • 特徴
      • 初回訪問時に訪問者は購入手続きをどこまで進めていたか 等
    • モデル2 作成
    • 評価: 0.9 good

ということらしい。 学習モデルを作るにしても適切な特徴を使わないとだめだよねってことか。 しかし、モデルを適切に評価しているのか今回だけではわからない。 分析に必要なテーブルをデータ付きで生成しているように思えるが、あれが学習なのか?

参考

support.google.com

qiita.com

やる前にこれ知りたかったorz