技術ブログ

Developers's blog

AI・機械学習が作り出すデータの活用方法

2020.02.26 細井奎吾
利用事例 機械学習 論文解説
AI・機械学習が作り出すデータの活用方法

機械学習のアルゴリズムがつくりだす状況を利用して、自然実験に近い分析をおこなった事例を紹介します。
このような事例を応用すれば、実際に実験をおこなわなくても介入効果などが分かるかもしれません。


はじめに

昨今、AI・機械学習の進歩のおかげで、様々な予測をおこなうことができるようになりました。
みなさんも機械学習を使った株価の予測などニュースでみかけることも増えたと思います。
株価だけでなく、交通量からチケットの売上・電力消費量etc......
なんでも予測されていますね。笑
このように2019年現在、たくさんの企業がなんらかの予測をするためにデータを集めています。


今回はこうした集めたデータを利用して、さらに分析をした事例を紹介します。
※正確に表現すると機械学習アルゴリズムが作った状況を利用して分析する事例です。


介入効果とは

介入効果と書くとピンと来ませんが、おこなったアクションに効果があったのかということです。

ある会社で商品の宣伝のために、全国でテレビCMをおこなったとします。
その結果、商品の売上が30%も上がりました! すごい! これからどんどんテレビCMを放送しよう!


本当にこれで良いでしょうか?


クリスマス時期のため売上が上がったかも...。(実際に多くの売上のデータでは季節調整がされています。)
もしくは、有名人がたまたまSNSでその商品の写真をupしたことで、若者を中心に大流行したからかも...。


テレビCMはお金をかけてやる必要があったのでしょうか?
広告の効果を正確に知るには、広告以外の状況が同じ店舗の売上を比べればわかります。(ざっくりいうとほぼ状況が同じものを比較する)


この場合だと、地域ごとにテレビCMを放送する地域、しない地域で分け、さらに売上状況や天気等、条件を揃えて比較する必要があります。


残念ながらこのような状況を意図的に作り出すのは難しいです。
より多くクリックされるweb広告を比較したり、奨学金の効果など、状況を同じにして効果を実験したい例はたくさんあります。


こうした詳しく原因を分析することを因果推論といいますが、これについては当社の記事「はじめての因果推論」を参考にしてみてください!


アルゴリズムが生むランダム化実験

ここで登場するのが、機械学習のアルゴリズムを利用して得るデータです。
需要と供給によって価格が変わるUberXのデータを使って、利用者がどれくらい価格に反応するか(価格弾力性)を測る分析を紹介します。
ここでネックなのが、価格だけの影響を知りたい場合に、どうやって他の要因を排除するか...
この点は、先程のテレビCMの効果を測る例と共通しています。


ここで役立つのが、機械学習を使ったアルゴリズムで集めたデータです!
Uberはもともと状況に応じて、自動で価格を上げ下げする仕組みです。そのためアルゴリズム内部では、1.249など少数点以下もしっかり計算されています。
しかし、利用者はそこまで細かい金額では払えないので、少数点第二位以下を四捨五入して表示するようプログラムされています。
ここにランダム化実験を見出すことができます。
つまりUberでは、1.249は1.2と表示され、1.251 は1.3と表示されることになります。
しかし値段以外の要因は1.249と1.251では、ほとんど同じです。よってこの2つで比較すれば、価格が利用者にどう影響するかを明らかにできます。


アルゴリズムが生むランダム化実験の応用性

このように、機械学習のアルゴリズムで集めたデータに自然実験が行えるような例は、たくさんあるのではないでしょうか?
例えば、裁判官の判決や奨学金を与えると生徒はどうなるのかなどです。
実際サイバーエージェントでは、こうした手法を使い広告の効果を測定する研究も行われているそうです。


このような手法を使えば、ランダム化実験や人為的なABテストなど、時間やコストが多くかかるプロセスを
回避できるかもしれません。


参考文献

・矢田紘平、成田悠輔「機械学習は自然実験を作り出す」『経済セミナーe-book No.15』、日本評論社、2019年12月、19-20ページ
・Cohen, Peter, Robert Hahn, Jonathan Hall, Steven Levitt and Robert Metcalfe (2016) "Using Big Data to Estimate Consumer Surplus: The Case of Uber,"NBER Working Paper 22627.
・Narita, Yusuke, Shota Yasui and Kohei Yata (2019) "Efficient Counterfactual Learning from Bandit Feedback,"Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence, pp.4634-4641.


Twitter・Facebookで定期的に情報発信しています!

関連記事

AWSを利用した弊社の開発環境

目次 AUCの使用ツール GitHub、CircleCI使用までの流れ AWSの構成図 まとめ AUCの使用ツール 弊社ではGitHubとCircleCIの2つのツールを利用し、DevOpsの概念を実現しております。 DevOpsとは、開発者(Development)と運用者(Operations)が強調することで、ユーザーにとってより価値の高いシステムを提供する、という概念です。  開発者は、「システムへ新しい機能を追加したい」  運用者は、「システムを

記事詳細
AWSを利用した弊社の開発環境
利用事例
機械学習で採用予定人数を予測する。狙い目企業はどこ?

2022年卒大学生の皆さん! コロナウイルスが流行していることで就活にどういう影響があるのか、とても不安ですよね。 今回は業界ごとに採用人数を予測し、「どの業界が狙い目なのか」機械学習を使った分析手順を紹介します! 目次 概要 手順 今後の課題 1.概要 データセットの内容 分析対象の7業界・各4企業 化粧品 電子機器 商社 不動産 金融 サービス IT・情報 説明変数と目的変数 特徴量 年初の株価、決算報告書提出翌日の株価、一株あたりの純資産額、従業員数

記事詳細
機械学習で採用予定人数を予測する。狙い目企業はどこ?
利用事例 機械学習
機械翻訳の歴史と今後の可能性

目次 機械翻訳とは 機械翻訳の手法 現在の機械翻訳の欠点 欠点が改善されると 今後の展望 機械翻訳とは 機械翻訳という言葉を理解するために2つ言葉を定義する。 系列 : 記号の列のことで自然言語処理の世界だと文を構成する単語の列になる。 系列変換モデル : 系列を受け取り、それを別の系列に変換する際の確率をモデル化したもの。系列変換モデルはseq2-seqモデルとも呼ばれている。 この2つの言葉から機械翻訳は、ある言語の文章(系列)を別の言語の文章(系列)

記事詳細
機械翻訳の歴史と今後の可能性
利用事例 機械学習 自然言語処理
機械学習で為替予測(FX)をしてみる

こんにちは。 皆さんはFXでお金を稼ぎたいと思ったことはあるでしょうか?もしFXでこれまでの生活を一変させるような額のお金を稼ぐことができたら夢のようですよね? 今回はそんな夢を目指して、為替の値動きを機械学習で予測してみたというお話をしたいと思います。 目次 概要 手順 結果 今後の課題 1 概要 使用したデータセット:OANDA APIを用いて取得 https://www.oanda.jp/fxproduct/api (デモ口座を開設することにより、無

記事詳細
機械学習で為替予測(FX)をしてみる
利用事例 機械学習

お問い合わせはこちらから