技術ブログ

Developers's blog

機械学習で採用予定人数を予測する。狙い目企業はどこ?

2020.08.28 芳賀 彩未
利用事例 機械学習
機械学習で採用予定人数を予測する。狙い目企業はどこ?

2022年卒大学生の皆さん!

コロナウイルスが流行していることで就活にどういう影響があるのか、とても不安ですよね。

今回は業界ごとに採用人数を予測し、「どの業界が狙い目なのか」機械学習を使った分析手順を紹介します!

目次

  1. 概要
  2. 手順
  3. 今後の課題


1.概要

データセットの内容

スクリーンショット 2020-08-25 9.47.11.png


分析対象の7業界・各4企業

  1. 化粧品
  2. 電子機器
  3. 商社
  4. 不動産
  5. 金融
  6. サービス
  7. IT・情報


説明変数と目的変数

特徴量
年初の株価、決算報告書提出翌日の株価、一株あたりの純資産額、従業員数、業界番号
決算報告書翌日の株価が出ていないところは提出後直近の株価を使用する。また、純資産額に関しては決算報告書が7/1の時点で未提出の場合に限り、昨年の値を使用する。


目的変数
採用人数
新卒採用人数は、リクナビorマイナビorキャリタスのデータを使用する。  

2.手順

今回は方法の紹介を行う。


欠損値の補完

従業員数
過去2年分の従業員数の変化率を使う。
例えば、2018年と2019年の従業員数の変化率を使って2020年の従業員を補完する。


株価
①複数企業での、同じ年代の1月株価と通期決算報告翌日の株価の変化率の平均を使う。
 例えば、リクルートの2018年の1月株価と決算翌日の株価の変化率をA、東京海上日動の2018年の変化率をBとする。ミクシィの2018年の決算翌日の株価を求めたい時(1月株価は既知)、AとBの変化率の平均値を1月株価に掛けて補完する。
②1月株価の値と決算翌日の株価の値、どちらも未知の場合は行を削除する。


純資産
直近の純資産で補完する。


モデル

回帰分析
回帰分析して、業界ごとの採用人数の平均値をとる。
説明変数:従業員数、株価(決算報告翌日)、業界、純資産
目的変数:採用人数


クラスタリング
①従業員数、純資産を複数の範囲に分けて数字or文字に置き換える。
 例えば、従業員数3000以下は「1」、3001〜5000を「2」で置く。
②①で数字に置き換えた二つのカラムを使い、純資産÷従業員数で得た結果を新しいカラム[value]に入れ込む。
③株価と採用人数も①同様に複数の範囲に分けて数字or文字に置き換える。
④数字で複数個の範囲に分けた採用人数を「down」「stay」「up」の3つのグループにまとめる。
説明変数:「value」「株価(決算報告書提出翌日)」
目的変数:採用人数


今後の課題

今回は5つの特徴量のみで行ないましたが、もっと良い特徴量があるかもしれません。 また、データ数が少なく欠損値が多かったため、期待する制度に満たない可能性があります。

精度を向上のためには、特徴量・企業のデータ数を増やすこと、欠損値の補完方法を変えるなど、様々な方法があります。今後はモデルの実装も含め行います。

関連記事

機械翻訳の歴史と今後の可能性

目次 機械翻訳とは 機械翻訳の手法 現在の機械翻訳の欠点 欠点が改善されると 今後の展望 機械翻訳とは 機械翻訳という言葉を理解するために2つ言葉を定義する。 系列 : 記号の列のことで自然言語処理の世界だと文を構成する単語の列になる。 系列変換モデル : 系列を受け取り、それを別の系列に変換する際の確率をモデル化したもの。系列変換モデルはseq2-seqモデルとも呼ばれている。 この2つの言葉から機械翻訳は、ある言語の文章(系列)を別の言語の文章(系列)

記事詳細
機械翻訳の歴史と今後の可能性
利用事例 機械学習 自然言語処理
機械学習で為替予測(FX)をしてみる

こんにちは。 皆さんはFXでお金を稼ぎたいと思ったことはあるでしょうか?もしFXでこれまでの生活を一変させるような額のお金を稼ぐことができたら夢のようですよね? 今回はそんな夢を目指して、為替の値動きを機械学習で予測してみたというお話をしたいと思います。 目次 概要 手順 結果 今後の課題 1 概要 使用したデータセット:OANDA APIを用いて取得 https://www.oanda.jp/fxproduct/api (デモ口座を開設することにより、無

記事詳細
機械学習で為替予測(FX)をしてみる
利用事例 機械学習
データから簡単にレポート作成!  ーARRIA NLG PLCで自然言語生成ー

皆さんはレポートを作成する際、どのような方法で作成していますか? 膨大な量のデータを読み解き、文章を考えて、何かうまくまとまらない...... もっと簡単にできたらいいのに!と思ったことはありませんか? この記事では、Arria NLG PLCのデータから文章を生成する技術について紹介します。 1 ARRIA NLG PLCとは? ARRIA NLG PLCは2009年に設立した企業です。しかし、その技術は30年間の科学的研究に基づいたもので、ARRIA

記事詳細
データから簡単にレポート作成!  ーARRIA NLG PLCで自然言語生成ー
利用事例 機械学習
感染症モデルを用いた実効再生産数の予測 ーコロナウイルスはどれほど拡大するのかー

新型コロナウイルス感染症とは? 2019年12月より中国で 新型コロナウイルス ( COVID-19 )による肺炎が発生し、2020年4月現在では日本国内でも急速に感染が拡大しています。 新型コロナウイルスは、感染症法における「 指定感染症 」、及び検疫法における「 検疫感染症 」に指定され、感染が確認された患者に対して入院措置などの法的処置を取ることが可能となりました。 今回は、まず感染の拡大等を予測できる感染症モデルについていくつか紹介していこうと思い

記事詳細
感染症モデルを用いた実効再生産数の予測 ーコロナウイルスはどれほど拡大するのかー
利用事例 機械学習

お問い合わせはこちらから