人工知能などの、機械学習・データマイニング手法によって作られるモデルの性能を高く上げるための学習方法は、人の学習方法にも応用できます。
ちなみにこれは、高校入試・大学入試の受験生にかぎらず、資格試験などいろいろな試験に向けて勉強している人たちに非常に役立つ勉強法です。
それを
クロスバリデーション勉強法
と名づけます。
受験生たちが不安に感じるのは、試験当日に本当に試験問題をちゃんと解くことができるのか、ということです。この不安を取り払うための勉強法です。
そもそもクロスバリデーションって何?
クロスバリデーションとは、機械学習・データマイニングの分野で用いられる、回帰モデルやクラス分類モデルを評価するための方法です。この評価が高くなるように、モデルを作り変えていきます。近年、人工知能の性能が高くなっているのも、クロスバリデーションをしっかり行っているからです。
クロスバリデーションの具体的なやり方を説明しましょう。
まずデータセットをいくつかのサブデータセットに分けます。たとえば、5個に分け、それぞれのサブデータセットをA、B、C、D、Eとしましょう。次に、A以外のB、C、D、Eのみ用いて回帰モデル・クラス分類モデルを作ります。そこで得られたモデルに、Aのサンプルにおける説明変数の値を入力することで、Aの目的変数の推定値が得られます。ここでモデルを削除します。次は、B以外のA、C、D、Eのみ用いて回帰モデル・クラス分類モデルを作り、そのモデルにBのサンプルにおける説明変数の値を入力して、Bの目的変数の推定値が得ます。これを、C、D、Eについても同様に行うことで、すべてのサンプルに対して目的変数の推定値が得られます。
大事なことは、それぞれの推定値を計算するときに、同じサンプルはモデルを作るときに用いられていないということです。あるサンプルを使ってモデルを作って、それと同じサンプルをちゃんと推定できるのなんて当たり前ですよね。これと異なりクロスバリデーションでは、新しいサンプルに対する予測性能を評価できるわけです。
クロスバリデーション勉強法とは?
受験生たちは、試験当日に試験問題を解けるかどうかがいつも気がかりです。気になってイライラしてしまいます。
そこで、クロスバリデーションの考え方で、当日に解けるかどうか評価しましょう。
よくある評価方法は、もう一度問題集を解いてみる、ということです。でも、すでに一度解いた問題なのですから、二度目に解けるのなんて (忘れてなければ) 当たり前です。間違った問題だとしても、答え合わせをしたときに模範解答を確認しているわけですよね。次は解けますよ。この方法では当日に試験問題を解けるかどうかの評価なんてできません。
クロスバリデーション勉強法では、最初に問題集を解き進めていくときに、意図的に回答しない問題を残しておきます。たとえば5問に1問くらいの割合で、回答しません。この割合は問題集によって変えてください。ただ、だいたい2~5問に1問くらいがよいです。
ただ、一部の問題を残す代わりに、その他の回答した問題は、確実に解けるようになるまで、勉強しましょう。そして、もう十分勉強した、学習完了!って思えるようになったときに、回答せず残しておいた問題を回答します。
この結果を確認しましょう。十分解けているようであれば問題ありません。安心して試験当日をむかえることができます。
しかし、あまり解けていないようであれば、勉強が不十分ということです。あらためて問題集などで勉強したり、新しい問題集を買ってもう一度クロスバリデーション勉強法をしたりしましょう。
クロスバリデーション勉強法のたった1つの欠点
クロスバリデーション勉強法の欠点は、機械学習・データマイニングにおけるクロスバリデーションと異なり、一つの問題集で一度しか使えない、ということです。あまり解けなかったときに、もう一度クロスバリデーション勉強法をする場合は、新しい問題集が必要になります。
なので、最初のクロスバリデーション勉強法のときに、徹底的に勉強してから評価するようにしましょう。
まとめ
試験当日の不安をぬぐい去るために、クロスバリデーション勉強法という勉強方法を紹介しました。問題集の問題をすべて解いてしまうのではなく、2~5問に1問くらいの割合で解かずに残しておき、十分勉強したあとに当日に試験問題を解けるかどうか評価するために回答するという方法です。
もちろん、機械学習・データマイニングにおけるクロスバリデーションと同じように、ここでの評価が100%当日の結果と一致するわけではありませんが、従来の方法よりも適切に評価できます。
みなさんもクロスバリデーション勉強法によって当日の不安を消し去り、リラックスした状態で試験を受けるようにしましょう!
ご案内。
- 実践的なデータ解析の手順
- データ解析の手順の各段階における手法
- 公開中のプログラム・コード一覧(実用的かつ実践的なデータ解析・機械学習・データマイニング)
- 主成分分析(PCA)の進化する入門書・実践書~数式なしの導入から実践的応用・結果の解釈まで~(随時更新)
- 20人の学生に対する研究テーマの決め方
オススメ記事セレクション。
- 大学教員の5つのメリット (とデメリット?)
- 現役データサイエンティストへの『人工知能って怖いの?』に対する回答
- 人工知能との未来における人の役割~現役のデータサイエンティストのメッセージ~
- 集中する時間を確保するために大学教授が行っている8つのこと
- 風邪を引かないために大学教授が毎日行っている7つの方法
twitterでも発信中。
フォローしていただけると嬉しいです。
Follow @univprofblog1Tweets by univprofblog1
無料メルマガでブログにない情報を配信中。
無料メルマガの登録はこちら