1. 将来を予測する柔軟なモデルとは

時系列分析を実施する際に注意しなければならない点は、どのモデルも過去のデータには適合しており、そのパターンや関係性は将来も変わらないということを前提にしていることです。


■予測モデルのやっかいな問題


将来を予測するには、過去のデータから適合するモデル(例えば、回帰モデル、Winterの方法の加法モデルなど)を考え、将来の予測にも使えるかどうかを考えます。適合するモデルかどうかについて考える際、特に回帰分析においては、最小二乗法による推定を適正に行うため、誤差が無作為で、正規分布すること、また誤差の分散が一定であることを必要条件としますので、そのチェックが不可欠です。

また、時系列分析でも上記のような条件をチェックすることが大切ですが、必ずしもそのような条件を満たす必要はなく、観測値が多いデータの場合は、正規性からの若干の離脱が結果に深刻な影響を与えることはないことが知られています。

しかし、実際の業務において、将来を予測することを試みる場合、いつもこれらの条件を満たすとは限りません。さらに言えば、過去のデータによく適合するモデルが将来を予測する優れたモデルであるともいえないのです。製造業における工業製品のモデルであれば、製造条件や規格が制御されていることも多いため、例えば回帰分析を行えば、よく適合するモデルというものは、将来を予測するモデルといえることもあります。一方、経済やビジネスの世界では、時系列データを長期で採用することに意味がない場合もあり、無作為変動や測定される誤差(あるいは余計な外乱)が大きい中で、制御されたデータを得ることは難しいこともあるでしょう。

したがいまして、過去のデータによく適合するモデルというものは理論的に存在するのかもしれませんが、それがどのモデルであるかを特定するのは、なかなかにやっかいなことで、適合するモデルが見つかったとしても、それが将来の予測に利用できるとは限らないのです。よく適合するモデルを見つけるには、過去のデータをなるべく多く使うことが理想だと思いますが、それらのデータに対して適合し過ぎるモデルを作成してしまうと、ガチガチの頑固なモデル、つまり将来を予測するには柔軟ではないモデルができあがってしまうこともあるかもしれません。


■すべてのデータは使わない


そこで、すべてのデータを使うのではなく、一部を使ってモデルを作成し、そのモデルによる予測値と残りの観測値とを比較する方法もとることができます。これにより、例えば、時系列分析の精度測度MSD(平均平方誤差)が一番小さなモデルを見つけることもできます。また検証を行う際に、得られた観測値のデータの期を一つずつずらしていき(例えば、月ごとに取ったデータの場合は一ヶ月ずつずらす)、期ごとに予測の精度やモデルの適合度を検証するという方法もあります。これにより、ある期間ずらすことで、もっとも適合するモデルを発見できる可能性があります。これらのことを、時系列分析のサンプル外検証(out-of-sample testing)と呼んでいます。

また、回帰分析のモデルにおいても同様のことがいえます。大きく外れた点が存在している場合に回帰モデルを作成すると、大きく外れた点を含んだ形で、残差平方和SSEを計算し、それを使って下記のようにR二乗(決定係数)を求めていますので、回帰式としてやや柔軟性に欠ける結果になることがあります。

R二乗 = 1 - SSE / SSTotal

そこで、i番目の観測値をデータセットから除外し 、残りのn - 1個の観測値から回帰式を推定し、この回帰式を使ってi番目の観測値の適合値Yhat(i)を計算します。これを観測されたデータn回分繰り返します。この適合値Yhat(i)と実際に観測されたYの値の差を計算、二乗し、合計したものが予測残差平方和PRESSになりまして、通常の残差平方和SSEを使うのではなく、このPRESSを使って決定係数を考えた方が、回帰式として柔軟であるかどうかを判定することができます。

R二乗(予測) = 1 - PRESS / SSTotal

このPRESSを求める一連の作業のことを、クロスバリデーション(Leave-one-out)と呼んでいます。Minitab では、[統計] > [回帰] > [回帰] > [オプション] にて該当箇所にチェックすることにより、クロスバリデーションの結果を得ることができます。

いずれにしても、同じモデルを使いながらも、すべてのデータを使うのではなく、一部のデータを使って検証することで、将来の予測に対する柔軟なモデルを作成できるかもしれません。


[ 2010.8.30 from S.Yukutake ]


2. Minitab 16 のアシスタント機能: I-MR管理図

ここではMinitab 16 のアシスタント機能を使ったI-MR管理図についてご説明いたします。



レポートカード


正規性: データは正規性検定に合格しました。

安定性: 工程平均および工程変動が安定していない可能性があります。I管理図で3個(3.0%)の点が管理外です。MR管理図で2個(2.0%)の点が管理外であり、I管理図の管理限界の妥当性に影響を与える可能性があります。工程が安定していても、I管理図で0.7%の点、MR管理図で0.9%の点が偶然に管理外になる可能性があります。管理外の点を調査し、特殊原因があるものは計算から除外してください。

データの量: 100個以上のデータ点が計算に含まれているため、管理限界の精度について心配する必要はありません。

相関データ: データは相関検定に合格しました。連続するデータ点間の相関は、0.2未満です。


要約レポート


コメント: 工程平均が安定していない可能性があります。I管理図で3個(3.0%)のデータ点が管理外です。工程が安定していても、0.7%の点が偶然に管理外になる可能性があるため注意してください。


といったように、自身で色々な前提を調査しなくても、アシスタント機能が管理図を表示すると同時に全てを調査してくれますので、とても便利です。

※ 相関データ: I-MR管理図において、隣どうしのデータが相関している場合、誤った警告の数が増える可能性があるため、そのようなことが起きているかどうか計算しており、いわゆる自己相関について確認しています。


[ 2010.8.30 from S.Yukutake ]