基礎編:Pythonと統計学で物流データを分析
はじめに
前回のブログではpython利用環境設定(Anaconda)から基本動作確認、利用環境上に読み込んだデータセット(変数)の時系列・ヒストグラム・散布図の一連アウトプットを進めて参りました。本ブログでは、より実践的なアプローチ(相関関係・重回帰分析等)を取り入れ、Python・統計学の学習を進めていきたいと思います。それではいきましょう!
統計基礎分析(1):相関関係ヒートマップ図
前ブログ記事にてご紹介したpandasのread.csv()から読み込んだデータセットより、変数間の相関関係をヒートマップで出力いたします。
ヒートマップの出力結果は以下の通りです。
相関係数の値は、-1から1までの範囲を取ることができ、1に近いほど強い正の相関、-1に近いほど強い負の相関、0に近いほど相関が弱いことを示します。
上記結果から、出荷量(c/s)が作業時間と最も高い正の相関を持っていることが分かります。これは、出荷量が増加すると作業時間も増加する可能性が高いことを示唆しています。また、入荷量(原料)も比較的高い正の相関を持っています。デバニングはわずかな負の相関を持っていますが、この相関は非常に弱いため、実際の影響は限定的と考えられます。
また入荷量(原料)と出荷量の相関はわずかに負の相関があるため、入荷量(原料)が大きくなるにつれて、出荷量が大きくなるという関連はなく、それぞれが独立して作業時間が伸びることに影響していることが思料されます。以上のことから、出荷量と入荷量(原料)が作業時間に影響している可能性が高いと考えられます。
【統計基礎分析(2):重回帰分析】
続いては、重回帰分析(複数の説明変数から、一つの目的変数を予測)を出力します。
出力結果は以下の通りです。
各変数の係数:
・資材入荷量: 3.0977 * 10^-5
・入荷量(原料): 2.2995 * 10^-3
・出荷量(c/s): 0.0188
・デバニング: -4.0531
・バンニング: 6.0412
これらの係数は、それぞれの変数が1単位増加すると、作業時間がどれだけ増減するかを示します。
例: 「出荷量(c/s)」が1単位増加すると、作業時間は約0.0188時間増加すると予測されます。
ここで、p-value(P値)は各変数が作業時間に対して有意に影響を持つかどうかを示す指標である。p-valueが0.05以下の場合、その変数は有意に作業時間に影響を持つと考えられます。
この結果から、出荷量(c/s)のみがp-value0.05以下です。ただし、p値が0.05以上であることは、関連がないことを断定できるわけではありません。統計学において、他の変数との相互作用やデータ特性を考慮することが必要です。つまり、p値が0.05以上であっても、その変数が作業時間に影響を持つ可能性は排除できないと考えられます。 つまり、説明変数と目的変数の関連に矛盾がなければ、係数をそのまま解釈することも可能です。例:バンニング作業が1回増えると作業時間が約6.04時間増えると予想されます。
統計基礎分析(3):実測値と予測値の対比
最後に、実測値と予測値の差分を出力します。
今回は統計基礎分析(2)で計算した重回帰モデルmodel3を使用します。df[“差分]=df[“作業時間(h)”] – model3.predict(X_multi_all)にて実績値と予測値の差分を計算します。
※予測値:重回帰モデルmodel3にpredict関数を用いて説明変数を代入することで、予測値を計算することが可能です。
全体考察
以上分析結果から下記のような考察を示すことが可能です。
・出荷量の管理と最適化:「出荷量(c/s)」が作業時間との関連性が高いことが確認された。このため、出荷量のピークを分散させるためのスケジューリングや、出荷効率を上げるための工程の見直しを検討すると良いと考えられます。
・入荷量の管理:資材入荷量・原料入荷量も作業時間に影響を与える要因として確認。入荷のスケジューリングを見直し、一度に大量の資材や原料が入荷しないように管理することで、作業の負荷を軽減することができる可能性があります。
・データの追加収集:一部の月で実測値と予測値の差が大きいということが確認されました。モデルに含まれていない作業時間に影響を与えている要因が存在する可能性が考えられる。このような要因を特定し、データを収集してモデルに組み込むことで、さらに精度の高い予測や影響力の分析が可能です。
昨今ではChatGPTなどのAIツールを活用してPythonの構文・意味を学びながら分析作業を進め、また正確な統計解析が可能です。これからもPython、ChatGPT等を積極的に活用しつつ、統計学等のデータ分析業務を通じて深い示唆を得ていきたいと思います。
(この記事は、2023年12月30日時点の状況をもとに書かれました。)
掲載記事・サービスに関するお問い合わせは
お問い合わせフォームよりご連絡ください
佐藤 洋貴が書いた記事
-
ブログ / 1,433 views導入編:Pythonと統計学で物流データを分析
プログラミング等について非専門の筆者が、Python を活用して物流データを統計解析する方法について 解説します。分析時の環境設定から準備、実践的なケーススタデ…
この記事の関連タグ
関連する記事
-
ブログ / 646 views
-
ブログ / 702 views理論在庫(適正在庫)算定のかんどころ
理論在庫(適正在庫)の算定について、巷の教科書的な資料を補足する視点で安全在庫を主体に語っています。巷の解説資料でも計算式自体はたくさん記載があるので、計算する…
-