非線型最小二乗法(JEA式の作成過程)

　今日は窒素酸化物濃度(concentrasion of NOX)などを計算する解析的な低煙源拡散式(analytic diffusion formula from low-height source)のパラメータの推定(prediction of parameters)のために用いたことがある非線形最小二乗法(non-linear least square method)について解説してみたいと思います。(直角風のJEA式)

　地上の道路上の自動車(automobiles on the road)から発生する窒素酸化物などを,単位長さ当たり(per unit length)の発生源(source)がＱ(Ｎｍ³/(ｍｓ)のｙ軸上で有効煙源高さ(effective height):ｈe＝0(ｍ)の無限線煙源(infinite line-souce)としてモデル化(modelize)し,道路に直角のｘ方向に風が吹いている設定で(wind direction is x normal to road=y-axis),風速(wind speed)も拡散係数(diffusion coefficient)も高さ(height from ground)ｚ(ｍ)のベキ乗則に従って鉛直上方に向かって増加する(increase by power of z)というモデルでの拡散方程式(diffusion equation)の解(solution)を,垂直距離(distance)ｘ(ｍ)と高さｚ(ｍ)の関数と考えて濃度Ｃ(ｘ,ｚ)で表すと,これはＡをＱに比例するあるパラメータ(A is a parameter proportional to Q)として,Ｃ(ｘ,ｚ)＝Ａｘ^-sexp(－Ｂｚ^p/ｘ)という式(Robertsの式)で表わされる,ことがわかります。

　いろいろな環境(circumstance)の下で数回にわたって行なわれた実際の実験(experiments)時の煙源長さ(source-length)はもちろん有限(finite)なのですが,とりあえずこれを無限大長さ(infinite length)で近似します。実は誤差関数(Gaussian error function)でもって有限長さの効果(finite-legth effect)を取り入れることもできるのですが,今日の話題では割愛します。実験はトレーサーガス(tracer gas)を地上にある有限長さの直線状のパイプ(linear pipe)に均等間隔(equal distance)で開けた穴(holes)から拡散させるというものです。

そのパイプ状の発生源をｙ軸としたとき,ｎ個の観測点座標(coordinate of n-obserbation points):(ｘ_i,ｚ_i)(ｉ＝1,2,．．．ｎ)において,風向が直角に近い環境のときの実測濃度(measured concentration):ｃ_iと先に設定した低煙源拡散式による計算値(calculated value):Ｃ_i＝Ｃ(ｘ_i,ｚ_i)とを比較することによって,逆にその式のパラメータＡ,ｓ,Ｂ,ｐを推定します。

　具体的には,Ｃ(ｘ,ｚ)＝Ａｘ^-sexp(－Ｂｚ^p/ｘ)の右辺をｆ(Ａ,ｓ,Ｂ,ｐ；ｘ,ｚ)と書いて,Ｃ_i＝ｆ(Ａ,ｓ,Ｂ,ｐ；ｘ_i,ｚ_i)とし,計算値と実測値の誤差の二乗和(sum of square of error):Ｓ(Ａ,ｓ,Ｂ,ｐ)＝∑(Ｃ_i－ｃ_i)²を最小(minimum)にするパラメータＡ,ｓ,Ｂ,ｐを求めるわけです。これは次に述べる非線形最小二乗法のパラメータ数が４個のときの例(example)になっています。

　ここではより一般的にパラメータがｒ個あるとし,それらを順にＡ₁, Ａ₂,．．Ａ_r とします。上のケース(case)ではｒ＝4で,Ａ₁＝Ａ,Ａ₂＝ｓ,Ａ₃＝Ｂ,Ａ₄＝ｐです。そして,Ｃ_i＝Ｃ(ｘ_i,ｚ_i)＝ｆ(Ａ₁,Ａ₂,．．Ａ_r；ｘ_i,ｚ_i)とし,Ｓ(Ａ₁,Ａ₂,．．Ａ_r)≡∑(Ｃ_i－ｃ_i)²と定義するわけです。

　誤差の二乗和Ｓが最小となる条件は通常の線形回帰(linear regression)の計算の場合と同様,Ｆ_i(Ａ₁,Ａ₂,．．Ａ_r)≡∂Ｓ/∂Ａi＝2∑(Ｃ_k－ｃ_k)∂Ｃ_k/∂Ａi＝0 (ｉ＝1,2,．．ｒ)で与えられますから,この r 個の連立方程式(simultaneous equations)を解くことにより,未知数(unknown numbers)Ａ₁,Ａ₂,．．Ａ_rを求めることが主目的となります。これらの方程式は一般に非線形ですから,こうした非線形回帰によるパラメータ推定の方法を非線形最小二乗法と呼ぶことにします。

　具体的には,Ｆ_i(Ａ₁,Ａ₂,．．Ａ_r)＝0 (ｉ＝1,2,．．ｒ)を線形近似(linear approximation)することにより多変数のニュートン法(Newtonian method of many variables)を実行します。　

　そこで,まず連立方程式を線形近似します。すなわち,初期値(initial values)としてＡ_j＝Ａ_j⁰ を適当に与えた後に,　0 ＝Ｆ_i(Ａ₁,Ａ₂,．．Ａ_r)＝Ｆ_i(Ａ₁⁰,Ａ₂⁰,．．Ａ_r⁰)＋∑(∂Ｆ_i/∂Ａ_j)|_Ａ＝Ａ0(Ａ_j－Ａ_j⁰)と近似します。

これを行列形式(matrix form)で書くため,Ｄという行列(matrix)をＤ＝(ｄ_ij)≡(∂Ｆ_i/∂Ａ_j)で定義し,特にＤ₀＝(ｄ_ij⁰)≡(∂Ｆ_i/∂Ａ_j)|_Ａ＝Ａ0とします。そして,列ベクトルＡをＡ≡^t(Ａ₁,Ａ₂,．．Ａ_r)で定義し,特にＡ₀≡^t(Ａ₁⁰,Ａ₂⁰,．．Ａ_r⁰)として,さらにＦ_i(Ａ₁⁰,Ａ₂⁰,．．Ａ_r⁰)を成分とする同様な列ベクトルをＦ₀と定義すれば,先の線形近似は 0＝Ｆ₀＋Ｄ₀(Ａ－Ａ₀)と表わされます。

これを単純に解くと,Ａ＝Ａ₀－Ｄ₀^-1Ｆ₀と近似されることになります。ここで,Ｄ₀^-1はもちろんＤ₀の逆行列(inverse matrix)です。

得られたＡ＝Ａ₀－Ｄ₀^-1Ｆ₀を,改めてＡ₀として代入(substitute)してＤ₀^-1Ｆ₀を計算し,Ａ＝Ａ₀－Ｄ₀^-1Ｆ₀を収束(converge)するまで繰り返し(iterate)ます。すなわち,Ａ_m+1＝Ａ_m－Ｄ_m^-1Ｆ_mの漸化式(recurrence formula)において誤差(error)|Ａ_m+1－Ａ_m|の相対値(rate)が十分小さく(sufficiently small)なるまで繰り返し計算すればＡ_m＝^t(Ａ₁^m,Ａ₂^m,．．Ａ_r^m)のｍ→∞ での極限値(limit)としてＦ_i(Ａ₁,Ａ₂,．．Ａ_r)＝0 (ｉ＝1,2,．．．ｒ)を満足するＡ＝^t(Ａ₁,Ａ₂,．．Ａ_r)が得られるというわけです。

さらに実際には収束を速くするために加速係数(acceleration coefficient):ｗを与えてＡ_m+1＝Ａ_m－ｗＤ_m^-1Ｆ_mとする方法(method)を用いたほうがいいと思います。

実際のｒ＝4 の計算では,かつてFortranを使ってプログラミング(programming)しましたが,初期値を適切に取ると各環境のケースについて大体十数回の繰り返し計算でパラメータの推定値が得られました。そして濃度の実測値とその推定パラメータによる計算値との相関係数(correlation coefficient)としては,0.9前後の値が得られ,回帰係数(regression coefficient)の値も0.8 から 1.2程度となって,仮定した計算式が良い近似になることがわかりました。

http://fphys.nifty.com/ (ニフティ「物理フォーラム」サブマネージャー）

http://blog.with2.net/link.php?269343 (ブログ・ランキングの投票）↑ここをクリックすると投票したことになります。