- 简介
+ 基本编辑操作
+ 回归计算
- 回归/拟合模型
直线回归
二次曲线回归
三次曲线回归
Logit-log直线回归
Logistic
四参数或五参数 Logistic
Hill 曲线拟合
指数曲线拟合
三次样条
回归模型的选择
+ 算法
- 版本回顾
|
回归/拟合模型
这里给出本程序所用到的所有模型. 注意, 模型分两类, 一类是直线回归, 二次曲线回归,
以及三次曲线回归 (Logit-log 因是数据变换后采用直线回归, 所以也属此类),
它们有固定的公式, 所以不管回归效果如何, 一般总能得到一条回归曲线,
而且你用任何软件得到的结果都是相同的. 另一类是三种 Logistic, Hill 和指数据曲线,
它们没有一个统一的公式去求出方程参数, 各软件的做法是, 先给方程中的各参数人为设一个值,
然后根据这些值用用户输入的 X 值去计算 Y 值, 并与已知的(用户输入的) Y 值比较,
根据误差结果再去对方程的各参数进行修正, 如此反复直至误差达到一个规定值以下.
由于各软件所采用的算法可能不同, 对初始值的设置方法不同, 所以所得到的结果也可能不同.
同时, 回归结果受参数初值设定影响很大, 初值越接近终点越好. 但有时对参数初值的估计可能有较大的偏差,
此时就可能根本无法得到合适的回归方程 (尽管实际上它可能是存在的).
直线回归
|
直线回归是最简单的回归模型, 它的应用也是最广泛的. 直线回归的方程为:
y = a + b x
|
二次曲线回归
|
二次曲线回归呈抛物线形. 一般来说, 只向一个方向弯曲的曲线,
尤其是在 ELISA 中出现的, 很多都可以用二次曲线来模拟.
有的近似指数曲线, 可以用开口向上的二次曲线的右半段模拟;
有的近似对数曲线, 可以用开口向下的二次曲线的左半段模拟
(当然有时效果略差, 不如后面介绍的 Logistic).
所以二次曲线也是应用较广的回归模型之一.
二次曲线回归的方程为:
y = a + b x
+ c x2
|
三次曲线回归
|
如果曲线弯曲成S形, 一般可用三次曲线来模拟. 当然, 对于区间较广的情形,
三次曲线模拟得不一定很好. 三次曲线回归的方程为:
y = a + b x
+ c x2 + d x3
本程序中多项式回归到三次为止, 虽然更高次的回归从统计学上也不难实现,
但实际上由于曲线的波动, 反而不如二次或三次的回归更接近真实情况.
|
Logit-log 直线回归
|
前面的三个模型是通用模型, 而 Logit-log 则是免疫学检测中的模型,
可用于竞争法. 它最早用于 RIA, 但在 ELISA 中也是可以应用的.
Logit 变换源于数学中的 Logistic 曲线.
数学中有如下的 S 型曲线:

这个曲线常用来对 "全或无" 型的变量进行连续模拟 (其值在 0 - 1
之间). 而在质反应中,
阳性反应率 p 常用下列 "改造"后的 S 型曲线模拟:

如果令 Y = a + b x
, 则上式可变为:

称为 Logit 变换. 在竞争 RIA 及 ELISA 中, 当竞争性反应物为 0 时结合率为 100%,
如果某一浓度下结合率为 B, 即:

我们可以对 B 进行 Logit 变换:

y 与浓度的对数成线性关系, 即:
y = a + b lg x
这就是本程序使用的 Logit-log 模型. 它要求必须至少有一个
x = 0 的点 (多个也可, 反应值取平均), 其反应值应为最大.
本质上它也是线性回归, 只不过是在回归前做了变换.
|
Logistic 曲线拟合
|
Logistic 曲线也是源于前面所讲的 S 型曲线模型:

将该函数改造成为

及含有常数项的

就成了本程序中所用的 Logistic 曲线模型了. 另外,
本程序中还有两个 "一般形式" 的 Logistic 曲线,
是把原方程中分母变为幂的形式:

以及

|
四参数及五参数 Logistic 曲线拟合
|
四参数 Logistic 曲线虽称 Logistic, 但与上述的 Logistic
不同. 它源于前面的 Logit-log 模型. 将 Logit-Log
方程进行变换, 可得如下形式的方程 (这里不详细推导):

这就是四参数 Logistic. 然而它不仅限于竞争法, 实际上夹心法也可以用它.
它的形状, 根据情况, 可能是一个单调上升的类似指数, 对数,
或双曲线的曲线, 也可能是一个单调下降的上述曲线,
还可以是一条 S 形曲线. 它要求 X 值不能小于0
(因为指数是实数, 故有此要求). 在很多情况下它都可以拟合
ELISA 的反应曲线, 所以它也成了 ELISA 中应用最广的模型之一.
五参数 Logistic 是把四参数模型中的分母变为幂的形式,
其方程如下:

理论上它可以比四参数 Logistic模型有更好的适应性.
但在实际应用时, 因其方程过于复杂, 拟合算法不完善,
所以有时反而得不到结果.
|
Hill 曲线拟合
|
Hill 曲线, 我认为在某种程度上可以看成是四参数
Logistic 曲线的特例. 在没有四参数 Logistic 时
(本程序的最初版本), 我就常用它来拟合 ELISA .
其方程如下:

由于缺少四参数 Logistic 中的常数项 D, 所以它的适应性不如
四参数 Logistic 广. 但是参数少有时也有好处, 就像五参数
Logistic 应该比四参数 Logistic 有更强的适应性,
但实际应用中有时用五参数 Logistic 反而得不到结果一样,
有时 四参数 Logistic 回归不好而用 Hill 反而能得到较好的拟合.
|
指数曲线拟合
|
指数曲线的方程如下:
y = ymin + A (1 - e -x)
|
三次样条
|
所谓样条, 是机械制造业的术语. 据说(我不很确定) 过去造船时, 要过几个点画一条平滑的曲线,
在没有计算机的年代, 采用有弹性的竹条, 使之弯曲并通过这几个点, 这样可得到一个平滑的曲线,
这竹条就是样条. 所以样条曲线是通过几个点的视觉上平滑的曲线.
用计算机模拟样条, 是在每两点之间都构造一个函数, 这些函数在连接点处必须是平滑的.
所谓三次样条, 就是指每两点间的曲线都是由三次多项式构成. 为保证其平滑,
每一个点两侧的三次函数, 其导数必须相等, 而且我们要求其二阶导数也要相等,
以达到更好的平滑效果. 显然, 如果有 N 个点, 则有 N-1 个区间, 也就有 N-1 个三次多项式.
由于它是由多个三次多项式分段构成的, 所以本程序在回归结果中,
并未给出它的方程. 而且, 由于它肯定通过所有点 (或其均值), 所以计算残差也无意义.
使用三次样条计算时注意, 测量点一定在样条的区间内才可以, 一旦出了标准曲线的区间,
可能会得到无法预料的结果. 当然, 任何回归计算时待测样品都应满足这一要求,
但三次样条对此要求更严.
|
|