LMS自适应滤波的FPGA实现(一)

真的是准备电赛到不知道还要准备什么了著

可以选择文末点个赞

本文较长,建议使用电脑端

[TOC]

原理-最优估计技术

这一部分是建议大家看完后面的在跳回来.

术语/模型定义和基本假设

在立论之前,我们先定义一下相关信号量和系统模型,这次的系统大概是这个样子的:

有几个会反复提及到的参量:

x=自适应系统的输入
y=自适应系统的输出
d=(自适应系统的)期望响应
e=d-y=估计误差

而且我们在这里还需要对信号的特性进行假设,我们假设信号是满足广义稳态(Wide Sense Stationary)的.并不需要严格平稳或者是各态历经.也就是说信号具有一下特性:
对均值有:
$$ \eta =E{x} = \lim_{N\to \infty} \frac1N \sum_{N=0}^{N-1}x[n]$$
对方差有:
$$ \sigma^2 = E{(x-n)^2} = \frac1N \sum_{N=0}^{N-1}(x[n]-\eta)^2 $$
对自相关函数:
$$ r[\tau] = E{x[t_1]x[t_2]} = E{x[t+\tau]x[t]} = \lim_{N\to \infty} \frac1N \sum_{N=0}^{N-1}x[n]x[n+\tau]$$
特别地:
$$ r[0] = E{x[t]x[t]} = E{ | x[t]|^2 } $$

代价函数

这个又是现在机器学习er喜见乐闻的定义了,

我们在这里定义误差函数为: $ e[n]=d[n]-y[n] $
其中d[n]是要估计的随机变量,y[n]是通过自适应滤波计算的估计点

我们在里用最小均方(也称最小二乘法)(也称平方误差代价函数)来定义代价函数:
$$ J= E{e^2[n]} = \overline{(d[n]-y[n])^2} $$

最优维纳估计

这里推导的目的在于如何从理论上得到最佳的h[k] (下称$f_k$)

假设我们使用FIR滤波器来解决问题,则输出的响应为:
$$ y[n] = \sum_{k=0}^{L-1}f_k x[n-k] $$
不妨使用向量来表达上式:
$$ y[n] = \vec{x^T}[n]\vec{f} = f^T \vec{x}[n] $$
所以我们可以更新e[n]:
$$ e[n] = d[n]-y[n] = d[n] - f^T \vec{x}[n] $$
进着,我们可以求解代价函数:
$$ J = E{e^2[n]} = E{ d[n]-y[n] }^2 = E{d[n] - f^T \vec{x}[n]}^2 \
= E{(d[n] - f^T \vec{x}[n])(d[n] - f \vec{x^T}[n])} \
=E{d[n]^2 -2d[n]f^T \vec{x}[n] + \vec{f^T}x[n]x^T[n]\vec{f} } $$

在latex写向量是在太麻烦了,下省

大家可以回想一下梯度下降法,后面才会真正介绍,这里想进一步减少代价函数的话,只要对$f$求偏导就可以了
$$ \nabla = \frac{\partial J}{\partial f^T} = E{ -2d[n]x[n] +2x[n]x^T[n]f_{opt} } =0 $$
假设滤波器的权重向量f和信号向量x[n]是不相关的,则有:
$$ E{ d[n]x[n] } = E{ x[n] x^T[n] }f_{opt} $$

所以结果就呼之欲出了:
$$ \vec{f_{opt}} = E{ \vec{x}[n] \vec{x^T}[n] }^{-1} E{ d[n]\vec{x}[n] } $$
一定要注意这里的x[n]是一个列向量,列向量,列向量
所以其实结果已经非常明显了,下面还是分开讲讲:

$ E{ \vec{x}[n] \vec{x^T}[n] }$
很显然这个就是自相关矩阵,其中的矩阵形式是这样的:
$$\begin{bmatrix}
{x[n]x[n]} & {x[n]x[n-1]} & \cdots & x[n]x[n-(L-1)] \
x[n-1]x[n] & x[n-1]x[n-1] & \cdots \
\vdots & & \ddots &\vdots \
x[n-(L-1)]x[n] & \cdots & \cdots \end{bmatrix}\quad$$

=
$$\begin{bmatrix}
{r[0]} & r[1] & \cdots & r[L-1] \
r[1] & r[0] & \cdots & r[L-2] \
\vdots & & \ddots &\vdots \
r[L-1] & r[L-2] & \cdots &r[0]\end{bmatrix}\quad
$$

$ E{ d[n]\vec{x}[n] }$
这里因为d[n]是一个标量,所以这个矩阵就是一个互相关函数的列向量而已

所以我们可以将f改写成:
$$ f_{opt} = \vec{R_{xx}}^{-1}\vec{r_{dx}} $$

从公式我们可以看到,如果$f_{opt}$存在的一个前提在于,$R_{xx}$的逆必须存在,也就是说$R_{xx}$必须是非奇异矩阵,所以这才是我们前提所假设的广义平稳需要,因为对于广义平稳信号来说,他的$R_{xx}$就是一个非奇异矩阵,并且存在逆矩阵

回代到代价函数,我们可以得到估计的标准误差,这里不给出过程了(懒)
$$ J_{opt} = r_{dd}[0] -f^T_{opt}r_{dx} $$

实践-维纳-霍夫算法

也就是上面所说的算法,现在我们假设输入是一个由曼彻斯特编码的信号m[n],幅值B=10,外加两个噪声:

高斯白噪声5dbm吧 2. 电力线噪声,幅值A=50 频率60Hz

现假设采样频率是电网噪声的4倍,即240Hz,我们用一个二抽头的FIR滤波器来解决这个问题

所以现在的d[n]为:
$$d[n] = Acos[\pi n/2] +Bm[n] +\sigma^2 n[n] $$
自适应滤波的输入的基准信号x[n]为:
$$ x[n] = cos[n\pi /2 + \phi] $$
其中$\phi = \pi/6$是一个角度偏移量.所以系统的输出是:
$$ y[n] = f_0 cos[n\pi/2 +\phi ] + f_1 cos[(n-1) \pi/2 +\phi ] $$

所以:
对于自相关函数:
$$ r_{xx}[0] = E{ (cos[n\pi /2 + \phi] )^2 } = \frac12 $$
$$ r_{xx}[1] = E{ cos[n\pi /2 + \phi] sin[n\pi /2 + \phi] } = 0$$

对于互相关函数:
$$ r_{dx}[0] = E{ (Acos[\pi n/2] +Bm[n] +\sigma^2 n[n]) cos[n\pi/2 +\phi ] } = \frac A2 cos(\phi) = 12.5\sqrt{3}$$
$$ r_{dx}[1] = E{ (Acos[\pi n/2] +Bm[n] +\sigma^2 n[n]) sin[n\pi/2 +\phi ] } = \frac A2 cos(\phi-\pi) = 12.5$$

所以下矩阵为:
$$ f_{opt} = \vec{R_{xx}}^{-1}\vec{r_{dx}} =
\begin{bmatrix}
{r_{xx}[0]} & r_{xx}[1] \
r_{xx}[1] & r_{xx}[0]
\end{bmatrix}^{-1}
\begin{bmatrix} {r_{dx}[0]}\r_{dx}[1] \end{bmatrix} \
= \begin{bmatrix} {2} & 0 \0 & 2\end{bmatrix}^{-1} \begin{bmatrix} 12.5\sqrt{3}\ 12.5 \end{bmatrix} \
= \begin{bmatrix} {2} & 0 \0 & 2\end{bmatrix} \begin{bmatrix} 12.5\sqrt{3}\ 12.5 \end{bmatrix}
= \begin{bmatrix} 25\sqrt{3}\ 25 \end{bmatrix}$$

matlab仿真结果

现在给出matlab仿真结果:

Widrow-Hoff最小二乘算法

从上面的最优维纳估计我们可以知道,实际上这种方法是理论不可实现的,因为自相关矩阵当系统规模变大的时候后变得极其的庞大和冗余,而且计算时间也极其长,所以我们需要一种方法来得到新的$R_{xx}^{-1}$

Widrow-Hoff最小二乘(LMS)算法是一种实时近似逼近$R_{xx}^{-1}$的实用方法,而且在后面的讨论中我们会发现他有较好的性能.而且公式极其对机器学习有基础的同学友好.

原理推导

实际上我们可以放弃对$f_{opt}$一次性求解,进而变成逐次按梯度逼近,也就是:
$$ f[n+1] = f[n] -\frac{\mu}2\nabla [n] $$
这条公式相信学过梯度下降的同学都很熟吧…

所以现在我们对误差的估计就变成了对误差方向的估计,而用梯度下降的思想来考虑这个问题的话,我们就需要让误差的均值向每一个$f$进行求导,即:

$$ \nabla [n] = \begin{bmatrix} \frac{\partial E{e[n]^2}}{\partial f_0}& \frac{\partial E{e[n]^2}}{\partial f_1} &\cdots &\frac{\partial E{e[n]^2}}{\partial f_{L-1}}\end{bmatrix}^T $$

实际上我们总不可能在FPGA上算误差的均值吧,所以这里要取真的误差值作为估计值:
$$ \hat\nabla [n] = \begin{bmatrix} \frac{\partial e[n]^2}{\partial f_0}& \frac{\partial e[n]^2}{\partial f_1} &\cdots &\frac{\partial e[n]^2}{\partial f_{L-1}}\end{bmatrix}^T = 2e[n]\begin{bmatrix} \frac{\partial e[n]}{\partial f_0}& \frac{\partial e[n]}{\partial f_1} &\cdots &\frac{\partial e[n]}{\partial f_{L-1}}\end{bmatrix}^T $$

所以实际上:
$$ \hat\nabla [n] = -2e[n]\frac{\partial e[n]}{\partial \vec{f}} = -2e[n]x[n] $$

回代到最初的起点,得:
$$ f[n+1] = f[n] -\mu e[n]x[n] $$
请记住,这条是最为重要的公式.

参数限定

这里唯一要注意的参数就是这个每次迭代的$\mu$,在这里我们不展开,大家学过机器学习的可以迁移思考一下梯度下降的学习率(learning rate)过大或者过小对算法的影响

最后的一些碎碎念

实际上这篇博客我是不太想写的,因为其实这个工作是大二上学期的时候做的了.但是最近看机器学习的时候看到梯度下降的时候想了一下,还是决定写一下.

其实如果大家有修过高等代数或者吴恩达的机器学习的话,实际上你可以看到,前半部分的最优估计技术其实就是正规方程法,后半部分的Widrow-Hoff最小二乘算法就是通用的梯度下降法
再者,如果大家有修过凸优化理论的内点法的话,其实这个就是内点法里面的牛顿法…

结语

这就是我们要用FPGA实现的算法了,其实算法已经写完很久了,但是因为最近电赛的原因就重写一次吧…
但是因为这篇博客的公式实在是太多了,我都不好意思再写FPGA的结构设计了,就留待明天更新吧.

参考文献

高斯白噪声的产生
 latex画矩阵
 LMS算法自适应滤波器
 自适应滤波器及LMS自适应算法的理解
通信原理教程(第三版) –樊昌信著

数字信号处理的FPGA实现

如果你觉得有丶收获的话