1. LSTM的介绍
LSTM(Long Short-Term Memory)是一种递归神经网络(Recurrent Neural Network,RNN)的变体,它的主要思想是可以在网络中存储信息。在RNN模型的普通网络中,输出的每个时间步都是该时间步的输入值和它之前的所有时间步的输入值的函数。在LSTM中,多个隐藏状态按照链式方式产生,并提供了一种机制,使网络可以选择性地优先选择和保留过去的内容,并舍弃不必要的信息。
LSTM的工作原理主要涉及到三个重要的门,即遗忘门、输入门和输出门。
1.1 遗忘门
遗忘门主要用于筛选过去的记忆,即选择哪些记忆信息需要保留,哪些需要遗忘。这个门通过Sigmoid激活函数来选择性地忘记过去的信息。
def forget_gate(X, prev_h, W_f, b_f):
"""
计算遗忘门
"""
n_x, m = X.shape
n_h = prev_h.shape[0]
input_concat = np.concatenate((X, prev_h), axis=0)
f = sigmoid(np.dot(W_f, input_concat) + b_f.reshape((n_h, 1)))
return f
1.2 输入门
输入门主要用于选择哪些信息将被存储,它包含一个Sigmoid激活函数来选择性地存储过去的信息,和一个Tanh激活函数来存储新的信息。
def input_gate(X, prev_h, W_i, b_i):
"""
计算输入门
"""
n_x, m = X.shape
n_h = prev_h.shape[0]
input_concat = np.concatenate((X, prev_h), axis=0)
g = tanh(np.dot(W_i, input_concat) + b_i.reshape((n_h, 1)))
i = sigmoid(np.dot(W_g, input_concat) + b_g.reshape((n_h, 1)))
c = c_prev * f + g * i
return c, i, f
1.3 输出门
输出门主要用于决定哪些信息将被输出,它根据当前输入和过去的输入选择性地输出信息。
def output_gate(X, prev_h, W_o, b_o, c):
"""
计算输出门和当前的隐藏状态
"""
n_x, m = X.shape
n_h = prev_h.shape[0]
input_concat = np.concatenate((X, prev_h), axis=0)
o = sigmoid(np.dot(W_o, input_concat) + b_o.reshape((n_h, 1)))
h = o * tanh(c)
return h, o
2. LSTM模型的实现
下面,我们将讨论如何使用Python中的numpy库实现LSTM模型。我们先设定一些参数:
# LSTM参数设置
n_x = 1
n_h = 100
eta = 0.1
seq_length = 25
在上述代码中,我们定义了输入X的维度n_x(在本例中为1),隐藏状态的维度n_h为100,学习率eta为0.1,序列长度seq_length为25。
2.1 初始化参数
在这一部分,我们将初始化LSTM模型的参数。
def initialize_parameters(n_x, n_h, n_y):
"""
初始化参数
"""
W_f = np.random.randn(n_h, n_x + n_h) * 0.01
b_f = np.random.randn(n_h, 1) * 0.01
W_g = np.random.randn(n_h, n_x + n_h) * 0.01
b_g = np.random.randn(n_h, 1) * 0.01
W_i = np.random.randn(n_h, n_x + n_h) * 0.01
b_i = np.random.randn(n_h, 1) * 0.01
W_o = np.random.randn(n_h, n_x + n_h) * 0.01
b_o = np.random.randn(n_h, 1) * 0.01
W_y = np.random.randn(n_y, n_h) * 0.01
b_y = np.random.randn(n_y, 1) * 0.01
return {'W_f': W_f, 'b_f': b_f, 'W_g': W_g, 'b_g': b_g, 'W_i': W_i,
'b_i': b_i, 'W_o': W_o, 'b_o': b_o, 'W_y': W_y, 'b_y': b_y}
2.2 前向传播
前向传播是LSTM模型中的一项重要操作,它主要用于计算当前时间步(t)的隐藏状态(h)。 在前向传播的过程中,我们会在LSTM模型的不同时间步上执行许多操作,包括遗忘门、输入门和输出门等。
def lstm_forward(X, Y, parameters, h_prev, c_prev):
"""
计算LSTM模型的前向传播
"""
m, T_x = X.shape
n_y, _ = Y.shape
n_x, n_h = parameters['W_f'].shape
a, x, y_hat, f, i, g, o = {}, {}, {}, {}, {}, {}, {}
c, h = {}, {}
h[-1], c[-1] = h_prev, c_prev
loss = 0
for t in range(T_x):
x[t] = np.zeros((n_x, m))
x[t][:, :] = X[:, t][:, np.newaxis]
# 遗忘门
f[t] = forget_gate(x[t], h[t - 1], parameters['W_f'], parameters['b_f'])
# 输入门
g[t] = input_gate(x[t], h[t - 1], parameters['W_g'], parameters['b_g'])
# 输出门
o[t] = output_gate(x[t], h[t - 1], parameters['W_o'], parameters['b_o'], c[t])
# 新的记忆细胞状态
c[t] = c_prev * f + g * i
# 当前的隐藏状态
h[t] = o * tanh(c[t])
# 预测值
y_hat[t] = softmax(np.dot(parameters['W_y'], h[t]) + parameters['b_y'])
# 计算损失
loss -= np.sum(Y[:, t] * np.log(y_hat[t]))
cache = (a, x, y_hat, f, i, g, o, h, c)
return loss, y_hat, h[T_x - 1], c[T_x - 1], cache
2.3 反向传播
对于LSTM模型,我们可以根据前向传递过程计算出反向传播。 在此过程中,我们计算梯度,以将前向传播获得的损失传递到模型参数中,这有助于改进模型的预测。
def lstm_backward(X, Y, parameters, cache, learning_rate=eta):
"""
计算LSTM模型的反向传播
"""
m, T_x = X.shape
n_y, _ = Y.shape
n_x, n_h = parameters['W_f'].shape
a, x, y_hat, f, i, g, o, h, c = cache
dW_f, db_f, dW_g, db_g, dW_i, db_i = np.zeros_like(parameters['W_f']), np.zeros_like(parameters['b_f']), np.zeros_like(parameters['W_g']), np.zeros_like(parameters['b_g']), np.zeros_like(parameters['W_i']), np.zeros_like(parameters['b_i'])
dW_o, db_o, dW_y, db_y = np.zeros_like(parameters['W_o']), np.zeros_like(parameters['b_o']), np.zeros_like(parameters['W_y']), np.zeros_like(parameters['b_y'])
dh_next = np.zeros((n_h, m))
dc_next = np.zeros_like(dh_next)
for t in reversed(range(T_x)):
# 反向传播损失
dy = y_hat[t] - Y[:, t]
# 反向传播输出门
dh = np.dot(parameters['W_y'].T, dy) + dh_next
do = dh * tanh(c[t]) * dsigmoid(o[t])
# 反向传播记忆单元
dc = dc_next + dh * o[t] * dtanh(tanh(c[t]))
dg = dc * i[t] * dtanh(g[t])
di = dc * g[t] * dsigmoid(i[t])
df = dc * c[t - 1] * dsigmoid(f[t])
# 反向传播门
dmerge = np.dot(parameters['W_f'].T, df) + np.dot(parameters['W_i'].T, di) + np.dot(parameters['W_g'].T, dg) + np.dot(parameters['W_o'].T, do)
# 误差处理
df_grad = df * sigmoid(f[t]) * (1 - sigmoid(f[t]))
di_grad = di * sigmoid(i[t]) * (1 - sigmoid(i[t]))
dg_grad = dg * (1 - g[t] ** 2)
do_grad = do * sigmoid(o[t]) * (1 - sigmoid(o[t]))
# 反向传播输入线性组合
dW_f += np.dot(df_grad, np.concatenate((x[t], h[t - 1]), axis=0).T)
db_f += np.sum(df_grad, axis=1, keepdims=True)
dW_i += np.dot(di_grad, np.concatenate((x[t], h[t - 1]), axis=0).T)
db_i += np.sum(di_grad, axis=1, keepdims=True)
dW_g += np.dot(dg_grad, np.concatenate((x[t], h[t - 1]), axis=0).T)
db_g += np.sum(dg_grad, axis=1, keepdims=True)
dW_o += np.dot(do_grad, np.concatenate((x[t], h[t - 1]), axis=0).T)
db_o += np.sum(do_grad, axis=1, keepdims=True)
# 反向传播到上一个时间步
dh_prev = dmerge[:n_h, :]
dc_prev = dc * f[t]
dh_next = dh_prev
dc_next = dc_prev
# 参数更新
parameters['W_f'] -= learning_rate * dW_f / m
parameters['b_f'] -= learning_rate * db_f / m
parameters['W_i'] -= learning_rate * dW_i / m
parameters['b_i'] -= learning_rate * db_i / m
parameters['W_g'] -= learning_rate * dW_g / m
parameters['b_g'] -= learning_rate * db_g / m
parameters['W_o'] -= learning_rate * dW_o / m
parameters['b_o'] -= learning_rate * db_o / m
parameters['W_y'] -= learning_rate * dW_y / m
parameters['b_y'] -= learning_rate * db_y / m
return parameters
3. 完整代码示例
下面是完整的LSTM模型的代码示例。
import numpy as np
import matplotlib.pyplot as plt
def sigmoid(Z):
"""
sigmoid函数
"""
return 1. / (1. + np.exp(-Z))
def dsigmoid(A):
"""
平滑后的sigmoid函数
"""
return A * (1. - A)
def tanh(Z):
"""
tanh函数
"""
return np.tanh(Z)
def dtanh(A):
"""
平滑后的tanh函数
"""
return 1. - A ** 2
def softmax(Z):
"""
softmax函数
"""
exps = np.exp(Z - np.max(Z))
return exps / exps.sum(axis=0, keepdims=True)
def generate_data(seq_length):
"""
生成数据集
"""
with open('dataset/shakespeare.txt', 'r') as f:
text = f.read()
text = text.lower()
char_to_idx = { ch:i for i,ch in enumerate(sorted(list(set(text)))) }
idx_to_char = { i:ch for i,ch in enumerate(sorted(list(set(text)))) }
X = [char_to_idx[ch] for ch in text]
Y = np.zeros((seq_length, len(text)), dtype=np.int)
for i in range(len(text)):
if i + seq_length + 1 >= len(text):
break
Y[:, i] = X[i:i + seq_length]
X = Y[:-1]
Y = Y[1:]
return X, Y, char_to_idx, idx_to_char
def initialize_parameters(n_x, n_h, n_y):
"""
初始化参数
"""
W_f = np.random.randn(n_h, n_x + n_h) * 0.01
b_f = np.random.randn(n_h, 1) * 0.01
W_g = np.random.randn(n_h, n_x + n_h) * 0.01
b_g = np.random.randn(n_h, 1) * 0.01
W_i = np.random.randn(n_h, n_x + n_h) * 0.01
b_i = np.random.randn(n_h, 1) * 0.01
W_o = np.random.randn(n_h, n_x + n_h) * 0.01
b_o = np.random.randn(n_h, 1) * 0.01
W_y = np.random.randn(n_y, n_h) * 0.01
b_y = np.random.randn(n_y, 1) * 0.01
return {'W_f': W_f, 'b_f': b_f, 'W_g': W_g, 'b_g': b_g, 'W_i': W_i,
'b_i': b_i, 'W_o': W_o, 'b_o': b_o, 'W_y': W_y, 'b_y': b_y}
def forget_gate(X, prev_h, W_f, b_f):
"""
计算遗忘门
"""
n_x, m = X.shape
n_h = prev_h.shape[0]
input_concat = np.concatenate((X, prev_h), axis=0)
f = sigmoid(np.dot(W_f, input_concat) + b_f.reshape((n_h, 1)))
return f
def input_gate(X, prev_h, W_i, b_i):
"""
计算输入门
"""
n_x, m = X.shape
n_h = prev_h.shape[0]
input_concat = np.concatenate((X, prev_h), axis=0)
g = tanh(np.dot(W_i, input_concat) + b_i.reshape((n_h, 1)))
i = sigmoid(np.dot(W_g, input_concat) + b_g.reshape((n_h, 1)))
c = c_prev * f + g * i
return c, i, f
def output_gate(X, prev_h, W_o, b_o, c):
"""
计算输出门和当前的隐藏状态
"""
n_x, m = X.shape
n_h = prev_h.shape[0]
input_concat = np.concatenate((X, prev_h), axis=0)
o = sigmoid(np.dot(W_o, input_concat) + b_o.reshape((n_h, 1)))
h = o * tanh(c)
return h, o
def lstm_forward(X, Y, parameters, h_prev, c_prev):
"""
计算LSTM模型的前向传播
"""
m, T_x = X.shape
n_y, _ = Y.shape
n_x, n_h = parameters['W