Введение
Просто поймите концепцию сегментации китайских слов и используйте стандартные наборы данных, Keras и TensorFlow для реализации сегментации китайских слов на основе LSTM и CNN соответственно.
принцип
Сегментация китайских слов относится к разделению предложений на слова в соответствии с семантикой.
我来到北京清华大学 -> 我 来到 北京 清华大学
Две основные проблемы в сегментации китайских слов:
- Неоднозначность, полисемия
- Out Of Vocabulary (OOV), распознавание новых слов
Два широко используемых метода классификации:
- На основе словаря: используйте существующие словари и некоторые эвристические правила, такие как метод максимального совпадения, метод обратного максимального совпадения, метод наименьшего количества слов, комбинация максимальной вероятности на основе ориентированного ациклического графа и т. д.
- На основе аннотаций: проблему маркировки слов можно рассматривать как тип маркировки последовательностей, а именно
SBME
Четыре аннотации, такие как скрытые марковские модели.HMM
, модель максимальной энтропииME
, модель условного случайного поляCRF
, нейросетевая модель и т. д.
Аннотация последовательности принадлежитSeq2Seq Learning
Один из них, который является последним случай на рисунке ниже
Пример из глубокого обучения Micro-Professional Lesson 5 Эндрю Нг
Представлено в курсе полного стекаjieba
Причастие, используемый метод:
- Эффективное сканирование графа слов на основе словаря префиксов для создания ориентированного ациклического графа (DAG), состоящего из всех возможных словообразований китайских иероглифов в предложении.
- Динамическое программирование используется для поиска пути с максимальной вероятностью, и находится максимальная комбинация сегментации на основе частоты слов.
- Для незарегистрированных слов используется модель HMM, основанная на способности китайских иероглифов образовывать слова, и применяется алгоритм Витерби.
данные
использоватьBakeoff 2005
Аннотированный корпус предоставлен, включая четыре источника
Мочалка холодная. В это время. У Чикаго. Quota / Buck off2005…
- Academia Sinica: как
- CityU: город
- Пекинский университет: pku
- Исследование Майкрософт: msr
Взяв, к примеру, msr, он включает в себя всего четыре файла.
-
msr_training.utf8
: Разделить данные тренировки -
msr_training_words.utf8
: обучающий тезаурус данных -
msr_test.utf8
: несегментированные тестовые данные -
msr_test_gold.utf8
: Данные сплит-теста
BiLSTM
После сортировки данных и выполнения встраивания слов (встраивания символов) используйте Keras для реализации двунаправленного LSTM для маркировки последовательностей.
загрузить библиотеку
# -*- coding: utf-8 -*-
from keras.layers import Input, Dense, Embedding, LSTM, Dropout, TimeDistributed, Bidirectional
from keras.models import Model, load_model
from keras.utils import np_utils
import numpy as np
import re
подготовить словарь
# 读取字典
vocab = open('data/msr/msr_training_words.utf8').read().rstrip('\n').split('\n')
vocab = list(''.join(vocab))
stat = {}
for v in vocab:
stat[v] = stat.get(v, 0) + 1
stat = sorted(stat.items(), key=lambda x:x[1], reverse=True)
vocab = [s[0] for s in stat]
# 5167 个字
print(len(vocab))
# 映射
char2id = {c : i + 1 for i, c in enumerate(vocab)}
id2char = {i + 1 : c for i, c in enumerate(vocab)}
tags = {'s': 0, 'b': 1, 'm': 2, 'e': 3, 'x': 4}
определить некоторые параметры
embedding_size = 128
maxlen = 32 # 长于32则截断,短于32则填充0
hidden_size = 64
batch_size = 64
epochs = 50
Определите функцию, которая считывает и упорядочивает данные
def load_data(path):
data = open(path).read().rstrip('\n')
# 按标点符号和换行符分隔
data = re.split('[,。!?、\n]', data)
print('共有数据 %d 条' % len(data))
print('平均长度:', np.mean([len(d.replace(' ', '')) for d in data]))
# 准备数据
X_data = []
y_data = []
for sentence in data:
sentence = sentence.split(' ')
X = []
y = []
try:
for s in sentence:
s = s.strip()
# 跳过空字符
if len(s) == 0:
continue
# s
elif len(s) == 1:
X.append(char2id[s])
y.append(tags['s'])
elif len(s) > 1:
# b
X.append(char2id[s[0]])
y.append(tags['b'])
# m
for i in range(1, len(s) - 1):
X.append(char2id[s[i]])
y.append(tags['m'])
# e
X.append(char2id[s[-1]])
y.append(tags['e'])
# 统一长度
if len(X) > maxlen:
X = X[:maxlen]
y = y[:maxlen]
else:
for i in range(maxlen - len(X)):
X.append(0)
y.append(tags['x'])
except:
continue
else:
if len(X) > 0:
X_data.append(X)
y_data.append(y)
X_data = np.array(X_data)
y_data = np_utils.to_categorical(y_data, 5)
return X_data, y_data
X_train, y_train = load_data('data/msr/msr_training.utf8')
X_test, y_test = load_data('data/msr/msr_test_gold.utf8')
print('X_train size:', X_train.shape)
print('y_train size:', y_train.shape)
print('X_test size:', X_test.shape)
print('y_test size:', y_test.shape)
Определить модель, обучить и сохранить
X = Input(shape=(maxlen,), dtype='int32')
embedding = Embedding(input_dim=len(vocab) + 1, output_dim=embedding_size, input_length=maxlen, mask_zero=True)(X)
blstm = Bidirectional(LSTM(hidden_size, return_sequences=True), merge_mode='concat')(embedding)
blstm = Dropout(0.6)(blstm)
blstm = Bidirectional(LSTM(hidden_size, return_sequences=True), merge_mode='concat')(blstm)
blstm = Dropout(0.6)(blstm)
output = TimeDistributed(Dense(5, activation='softmax'))(blstm)
model = Model(X, output)
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs)
model.save('msr_bilstm.h5')
Просмотрите правильную скорость сегментации слов модели в обучающем наборе и тестовом наборе
print(model.evaluate(X_train, y_train, batch_size=batch_size))
print(model.evaluate(X_test, y_test, batch_size=batch_size))
Задайте функцию Витерби, чтобы получить путь максимальной вероятности, используя алгоритм динамического программирования.
def viterbi(nodes):
trans = {'be': 0.5, 'bm': 0.5, 'eb': 0.5, 'es': 0.5, 'me': 0.5, 'mm': 0.5, 'sb': 0.5, 'ss': 0.5}
paths = {'b': nodes[0]['b'], 's': nodes[0]['s']}
for l in range(1, len(nodes)):
paths_ = paths.copy()
paths = {}
for i in nodes[l].keys():
nows = {}
for j in paths_.keys():
if j[-1] + i in trans.keys():
nows[j + i] = paths_[j] + nodes[l][i] + trans[j[-1] + i]
nows = sorted(nows.items(), key=lambda x: x[1], reverse=True)
paths[nows[0][0]] = nows[0][1]
paths = sorted(paths.items(), key=lambda x: x[1], reverse=True)
return paths[0][0]
Определите функцию сегментации слов, используя обученную модель
def cut_words(data):
data = re.split('[,。!?、\n]', data)
sens = []
Xs = []
for sentence in data:
sen = []
X = []
sentence = list(sentence)
for s in sentence:
s = s.strip()
if not s == '' and s in char2id:
sen.append(s)
X.append(char2id[s])
if len(X) > maxlen:
sen = sen[:maxlen]
X = X[:maxlen]
else:
for i in range(maxlen - len(X)):
X.append(0)
if len(sen) > 0:
Xs.append(X)
sens.append(sen)
Xs = np.array(Xs)
ys = model.predict(Xs)
results = ''
for i in range(ys.shape[0]):
nodes = [dict(zip(['s', 'b', 'm', 'e'], d[:4])) for d in ys[i]]
ts = viterbi(nodes)
for x in range(len(sens[i])):
if ts[x] in ['s', 'e']:
results += sens[i][x] + '/'
else:
results += sens[i][x]
return results[:-1]
Вызовите функцию токенизатора и проверьте
print(cut_words('中国共产党第十九次全国代表大会,是在全面建成小康社会决胜阶段、中国特色社会主义进入新时代的关键时期召开的一次十分重要的大会。'))
print(cut_words('把这本书推荐给,具有一定编程基础,希望了解数据分析、人工智能等知识领域,进一步提升个人技术能力的社会各界人士。'))
print(cut_words('结婚的和尚未结婚的。'))
Каждый раунд обучения на ЦП занимает более 1500 секунд, всего 50 раундов обучения, показатель точности тренировочного набора составляет 98,91%, а показатель точности тестового набора составляет 95,47%.
Другой код для использования обученной модели для сегментации слов.
# -*- coding: utf-8 -*-
from keras.models import Model, load_model
import numpy as np
import re
# 读取字典
vocab = open('data/msr/msr_training_words.utf8').read().rstrip('\n').split('\n')
vocab = list(''.join(vocab))
stat = {}
for v in vocab:
stat[v] = stat.get(v, 0) + 1
stat = sorted(stat.items(), key=lambda x:x[1], reverse=True)
vocab = [s[0] for s in stat]
# 5167 个字
print(len(vocab))
# 映射
char2id = {c : i + 1 for i, c in enumerate(vocab)}
id2char = {i + 1 : c for i, c in enumerate(vocab)}
tags = {'s': 0, 'b': 1, 'm': 2, 'e': 3, 'x': 4}
maxlen = 32 # 长于32则截断,短于32则填充0
model = load_model('msr_bilstm.h5')
def viterbi(nodes):
trans = {'be': 0.5, 'bm': 0.5, 'eb': 0.5, 'es': 0.5, 'me': 0.5, 'mm': 0.5, 'sb': 0.5, 'ss': 0.5}
paths = {'b': nodes[0]['b'], 's': nodes[0]['s']}
for l in range(1, len(nodes)):
paths_ = paths.copy()
paths = {}
for i in nodes[l].keys():
nows = {}
for j in paths_.keys():
if j[-1] + i in trans.keys():
nows[j + i] = paths_[j] + nodes[l][i] + trans[j[-1] + i]
nows = sorted(nows.items(), key=lambda x: x[1], reverse=True)
paths[nows[0][0]] = nows[0][1]
paths = sorted(paths.items(), key=lambda x: x[1], reverse=True)
return paths[0][0]
def cut_words(data):
data = re.split('[,。!?、\n]', data)
sens = []
Xs = []
for sentence in data:
sen = []
X = []
sentence = list(sentence)
for s in sentence:
s = s.strip()
if not s == '' and s in char2id:
sen.append(s)
X.append(char2id[s])
if len(X) > maxlen:
sen = sen[:maxlen]
X = X[:maxlen]
else:
for i in range(maxlen - len(X)):
X.append(0)
if len(sen) > 0:
Xs.append(X)
sens.append(sen)
Xs = np.array(Xs)
ys = model.predict(Xs)
results = ''
for i in range(ys.shape[0]):
nodes = [dict(zip(['s', 'b', 'm', 'e'], d[:4])) for d in ys[i]]
ts = viterbi(nodes)
for x in range(len(sens[i])):
if ts[x] in ['s', 'e']:
results += sens[i][x] + '/'
else:
results += sens[i][x]
return results[:-1]
print(cut_words('中国共产党第十九次全国代表大会,是在全面建成小康社会决胜阶段、中国特色社会主义进入新时代的关键时期召开的一次十分重要的大会。'))
print(cut_words('把这本书推荐给,具有一定编程基础,希望了解数据分析、人工智能等知识领域,进一步提升个人技术能力的社会各界人士。'))
print(cut_words('结婚的和尚未结婚的。'))
FCN
Преимущество полностью сверточных сетей (FCN) заключается в том, что форма входных данных является переменной.
Особенно подходит для задач с переменной длиной входных данных, но одинаковой длиной входных и выходных данных, таких как маркировка последовательностей.
- Изображение: 4D тензор,
NHWC
, то есть количество выборок, высота, ширина и количество каналов. использоватьconv2d
, объем - это средние два измерения, а именно высота и ширина - Текстовая последовательность: 3D тензор,
NTE
, то есть количество выборок, длина последовательности и размерность вектора слов. использоватьconv1d
, объем — это измерение посередине, то есть длина последовательности. Подобно N-грамме, размер вектора слова соответствует количеству каналов
Использование TensorFlow для реализации FCN с размером ядра свертки 3conv1d
Уменьшите количество каналов, от размера вектора слова до количества категорий маркировки последовательностей, вотSBME
Всего четыре категории
загрузить библиотеку
# -*- coding: utf-8 -*-
import tensorflow as tf
import numpy as np
import re
import time
подготовить словарь
# 读取字典
vocab = open('data/msr/msr_training_words.utf8').read().rstrip('\n').split('\n')
vocab = list(''.join(vocab))
stat = {}
for v in vocab:
stat[v] = stat.get(v, 0) + 1
stat = sorted(stat.items(), key=lambda x:x[1], reverse=True)
vocab = [s[0] for s in stat]
# 5167 个字
print(len(vocab))
# 映射
char2id = {c : i + 1 for i, c in enumerate(vocab)}
id2char = {i + 1 : c for i, c in enumerate(vocab)}
tags = {'s': [1, 0, 0, 0], 'b': [0, 1, 0, 0], 'm': [0, 0, 1, 0], 'e': [0, 0, 0, 1]}
Определите функцию, которая загружает данные и возвращает пакеты данных.
batch_size = 64
def load_data(path):
data = open(path).read().rstrip('\n')
# 按标点符号和换行符分隔
data = re.split('[,。!?、\n]', data)
# 准备数据
X_data = []
Y_data = []
for sentence in data:
sentence = sentence.split(' ')
X = []
Y = []
try:
for s in sentence:
s = s.strip()
# 跳过空字符
if len(s) == 0:
continue
# s
elif len(s) == 1:
X.append(char2id[s])
Y.append(tags['s'])
elif len(s) > 1:
# b
X.append(char2id[s[0]])
Y.append(tags['b'])
# m
for i in range(1, len(s) - 1):
X.append(char2id[s[i]])
Y.append(tags['m'])
# e
X.append(char2id[s[-1]])
Y.append(tags['e'])
except:
continue
else:
if len(X) > 0:
X_data.append(X)
Y_data.append(Y)
order = np.argsort([len(X) for X in X_data])
X_data = [X_data[i] for i in order]
Y_data = [Y_data[i] for i in order]
current_length = len(X_data[0])
X_batch = []
Y_batch = []
for i in range(len(X_data)):
if len(X_data[i]) != current_length or len(X_batch) == batch_size:
yield np.array(X_batch), np.array(Y_batch)
current_length = len(X_data[i])
X_batch = []
Y_batch = []
X_batch.append(X_data[i])
Y_batch.append(Y_data[i])
Определите модель
embedding_size = 128
embeddings = tf.Variable(tf.random_uniform([len(char2id) + 1, embedding_size], -1.0, 1.0))
X_input = tf.placeholder(dtype=tf.int32, shape=[None, None], name='X_input')
embedded = tf.nn.embedding_lookup(embeddings, X_input)
W_conv1 = tf.Variable(tf.random_uniform([3, embedding_size, embedding_size // 2], -1.0, 1.0))
b_conv1 = tf.Variable(tf.random_uniform([embedding_size // 2], -1.0, 1.0))
Y_conv1 = tf.nn.relu(tf.nn.conv1d(embedded, W_conv1, stride=1, padding='SAME') + b_conv1)
W_conv2 = tf.Variable(tf.random_uniform([3, embedding_size // 2, embedding_size // 4], -1.0, 1.0))
b_conv2 = tf.Variable(tf.random_uniform([embedding_size // 4], -1.0, 1.0))
Y_conv2 = tf.nn.relu(tf.nn.conv1d(Y_conv1, W_conv2, stride=1, padding='SAME') + b_conv2)
W_conv3 = tf.Variable(tf.random_uniform([3, embedding_size // 4, 4], -1.0, 1.0))
b_conv3 = tf.Variable(tf.random_uniform([4], -1.0, 1.0))
Y_pred = tf.nn.softmax(tf.nn.conv1d(Y_conv2, W_conv3, stride=1, padding='SAME') + b_conv3, name='Y_pred')
Y_true = tf.placeholder(dtype=tf.float32, shape=[None, None, 4], name='Y_true')
cross_entropy = tf.reduce_mean(-tf.reduce_sum(Y_true * tf.log(Y_pred + 1e-20), axis=[2]))
optimizer = tf.train.AdamOptimizer().minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(Y_pred, 2), tf.argmax(Y_true, 2))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
Обучите модель и сохраните
saver = tf.train.Saver()
max_test_acc = -np.inf
epochs = 50
sess = tf.Session()
sess.run(tf.global_variables_initializer())
for e in range(epochs):
train = load_data('data/msr/msr_training.utf8')
accs = []
i = 0
t0 = int(time.time())
for X_batch, Y_batch in train:
sess.run(optimizer, feed_dict={X_input: X_batch, Y_true: Y_batch})
i += 1
if i % 100 == 0:
acc = sess.run(accuracy, feed_dict={X_input: X_batch, Y_true: Y_batch})
accs.append(acc)
print('Epoch %d time %ds' % (e + 1, int(time.time()) - t0))
print('- train accuracy: %f' % (np.mean(accs)))
test = load_data('data/msr/msr_test_gold.utf8')
accs = []
for X_batch, Y_batch in test:
acc = sess.run(accuracy, feed_dict={X_input: X_batch, Y_true: Y_batch})
accs.append(acc)
mean_test_acc = np.mean(accs)
print('- test accuracy: %f' % mean_test_acc)
if mean_test_acc > max_test_acc:
max_test_acc = mean_test_acc
print('Saving Model......')
saver.save(sess, './msr_fcn/msr_fcn')
определить функцию Витерби
def viterbi(nodes):
trans = {'be': 0.5, 'bm': 0.5, 'eb': 0.5, 'es': 0.5, 'me': 0.5, 'mm': 0.5, 'sb': 0.5, 'ss': 0.5}
paths = {'b': nodes[0]['b'], 's': nodes[0]['s']}
for l in range(1, len(nodes)):
paths_ = paths.copy()
paths = {}
for i in nodes[l].keys():
nows = {}
for j in paths_.keys():
if j[-1] + i in trans.keys():
nows[j + i] = paths_[j] + nodes[l][i] + trans[j[-1] + i]
nows = sorted(nows.items(), key=lambda x: x[1], reverse=True)
paths[nows[0][0]] = nows[0][1]
paths = sorted(paths.items(), key=lambda x: x[1], reverse=True)
return paths[0][0]
Определить функцию сегментации слов
def cut_words(data):
data = re.split('[,。!?、\n]', data)
sens = []
Xs = []
for sentence in data:
sen = []
X = []
sentence = list(sentence)
for s in sentence:
s = s.strip()
if not s == '' and s in char2id:
sen.append(s)
X.append(char2id[s])
if len(X) > 0:
Xs.append(X)
sens.append(sen)
results = ''
for i in range(len(Xs)):
X_d = np.array([Xs[i]])
Y_d = sess.run(Y_pred, feed_dict={X_input: X_d})
nodes = [dict(zip(['s', 'b', 'm', 'e'], d)) for d in Y_d[0]]
ts = viterbi(nodes)
for x in range(len(sens[i])):
if ts[x] in ['s', 'e']:
results += sens[i][x] + '/'
else:
results += sens[i][x]
return results[:-1]
Вызовите функцию токенизатора и проверьте
print(cut_words('中国共产党第十九次全国代表大会,是在全面建成小康社会决胜阶段、中国特色社会主义进入新时代的关键时期召开的一次十分重要的大会。'))
print(cut_words('把这本书推荐给,具有一定编程基础,希望了解数据分析、人工智能等知识领域,进一步提升个人技术能力的社会各界人士。'))
print(cut_words('结婚的和尚未结婚的。'))
Из-за значительного эффекта ускорения GPU на CNN каждый раунд обучения на GPU занимает всего около 20 секунд, всего 50 раундов обучения, уровень точности тренировочного набора составляет 99,01%, а уровень точности тестовый набор составляет 92,26%.
Другой код для использования обученной модели для сегментации слов.
# -*- coding: utf-8 -*-
import tensorflow as tf
import numpy as np
import re
import time
# 读取字典
vocab = open('data/msr/msr_training_words.utf8').read().rstrip('\n').split('\n')
vocab = list(''.join(vocab))
stat = {}
for v in vocab:
stat[v] = stat.get(v, 0) + 1
stat = sorted(stat.items(), key=lambda x:x[1], reverse=True)
vocab = [s[0] for s in stat]
# 5167 个字
print(len(vocab))
# 映射
char2id = {c : i + 1 for i, c in enumerate(vocab)}
id2char = {i + 1 : c for i, c in enumerate(vocab)}
tags = {'s': [1, 0, 0, 0], 'b': [0, 1, 0, 0], 'm': [0, 0, 1, 0], 'e': [0, 0, 0, 1]}
sess = tf.Session()
sess.run(tf.global_variables_initializer())
saver = tf.train.import_meta_graph('./msr_fcn/msr_fcn.meta')
saver.restore(sess, tf.train.latest_checkpoint('./msr_fcn'))
graph = tf.get_default_graph()
X_input = graph.get_tensor_by_name('X_input:0')
Y_pred = graph.get_tensor_by_name('Y_pred:0')
def viterbi(nodes):
trans = {'be': 0.5, 'bm': 0.5, 'eb': 0.5, 'es': 0.5, 'me': 0.5, 'mm': 0.5, 'sb': 0.5, 'ss': 0.5}
paths = {'b': nodes[0]['b'], 's': nodes[0]['s']}
for l in range(1, len(nodes)):
paths_ = paths.copy()
paths = {}
for i in nodes[l].keys():
nows = {}
for j in paths_.keys():
if j[-1] + i in trans.keys():
nows[j + i] = paths_[j] + nodes[l][i] + trans[j[-1] + i]
nows = sorted(nows.items(), key=lambda x: x[1], reverse=True)
paths[nows[0][0]] = nows[0][1]
paths = sorted(paths.items(), key=lambda x: x[1], reverse=True)
return paths[0][0]
def cut_words(data):
data = re.split('[,。!?、\n]', data)
sens = []
Xs = []
for sentence in data:
sen = []
X = []
sentence = list(sentence)
for s in sentence:
s = s.strip()
if not s == '' and s in char2id:
sen.append(s)
X.append(char2id[s])
if len(X) > 0:
Xs.append(X)
sens.append(sen)
results = ''
for i in range(len(Xs)):
X_d = np.array([Xs[i]])
Y_d = sess.run(Y_pred, feed_dict={X_input: X_d})
nodes = [dict(zip(['s', 'b', 'm', 'e'], d)) for d in Y_d[0]]
ts = viterbi(nodes)
for x in range(len(sens[i])):
if ts[x] in ['s', 'e']:
results += sens[i][x] + '/'
else:
results += sens[i][x]
return results[:-1]
print(cut_words('中国共产党第十九次全国代表大会,是在全面建成小康社会决胜阶段、中国特色社会主义进入新时代的关键时期召开的一次十分重要的大会。'))
print(cut_words('把这本书推荐给,具有一定编程基础,希望了解数据分析、人工智能等知识领域,进一步提升个人技术能力的社会各界人士。'))
print(cut_words('结婚的和尚未结婚的。'))
разное
Дальнейшее улучшение можно рассматривать с трех сторон
- Изменить структуру сети
- настройка параметров
- Уточнения, такие как обработка пунктуации
Ссылаться на
- Аннотация слова seq2seq на основе двунаправленного LSTM:space.AC.talents/archives/39…
- Сегментация китайских слов на основе полностью сверточной сети:space.AC.talents/archives/41…
- Нейронные архитектуры для распознавания именованных объектов:АР Вест V.org/PDF/1603.01…