"Это седьмой день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г.".
предварительная обработка текста
Токенизатор
keras.preprocessing.text.Tokenizer(num_words=None,
filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ',
lower=True,
split=' ',
char_level=False,
oov_token=None,
document_count=0)
Этот класс позволяет векторизовать корпус текстов двумя способами: путем преобразования каждого текста в последовательность целых чисел (каждое целое число является индексом лексемы в словаре) или путем преобразования его в вектор, где коэффициенты для каждой лексемы могут be — двоичные значения, частоты слов, веса TF-IDF и т. д.
параметр
-
num_words
: Максимальное количество сохраняемых слов в зависимости от частоты слов. Сохраняются только наиболее часто встречающиеся слова num_words. -
filters
: строка, в которой каждый элемент представляет собой символ, который будет отфильтрован из текста. По умолчанию используются все знаки препинания, а также символы табуляции и новой строки, за исключением символа '. -
lower
: логическое значение. Преобразовывать ли текст в нижний регистр. -
split
: Нить. Вырежьте текст по этой строке. -
char_level
: Если True, каждый символ будет рассматриваться как токен. -
oov_token
: Если указано, оно будет добавлено к word_index и использовано для замены слов вне словаря во время вызовов text_to_sequence.
По умолчанию все знаки препинания удаляются, текст преобразуется в последовательность слов, разделенных пробелами (слова могут содержать символы '). Затем эти последовательности разбиваются на списки токенов. Затем они будут проиндексированы или векторизованы. 0 — это зарезервированный индекс, который не будет присвоен ни одному слову.
hashing_trick
hashing_trick
Преобразование текста в последовательность индексов в хэш-пространстве фиксированного размера.
keras.preprocessing.text.hashing_trick(text, n,
hash_function=None,
filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True,
split=' ')
параметр
-
text
: введите текст (строка). -
n
: Измерение хеш-пространства. -
hash_function
: по умолчанию используется хеш-функция Python, может быть «md5» или любая функция, которая принимает входную строку и возвращает целое число. Обратите внимание, что «хэш» не является стабильной хэш-функцией, поэтому она несовместима между запусками, а «md5» — это стабильная хэш-функция. -
filters
: Список (или объединение) символов для фильтрации, таких как знаки препинания. По умолчанию: !"#$%&()*+,-./:;?@[]^_{|}~, включая основные знаки препинания, табуляции и новые строки. -
lower
: логическое значение. Преобразовывать ли текст в нижний регистр. -
split
: Нить. Вырежьте текст по этой строке.
возвращаемое значениеСписок целых индексов слов (уникальность не гарантируется).
0 — это зарезервированный индекс, который не будет присвоен ни одному слову.
Два или более слова могут быть присвоены одному и тому же индексу из-за возможной коллизии хеш-функций. Вероятность столкновения связана с размерностью хэш-пространства и количеством различных объектов.
one_hot
One-hot
Закодируйте текст как список индексов слов размера n. Этоhashing_trick
Оболочка для функции, использующаяhash
В качестве хеш-функции карты индексов слов не гарантируют уникальность.
keras.preprocessing.text.one_hot(text, n,
filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~',
lower=True,
split=' ')
параметр
text
: введите текст (строка).n
: целое число. Размер словаря.filters
: Список (или объединение) символов для фильтрации, таких как знаки препинания. По умолчанию: !"#$%&()*+,-./:;?@[]^_{|}~, включая основные знаки препинания, табуляции и новые строки.lower
: логическое значение. Преобразовывать ли текст в нижний регистр.split
: Нить. Вырежьте текст по этой строке.
возвращаемое значениеСписок целых чисел между [1, n]. Каждое целое число кодирует слово (уникальность не гарантируется).
text_to_word_sequence
text_to_word_sequence
Преобразование текста в последовательность слов (или токенов).
keras.preprocessing.text.text_to_word_sequence(text,
filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ',
lower=True,
split=' ')
параметр
text
: введите текст (строка).filters
: Список (или объединение) символов для фильтрации, таких как знаки препинания. По умолчанию: !"#$%&()*+,-./:;?@[]^_{|}~, включая основные знаки препинания, табуляции и новые строки.lower
: логическое значение. Преобразовывать ли текст в нижний регистр.split
: Нить. Вырежьте текст по этой строке.
возвращаемое значениеСписок слов или токенов.
Это все для этой статьи, если вы чувствуете себя хорошо.❤ Ставь лайк и вперед! ! ! ❤
Для началаPython
Или хотите начатьPython
Друзья, вы можете искать [Python New Horizons] через WeChat, и общаться и учиться вместе, все от новичков. Иногда простой вопрос застревает надолго, но, может быть, кто-то другой вдруг это осознает. Я искренне надеюсь, что каждый сможет сделать прогрессируйте вместе, а также есть различные учебные ресурсы, которые ждут вас~.