Библиотека keras preprocessing.text предварительная обработка текста

"Это седьмой день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г.".

предварительная обработка текста

Токенизатор

keras.preprocessing.text.Tokenizer(num_words=None, 
                                   filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', 
                                   lower=True, 
                                   split=' ', 
                                   char_level=False, 
                                   oov_token=None, 
                                   document_count=0)

Этот класс позволяет векторизовать корпус текстов двумя способами: путем преобразования каждого текста в последовательность целых чисел (каждое целое число является индексом лексемы в словаре) или путем преобразования его в вектор, где коэффициенты для каждой лексемы могут be — двоичные значения, частоты слов, веса TF-IDF и т. д.

параметр

num_words: Максимальное количество сохраняемых слов в зависимости от частоты слов. Сохраняются только наиболее часто встречающиеся слова num_words.
filters: строка, в которой каждый элемент представляет собой символ, который будет отфильтрован из текста. По умолчанию используются все знаки препинания, а также символы табуляции и новой строки, за исключением символа '.
lower: логическое значение. Преобразовывать ли текст в нижний регистр.
split: Нить. Вырежьте текст по этой строке.
char_level: Если True, каждый символ будет рассматриваться как токен.
oov_token: Если указано, оно будет добавлено к word_index и использовано для замены слов вне словаря во время вызовов text_to_sequence.

По умолчанию все знаки препинания удаляются, текст преобразуется в последовательность слов, разделенных пробелами (слова могут содержать символы '). Затем эти последовательности разбиваются на списки токенов. Затем они будут проиндексированы или векторизованы. 0 — это зарезервированный индекс, который не будет присвоен ни одному слову. 在这里插入图片描述

hashing_trick

hashing_trickПреобразование текста в последовательность индексов в хэш-пространстве фиксированного размера.

keras.preprocessing.text.hashing_trick(text, n,
                                       hash_function=None, 
                                       filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', lower=True, 
                                       split=' ')

параметр

text: введите текст (строка).
n: Измерение хеш-пространства.
hash_function: по умолчанию используется хеш-функция Python, может быть «md5» или любая функция, которая принимает входную строку и возвращает целое число. Обратите внимание, что «хэш» не является стабильной хэш-функцией, поэтому она несовместима между запусками, а «md5» — это стабильная хэш-функция.
filters: Список (или объединение) символов для фильтрации, таких как знаки препинания. По умолчанию: !"#$%&()*+,-./:;?@[]^_{|}~, включая основные знаки препинания, табуляции и новые строки.
lower: логическое значение. Преобразовывать ли текст в нижний регистр.
split: Нить. Вырежьте текст по этой строке.

возвращаемое значениеСписок целых индексов слов (уникальность не гарантируется).

0 — это зарезервированный индекс, который не будет присвоен ни одному слову. Два или более слова могут быть присвоены одному и тому же индексу из-за возможной коллизии хеш-функций. Вероятность столкновения связана с размерностью хэш-пространства и количеством различных объектов. 在这里插入图片描述

one_hot

One-hot Закодируйте текст как список индексов слов размера n. Этоhashing_trick Оболочка для функции, использующаяhashВ качестве хеш-функции карты индексов слов не гарантируют уникальность.

keras.preprocessing.text.one_hot(text, n, 
                                 filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', 
                                 lower=True, 
                                 split=' ')

параметр text: введите текст (строка).n: целое число. Размер словаря.filters: Список (или объединение) символов для фильтрации, таких как знаки препинания. По умолчанию: !"#$%&()*+,-./:;?@[]^_{|}~, включая основные знаки препинания, табуляции и новые строки.lower: логическое значение. Преобразовывать ли текст в нижний регистр.split: Нить. Вырежьте текст по этой строке.

возвращаемое значениеСписок целых чисел между [1, n]. Каждое целое число кодирует слово (уникальность не гарантируется).

在这里插入图片描述

text_to_word_sequence

text_to_word_sequenceПреобразование текста в последовательность слов (или токенов).

keras.preprocessing.text.text_to_word_sequence(text, 
                                               filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~ ', 
                                               lower=True, 
                                               split=' ')

параметр text: введите текст (строка).filters: Список (или объединение) символов для фильтрации, таких как знаки препинания. По умолчанию: !"#$%&()*+,-./:;?@[]^_{|}~, включая основные знаки препинания, табуляции и новые строки.lower: логическое значение. Преобразовывать ли текст в нижний регистр.split: Нить. Вырежьте текст по этой строке.

возвращаемое значениеСписок слов или токенов. 在这里插入图片描述

keras китайская документация

Это все для этой статьи, если вы чувствуете себя хорошо.❤ Ставь лайк и вперед! ! ! ❤

Для началаPythonИли хотите начатьPythonДрузья, вы можете искать [Python New Horizons] через WeChat, и общаться и учиться вместе, все от новичков. Иногда простой вопрос застревает надолго, но, может быть, кто-то другой вдруг это осознает. Я искренне надеюсь, что каждый сможет сделать прогрессируйте вместе, а также есть различные учебные ресурсы, которые ждут вас~.