Генерация методов Fluent Text

машинное обучение

Автор | Аарон Абрахамсон Компилировать|ВКонтакте Источник | К науке о данных

Обучение модели генерации текста на Dune Castle 2000

Dune Castle — это история далекого феодального общества. В нем рассказывается о герцоге и его семье, которые вынуждены стать управляющими пустынной планеты Аракис. Фрэнк Герберт опубликовал эту классику в 1965 году. Почти любая современная научная фантастика восходит к какому-то элементу «Дюны».

Недавно я закончил сиквел «Дюны», «Мессия Дюны», и только что начал третью часть серии «Дети Дюны». Есть шесть рассказов, первоначально написанных Гербертом, и еще целая куча его сына позже. Я не читал их.

Я изучал модели генерации текста. Я подумал, что было бы интересно попробовать это с Dune. Многие «классические» модели машинного обучения используются для прогнозирования и кластеризации. Генеративное моделирование позволяет перспективе создания модели учиться на обучающих данных. Недавним примером силы генеративного моделирования является StyleGAN, посмотрите это видео (Woohoo.YouTube.com/watch?V=KS л…

Вот ссылка на блокнот Colab, который я использую в этом проекте (диск.Google.com/file//15Z7…

обработка

  • Получить корпус текстовых данных

  • Очистка данных. У меня есть некоторые символы Юникода, и слово «страница» появляется всякий раз, когда есть разрыв страницы, что бесполезно. Каждая глава начинается с отрывка из мемуаров или книги в мире, который я решил вытащить. Я также удалил вторую половину каждой главы, чтобы сократить время.

  • токенизированный. Это удаление знаков препинания, преобразование содержимого в нижний регистр, а затем разделение длинной строки на каждое отдельное слово. Модель узнает порядок и частоту этих словесных токенов. Также обратите внимание, что для такого рода задач НЛП мы не удаляем стоп-слова.

  • Моделирование. Убедитесь, что вы используете слой LSTM и что выходной слой соответствует размеру словаря. По сути, он классифицирует, каким может быть следующее слово, с небольшим количеством текста.my.openwrite.cn/logout

  • Обучите модель. Keras рекомендует не менее 20 эпох, я запустил 33 эпохи.

  • Сгенерировать текст. Я покажу некоторые результаты из модели ниже

Глава 1: Барон

Я хотел бы проверить это через некоторое время и посмотреть, какие будут результаты. Исходное слово - «Барон», злой антагонист в книге.

‘Baron The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron Of The Baron’

Так было всегда. совсем не хорошо.

Модель после 33 эпох работает очень хорошо, но она все еще застряла в цикле и просто продолжает испускать различные существительные. Вот вывод для начального слова Spice:

The Spice Itself Stood Out To The Left Wall The Fremen Seeker Followed The Chains The Troop Was A Likely Shadow And The Natural Place Of The Great Places That Was A Subtle City Of The Room'S Features That The Man Was A Master Of The Cavern The Growing The Bronze The Sliding Hand

Вот вывод для «Поля» (главного героя):

Paul Stood Unable To The Duke And The Reverend Mother Ramallo To The Guard Captain And The Man Looked At Him And The Child Was A Relief One Of The Fremen Had Been In The Doorway And The Fedaykin Control Them To Be Like The Spice Diet Out Of The Wind And The Duke Said I Am The Fremen To Get The Banker Said When The Emperor Asked His Fingers Nefud I Know You Can Take The Duchy Of Government The Sist The Duke Said He Turned To The Hand Beside The Table The Baron Asked The Emperor Will Hold

Вот результат «Она посмотрела»:

'She Looked At The Transparent End Of The Table Saw A Small Board In The Room And The Way Of The Old Woman He Had Been Sent By The Wind Of The Duke And The Worms They Had Seen The Waters Of The Desert And The Sandworms The Troop Had Been Subtly Prepared By The Wind Of The Worm Had Been Subtly Always In The Deep Sinks Of The Women And The Duke Had Been Given Last Of Course But The Others Had Been In The Fremen Had Been Shaped On The Light Of The Light Of The Hall Had Had Seen'

Идеи и следующие шаги

Я думаю, что это определенно признак прогресса и прогресса. Я хочу обучить его как минимум до 100 эпох, но это медленно. Каждая эпоха длится около 11 минут, то есть всего более 18 часов. Мне нужен лучший компьютер.

Наконец, я хотел бы добавить, что ирония этого не заставляет меня забыть. Во Вселенной Дюны в какой-то момент в древние времена «мыслящие компьютеры» восстали против человечества и чуть не уничтожили человечество. В эпоху этой книги компьютеры были заменены «ментатами», и вместо этого люди были воспитаны и обучены имитировать вычислительную мощность компьютеров.

Оригинальная ссылка:к data science.com/he-text-wood…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию ​​сводки ресурсов блога Panchuang:docs.panchuang.net/