Machine Learning in Action: Building a Universal Translator App for Android with Kotlin
Я начал экспериментировать с некоторыми API-интерфейсами машинного обучения, которые предоставляет AWS.Amazon Translate- сервис, который переводит с английского К различным другим языкам. Поэтому я подумал, что приложение, которое использует приложение, которое использует распознавание бортового речи Android-приложения, а затем переводит его на новый язык.
What you will need
The requirements for this project are fairly simple. You will need an AWS account (which you can get for free), an Android phone (I had problems recording audio on the emulator so I recommend a real device), and Android Studio (which is a free download).
What we will do
We are going to implement two distinct pieces in this tutorial. Firstly, we are going to create a UI that records some audio and then converts it to text. Then we will send that text to the Amazon Translate service and display the result.
Speech to Text
Start by creating a new Android project. Make sure you select an appropriate API level (which will depend on your device). Speech recognition was added in API level 8, so you have plenty of room to use older devices. Ensure you add Kotlin support as well. Select the blank template (Empty activity) to start.
Add the following permissions to the AndroidManifest.xml
:
<uses-permission android:name="android.permission.RECORD_AUDIO"/>
<uses-permission android:name="android.permission.INTERNET"/>
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE"/>
The first one allows us to access the microphone. The other two allow us to send the result to the Internet. By including ACCESS_NETWORK_STATE
, вы можете добавить возможность определять, подключены ли вы к Интернету, чтобы
Приложение не вылетает, когда сеть недоступна.
Теперь давайте посмотрим наres/layout/activity_main.xml
file:
Макеты не становятся намного проще: вверху есть кнопка для активации записи и два текстовых поля — в первом будет показан текст, который мы услышали, а во втором — переведенный текст.
Теперь давайте посмотрим наMainActivity.kt
file:
The button to initiate recording is only enabled if speech recognition is available. If that happens, then we call out to the speech recognizer service via an intent. This will pop up a small dialog. At this point, the user speaks. When the user
stops speaking, the service will return the text using onActivityResult()
. At that point, we update the UI to display the results.
That was so easy to get started! You can actually run this app and see the speech to text working.
There are a couple of caveats here. The most important is that Android calls out to a Google service to complete the process. As of API level 23, there is an additional option for the service called EXTRA_PREFER_OFFLINE
that can be
used to indicate you prefer to do this offline. Use it like this:
val intent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH).apply {
putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,
RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
putExtra(RecognizerIntent.EXTRA_PREFER_OFFLINE, true)
}
startActivityForResult(intent, REQUEST_SPEECH_RECOGNIZER)
Set up Text Translation Service
Прежде чем вы сможете использовать службу перевода текста, вам необходимо ее настроить.CloudFormation template for this purpose, which I install using the AWS command line. First, copy it to an S3 bucket. I have a scratchpad S3 bucket that I use for this sort of thing:
aws s3 sync service s3://my-scratchpad/cf
The YAML file is located in the service directory of my GitLab repository.
aws cloudformation create-stack --stackname speech-translator --template-url s3-us-west-2.amazonaws.com/my-scratchp… --capabilities CAPABILITY_NAMED_IAM
Службе перевода не нужно ничего особенного, но ей нужна роль IAM для утверждения запроса.CloudFormation template sets up an unauthenticated IAM role, then associates that unauthenticated IAM role to a newly created Amazon Cognito identity pool. The identity pool will give us temporary credentials to access the Amazon Translate service later on.
Create an AWS Connection in the app
The app needs to know where and how to connect to the Amazon Translate API. For this, I created a JSON file in res/raw/aws.json
with the information from my CloudFormation stack:
{
"region": "us-west-2",
"accountId": "01234567890",
"identityPoolId": "us-west-2:IDPOOL_GUID",
"unauthRoleArn": "arn:aws:iam::01234567890:role/speech-translator-UnAuthenticatedRole-ABCDEFHJIJKL",
"authRoleArn": "arn:aws:iam::01234567890:role/speech-translator-AuthenticatedRole-MNOPQRSTUV"
}
Не проверяйте вaws.json
file. It contains secrets!
To get the various values, take a look at the Outputs section of the CloudFormation stack. Once the stack is finished, you can use the following command:
aws cloudformation describe-stack --stack-name speech-translator
Это покажет вам подробную информацию об именованном стеке, который включает в себя три значения, которые относительно сложно получить. AccountId — это 12-значное число для вашей учетной записи, доступное в верхнем баннере консоли AWS.
Для чтения этого файла у меня есть модель:
Это базовая модель для пяти значений, необходимых для настройки AWS Mobile SDK.Я добавил два вспомогательных метода для преобразования строки JSON в объект и для чтения строки JSON из ресурса.
Затем добавим библиотеки AWS Mobile SDK для Android.build.gradle
file, add the following dependencies:
dependencies {
def aws_version = '2.6.22'
implementation fileTree(dir: 'libs', include: ['*.jar'])
implementation"org.jetbrains.kotlin:kotlin-stdlib-jdk7:$kotlin_version"
implementation 'com.android.support:appcompat-v7:27.1.1'
implementation 'com.android.support.constraint:constraint-layout:1.1.2'
// AWS SDK
implementation "com.amazonaws:aws-android-sdk-core:$aws_version"
implementation "com.amazonaws:aws-android-sdk-auth-core:$aws_version"
implementation "com.amazonaws:aws-android-sdk-translate:$aws_version"
}
Теперь мы готовы настроить клиент перевода AWS.Возможно, вы заметили пустоеinitializeClient()
in the earlier code. This is now going to be replaced:
The code creates a client object (which wraps the actual HTTP-based API) and links a credentials provider so that our unauthenticated IAM user credentials are used for the request.
Translate some text
Затем нам нужна функция для перевода текста.Даже с настройками, которые мы использовали для этого, она удивительно проста в использовании:
The translateRequest
содержит всего три поля — исходный и конечный языки и текст для перевода. Мы идем по сети, поэтому это выполняется асинхронно с использованием Future AsyncHandler. Когда ответ
получен, результатом является переведенный текст.
В данном случае я выбрал испанский язык. Вы можете использовать арабский (ar), упрощенный китайский (zh), французский (fr), немецкий (de), португальский (pt) и испанский (es). изменитьtargetLanguageCode
accordingly. You can
also add a settings panel or options list to choose the language.
The only thing left is to write the text to the prepared text view:
The main thing to remember here is that the translateClient
runs on a background asynchronous thread. You cannot update the UI on that thread so you have to explicitly switch to the UI thread in the callback.
Conclusion
I hope you enjoyed this foray into mobile machine learning. There are many more capabilities in the Amazon Machine Learning suite, including natural language processing, text-to-speech, image recognition, and custom deep learning capabilities. AWS even has its own speech-to-text serviceесли вы не хотите отправлять больше данных в Google.
You can check out this app on my GitLab repository.