Оценка технологий AutoNavi Строительство дорог

предисловие

Последние несколько десятилетий были эпохой бурного развития Интернета. С развитием и расширением интернет-индустрии неизбежно возникнет разделение ролей, эволюционируют различные функциональные позиции. В условиях все более жесткой конкуренции на рынке развитие внутренних навыков и повышение эффективности продукта также стали важными задачами для развития каждой компании. Как оценить эффективность продукта? Как измеряется пользовательский опыт? В этой статье делается попытка объяснить основные обязанности этой новой должности в AutoNavi, процесс разработки и эволюции, а также методы оценки эффекта продукта и построение системы, за которые отвечает эта должность.

Когда вы вводите оценку слова в различные поисковые системы, похожие поисковые запросы, которые вы видите, обычно выглядят так:

Эти вопросы могут на самом деле отражать понимание большинства людей об оценке — то есть, за исключением оценки игры, оценки мобильного телефона, оценки автомобиля и оценки предметов первой необходимости, люди на самом деле мало что знают об оценке. Что делает одноклассник, который является студентом-оценщиком в интернет-компании? Может быть, все знают меньше.

После более чем трех лет оценки я часто сталкивался с пыткой души в первый год: «Что ты делаешь на оценке?» Ответ на этот вопрос в основном аналогичен трем основным вопросам философии: «Кто ты?» "Откуда ты? Куда идешь?"

Кто рецензент? Это позиционирование оценки. Откуда берутся отзывы? Это основа и источник обзоров. Куда идет оценка? Это цель развития и направление оценки.

Кто рецензент?

вообще говоря,Обзор — это команда, которая оценивает производительность продукта.. Есть надежда, что с точки зрения пользователя эффект спроса может быть проверен до запуска.После запуска, путем всестороннего анализа себя, пользовательских данных и конкурирующих продуктов, система оценки трехмерного эффекта продукта, то есть установлена система оценивания.

Откуда берутся отзывы?

Чтобы ответить на этот вопрос, это собственно - зачем вам оценивать?

Как и при каждом обновлении версии, мы будем заботиться о производительности, так и при запуске новой стратегии всех будет волновать эффект от продукта. Как оценить эффективность продукта? Соответствует ли фактический эффект НИОКР ожиданиям менеджера по продукту после разработки требований, связанных со стратегией? Соответствует ли фактический эффект ожиданиям пользователя? В идеале все три должны быть неразличимы. Но у нас также должен быть способ измерить, есть ли разница между ними, и сделать вывод о том, является ли изменение эффекта положительным, чтобы лучше гарантировать удобство работы пользователя.

Кроме того, еще до запуска все единодушно давали положительный вывод, считая, что пользовательский опыт значительно улучшится после запуска спроса. Пользователь по-прежнему должен решать, каков реальный опыт работы с продуктом. Для серьезных модификаций небольшое количество пользователей может быть включено в эксперимент AB, пользовательские данные могут быть быстро собраны, а влияние спроса может быть дополнительно оценено. Или зайдите в Интернет напрямую и завершите онлайн-оценку с помощью анализа данных о поведении и отзывов пользователей.

В то же время для поиска собственной позиции на рынке необходим анализ конкурирующих продуктов.

С учетом этих потребностей в оценке и анализе эффекта существует группа оценки.

Как оценить

Оценка и анализ офлайн-эффекта перед переходом в онлайн, эксперимент и анализ AB, мониторинг индикаторов и анализ проблем после выхода в онлайн, поиск проблем, а также мониторинг и анализ конкурентных продуктов являются распространенными методами оценки.

1. Оффлайн-оценка

Перед запуском, в соответствии с потребностями продукта, ответственность за оценку заключается в том, чтобы проанализировать и проверить эффект продукта с помощью различных методов, сделать вывод о том, может ли он соответствовать стандарту запуска, и проанализировать главную проблему. .

В начале создания группы технической оценки основные этапы строительства включают в себя: определение процесса сотрудничества, построение профессиональных навыков оценки и построение инструментов оценки.

Процесс сотрудничества

Сравните проектный процесс разработки версии, от определения требований до разработки, тестирования и проверки и запуска. Оценка начинается с этапа перекрестных обсуждений требований, чтобы определить, какие требования влияют на изменения. Затем сформулируйте план оценки в соответствии с изменениями и одновременно проверьте, соответствует ли инструмент потребностям, если нет, перейдите на стадию быстрой разработки инструмента. Затем получите данные оценки, перейдите на этап оценки и проверки и, наконец, отправьте отчет, чтобы сделать вывод о том, прошло ли требование оценку, а также обобщить и классифицировать возникающие проблемы.

Для разных бизнес-направлений, участвующих в оценке, процесс оценки примерно одинаков. Однако из-за разных предприятий схемы и методы оценки будут сильно различаться.

План оценки

В соответствии с требованиями к продукту уточните масштаб влияния модификации эффекта, чтобы определить образцы оценки, методы оценки и стандарты оценки.

Образец оценки

Выборки оценки обычно делятся на случайный корпус и конкретный корпус в соответствии с различной степенью влияния потребностей.

Конкретный корпус обычно извлекается для конкретных измерений и типов потребностей, которые необходимо изменить, чтобы обеспечить охват задачи оценки. Случайный корпус призван отражать истинный масштаб влияния спроса. Когда задача оценки требует использования определенного корпуса. Как правило, рекомендуется использовать по одной копии каждого конкретного и случайного корпуса, чтобы одновременно обеспечить достаточный охват и в то же время понять реальный масштаб влияния, чтобы гарантировать отсутствие непредвиденных изменений.

В дополнение к реальному корпусу в некоторых сценариях также используется самостоятельный корпус. Обычные причины: 1) Нет реального онлайн-корпуса до запуска стратегии; 2) Затрагиваемая сцена слишком мала, и в реальном корпусе сложно найти достаточное количество кейсов.

Стандарт оценки

Критерии оценки обычно включают понятие, значение истинности. Когда для определенного типа данных есть единственный правильный ответ в реальном мире, существует значение абсолютной истины, такое как информация о данных. Поэтому нашим критерием оценки для этого типа данных является их соответствие истинному значению.

Другая категория — относительная истинность. Источником могут быть журналы пользователей. Например, когда мы оцениваем правильность расчетного времени прибытия (ETA), предоставленного пользователю, мы можем использовать фактическое время в пути пользователя между начальной и конечной точками в качестве истинного значения для сравнения с нашим расчетным временем. Однако, поскольку фактическое время вождения одного пользователя зависит от личных привычек вождения и конкретной дорожной ситуации, оно не совсем точное. Отсюда и относительная истинность. В поиске и других направлениях бизнеса поведение пользователя по клику также может стать значением относительной правды, становясь, таким образом, стандартом для оценки эффекта.

Существует ли истинностное значение, легко ли получить истинностное значение и может ли оно быть получено автоматически в больших количествах — это суждения, которые необходимо сделать при подтверждении стандарта оценки.

Метод оценки

В соответствии с различными целями оценки мы предлагаем различные методы автономной оценки. Для предприятий с истинными ценностями автоматическая оценка может быть достигнута путем автоматического получения или маркировки истинных ценностей. Для бизнес-линий, не имеющих реальной ценности, стоимость оценки того, хороший эффект или нет, высока и обычно требует ручной или полуавтоматической оценки.

Человеческая оценка, как следует из названия, должна полагаться на человеческую оценку. Поисковые компании, вероятно, первыми оценивают эффективность своих продуктов, Google, Microsoft, Baidu, Apple и т. д. используют аналогичные методы для оценки качества.

Google однажды опубликовал 164-страничное руководство по оценке качества. Baidu и Bing также опубликовали аналогичные документы.

Когда Apple представила свою систему оценки, она также объяснила метрики человеческого суждения, почему мы их отслеживаем?

- Проблемы с версией можно найти до запуска. - Показатели, оцениваемые вручную, тесно связаны с количественными показателями. - Можно определить общее качество версии и постоянно следить за изменениями в эффектах. - Более подробные, чем отзывы пользователей, и легче обнаруживать проблемы.

Излишне говорить, что недостатками ручной оценки являются высокая стоимость, небольшой охват и низкая эффективность. Благодаря своим преимуществам он по-прежнему является неотъемлемой частью системы оценки компании. При использовании в сочетании с другими методами оценки он может дать очень хороший эффект.

Для обеспечения качества и эффективности ручной оценки есть три ключевых момента: один — стандарт, другой — процесс, а третий — инструмент.

Стандартный документ, как и руководство по эксплуатации, направлен на снижение затрат на обучение персонала и минимизацию различий в познании каждого в некоторых случаях, о которых трудно судить. Поэтому стандартная документация должна быть максимально тупой. Четко определенные примеры всех особых и исключительных сценариев, проверенные на практике и часто обновляемые. Должно быть специальное лицо, ответственное за обновление документов, цикл обновления должен быть четко определен, а точки обновления должны быть синхронизированы со всеми оценщиками.

Человеческая ошибка неизбежна, и никто не может быть точным на 100%. В то же время объекты оценки, требующие ручной оценки, обычно не имеют объективного и единого определенного ответа, поэтому неизбежны различия в суждениях у всех. Эти проблемы должны быть гарантированы от процесса. Поскольку один и тот же случай должен быть помечен несколькими людьми, сохраняются только дела с более высокой степенью согласованности, в противном случае они будут отброшены. Или примите систему первоначальной проверки, при которой менее опытный персонал проводит первоначальную проверку, а старший персонал проводит проверку.

Слепой обзор, который обычно используется для сравнения, удаляет логотипы старой и новой версий или левой и правой версий и позволяет отображать результаты случайным образом, чтобы обеспечить объективность рецензентов и не зависеть от субъективных факторов. .

Люди в человеческих оценках обычно имеют две идентичности. Один обычный пользователь, другой эксперт. Экспертная оценка должна стоять в более профессиональной перспективе и делать выводы на основе собственного понимания и опыта бизнеса. Во-вторых, обычные пользователи также могут создавать эффект со своей точки зрения. Последний может быть протестирован общественностью для сбора пользовательского опыта и отзывов в широком диапазоне, и в то же время получить некоторые реальные данные для поддержки эффекта итеративной оптимизации. Из-за своего специализированного характера навигация по карте обычно требует экспертной оценки.

Инструмент оценки

Инструменты оценки являются гарантией эффективности и качества оценки. Основные функции включают в себя хранилище данных, управление задачами, захват и анализ задач, статистику различий и скрининг, отображение экземпляров задач, оценку, распространение, выборку, распределение, управление результатами и автоматическую отчетность.

Типы задач, методы подсчета очков и формы кейсов, отличные от общего процесса, можно определить самостоятельно. Поскольку большинство задач по оценке являются задачами сравнительной оценки, то, как проводить различия, также очень важно. Чтобы быстро понять влияние эффекта итерации и быстро локализовать проблему. При анализе и выявлении проблем экспертная оценка также нуждается в данных и инструментах, помогающих в анализе или оценке. Доступ к инструментам часто может значительно повысить эффективность оценки.

Ручная оценка может работать хорошо.После определенного накопления опыта оценки и понимания бизнеса начинается полуавтоматическое и автоматическое построение оценки.

Методы включают в себя определение порогов колебаний индикатора и оценку задымленности в экстремальных случаях, а также модель автоматического подсчета очков, которая имитирует ручную оценку.

Автоматическая модель оценкиИзучая характеристики ручной оценки, автоматически выставляется оценка GSB, подсчитываются результаты оценки и предварительно определяется эффект оценочной задачи. В настоящее время он может стать справочным средством, помогающим судить.

обзор дымаВо-первых, определите сценарии и параметры, которые являются основными проблемами бизнеса, и установите индикаторы. И рассчитайте допустимый порог колебаний на основе предыдущего опыта оценки. Кроме того, определяется плохой случай, который является неприемлемым по вариации эффекта. Для некоторых экспериментов, которые необходимо быстро проверить и запустить, цикл оценки может быть сокращен, а эффект отсутствия отклонений может быть гарантирован. В некоторых бизнес-направлениях реализован процесс автоматического выпуска и онлайн-выпуска.

Индикаторный анализ + тест на аномалииЭто один из лучших методов автономной оценки направлений бизнеса, которые в настоящее время не представляют реальной ценности. Путем определения общих индикаторов, индикаторов сцены и индикаторов аномалий формируется относительно комплексная система индикаторов. Наблюдайте за общими колебаниями и изменениями распределения показателей при различных условиях новой версии. В процессе отсеивайте аномальные случаи, а затем выполняйте ручную проверку. В заключение дается заключение по изменению показателей и результатам ручного осмотра. Если нет отклонений, оценка может быть быстро пройдена.

Наконец, дорожные испытания — это окончательное средство проверки эффективности навигационных продуктов. Испытайте и оцените весь процесс с точки зрения пользователя. Несмотря на высокую стоимость и низкую эффективность, он незаменим, а также является одним из способов гарантировать эффект перед выходом в интернет.

2. АБ-эксперимент

Некоторые из требований касаются особенно настройки модели. Требуется онлайн наблюдение. Поэтому после быстрого прохождения автономной оценки перейдите на этап AB для оценки эффекта.

Основным звеном АБ является раздельная маркировка, индексное наблюдение и вывод экспериментального заключения. Ключевым моментом является научный характер эксперимента. В ссылке оценки эффекта не сложно иметь возможности АБ, но построение экспериментов АБ — это длительный процесс, поэтому я не буду здесь вдаваться в подробности.

3. Онлайн-верификация

После оффлайн проверки и экспериментов АБ доказано, что эффект положительный, а спрос как правило запускается полностью.Какой эффект после запуска?Необходимо анализировать онлайн показатели,и наблюдать за отзывами пользователей,чтобы понять есть ли ожидаемые выгоды по основным показателям и наблюдайте, есть ли аномальные изменения в показателях.

Ядром продукта является удовлетворение потребностей пользователей и создание потребительской ценности. Следовательно, отвечает ли он потребностям пользователей, насколько пользователи удовлетворены и как продукт находится на рынке, должно быть вопросом, на который создатели продукта должны обратить внимание и дать ответ в течение длительного времени. Вот как мы пытаемся ответить на эти вопросы.

Эпилог

Процесс построения оценки на самом деле является процессом построения трехмерной системы оценки эффекта продукта. Эту ответственность должен взять на себя кто-то в любой интернет-компании. Но роль может заключаться в тестировании, может быть в продукте, может быть в эксплуатации. В AutoNavi причина, по которой эта роль независима, связана с упором на пользовательский опыт и эффекты продукта. Конечно, эта система далека от совершенства, в процессе непрерывного строительства и развития мы всегда надеемся сделать путешествия лучше постоянными усилиями.