1. Jaro distance
Даны две текстовые строки,Их джоро расстояние определяется как:в:представляет две строкиmatchколичество символовУказывает длину текстовой строкиУказывает количество транспозитоинов ()
попрошайничествоmatchколичество символов: соответственно из,символов, когда они одинаковы или меньше, чем, считаетсяmatchиз.
Например:= "ДИКСОН",= "ДИКСОНКС"расстояниеВычисляется равным 3, тогда каждое сравнение в пространстве от max(0,i-d) до min(i+d,xLen) (если от горизонтальной осиДля сравнения, xLen означаетдлина). наконец получитьmatchномер.
каждый персонаж всреднее расстояниесимволы внутри сравниваются. положить всеmatchОбщее количество строк, которые необходимо заменить, чтобы соответствовать порядку, деленное на два, является размером транспозиций.. Здесь совпадают две строки: "DION", "DION", поэтому. Кроме того=4, =8, но:
Ссылаться на:Rosetta code.org/wiki/jar O_'s…
2. PCA like SIF
-
Первый шаг — умножить каждый вектор слов в предложении на уникальный вес. Этот вес является постояннымразделить наСумма частот слова, то есть вес высокочастотного слова, уменьшится относительно. После суммирования получается вектор временного предложения.
-
Затем вычислите первый главный компонент матрицы, состоящей из всех векторов предложений в корпусе., пусть каждый вектор предложения вычитает его впроекция на (аналог PCA). где векторв другом вектореПроекция на определяется следующим образом:
- Код: