Distance et algos de phonetic

Définition de la Distance

Les algorithmes de distance vont comparer 2 chaines afin de déterminer leur pourcentage de ressemblance.

Algos de distances

  • Jaro (à priori : plus rapide que levenstein sur des petites chaines de caractères)
  • Hamming
  • Levenstein
  • Damerau Levenstein
  • Sift 1 à 4 : un algo de distance plus rapide que Levenstein : https://siderite.blogspot.com/2014/11/super-fast-and-accurate-string-distance.html

Intérêt d'un algo de distance (quand on l'utilise) ?

Dans une requète SQL (en général sous forme de procédure stockée) : permet de filtrer les recherches selon un certain pourcentage de ressemblance.

Définition de la Phonetique

Algos de phonetic

  • Soundex (https://en.wikipedia.org/wiki/Soundex)
  • Metaphone (https://en.wikipedia.org/wiki/Metaphone)
  • Double-metaphone (https://en.wikipedia.org/wiki/Metaphone#Double_Metaphone)
  • Caverphone (https://en.wikipedia.org/wiki/Caverphone)
  • Beider–Morse Phonetic (https://en.wikipedia.org/wiki/Daitch%E2%80%93Mokotoff_Soundex#Beider.E2.80.93Morse_Phonetic_Name_Matching_Algorithm)
  • Kölner Phonetik (https://de.wikipedia.org/wiki/K%C3%B6lner_Phonetik)
  • NYSIIS (https://en.wikipedia.org/wiki/New_York_State_Identification_and_Intelligence_System)

Intérêt d'un algo de phonetic (quand on l'utilise) ?

Tokenization

Derrière ce mot barbare, ce terme désigne un algorithme capable de convertir un texte brut en une liste de mots.

NGrams

https://fr.wikipedia.org/wiki/N-gramme

Stemming

Naive-Bayes classification

Term Frequency-Inverse Document Frequency(tf-idf)

Logistic regression classification

Optimize naive-bayes (currently pretty slow)

Plural/Singular inflector

Algos permettant de transformer un mot de sa forme singulier au pluriel et inversement + détecter sa forme actuel. (est-ce que le mot est au singulier ou au pluriel ?)

Détection de langue

https://github.com/greyblake/whatlang-rs


Comments

comments powered by Disqus