Distance et algos de phonetic
Définition de la Distance
Les algorithmes de distance vont comparer 2 chaines afin de déterminer leur pourcentage de ressemblance.
Algos de distances
- Jaro (à priori : plus rapide que levenstein sur des petites chaines de caractères)
- Hamming
- Levenstein
- Damerau Levenstein
- Sift 1 à 4 : un algo de distance plus rapide que Levenstein : https://siderite.blogspot.com/2014/11/super-fast-and-accurate-string-distance.html
Intérêt d'un algo de distance (quand on l'utilise) ?
Dans une requète SQL (en général sous forme de procédure stockée) : permet de filtrer les recherches selon un certain pourcentage de ressemblance.
Définition de la Phonetique
Algos de phonetic
- Soundex (https://en.wikipedia.org/wiki/Soundex)
- Metaphone (https://en.wikipedia.org/wiki/Metaphone)
- Double-metaphone (https://en.wikipedia.org/wiki/Metaphone#Double_Metaphone)
- Caverphone (https://en.wikipedia.org/wiki/Caverphone)
- Beider–Morse Phonetic (https://en.wikipedia.org/wiki/Daitch%E2%80%93Mokotoff_Soundex#Beider.E2.80.93Morse_Phonetic_Name_Matching_Algorithm)
- Kölner Phonetik (https://de.wikipedia.org/wiki/K%C3%B6lner_Phonetik)
- NYSIIS (https://en.wikipedia.org/wiki/New_York_State_Identification_and_Intelligence_System)
Intérêt d'un algo de phonetic (quand on l'utilise) ?
Tokenization
Derrière ce mot barbare, ce terme désigne un algorithme capable de convertir un texte brut en une liste de mots.
NGrams
https://fr.wikipedia.org/wiki/N-gramme
Stemming
Naive-Bayes classification
Term Frequency-Inverse Document Frequency(tf-idf)
Logistic regression classification
Optimize naive-bayes (currently pretty slow)
Plural/Singular inflector
Algos permettant de transformer un mot de sa forme singulier au pluriel et inversement + détecter sa forme actuel. (est-ce que le mot est au singulier ou au pluriel ?)
Détection de langue
https://github.com/greyblake/whatlang-rs
Comments
comments powered by Disqus