用Python的fuzzy、wuzzy模块进行字符串模糊匹配-创新互联
Python提供fuzzywuzzy模块,不仅可用于计算两个字符串之间的相似度,而且还提供排序接口能从大量候选集中找到最相似的句子。
创新互联建站专注于策勒企业网站建设,成都响应式网站建设,商城网站建设。策勒网站建设公司,为策勒等地区提供建站服务。全流程按需制作网站,专业设计,全程项目跟踪,创新互联建站专业和态度为您提供的服务(1)安装
pip install fuzzywuzzy
(2)接口说明
两个模块:fuzz, process,fuzz主要用于两字符串之间匹配,process主要用于搜索排序。
fuzz.ratio(s1,s2)直接计算s2和s2之间的相似度,返回值为0-100,100表示完全相同;
fuzz.partial_ratio(S1,S2)部分匹配,如果S1是S2的子串依然返回100;
fuzz.token_sort_ratio(S1,S2)只比较S1,S2单词是否相同,不考虑词语之间的顺序;
fuzz.token_set_ratio(S1,S2)相比fuzz.token_sort_ratio不考虑词语出现的次数;
process.extract(S1, ListS,limit=n),表示从列表ListS中找出Top n与S1最相似的句子;
process.extractOne(S1,ListS),返回最相似的一个
(3)使用
from fuzzywuzzy import fuzz
a = 'a b c'
b = ' a c b '
c = 'a c'
fuzz.ratio(a, c)
>> 75
fuzz.ratio(b, c)
>> 60无锡知名的妇科医院 http://www.wxbhnkyy39.com/
fuzz.partial_ratio(a, c)
>> 67
fuzz.partial_ratio(b, c)
>> 100
fuzz.token_sort_ratio(a, c)
>> 75
fuzz.token_sort_ratio(b, c)
>> 75
fuzz.token_set_ratio(a, c)
>> 100
fuzz.token_set_ratio(b, c)
>> 100
另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
文章名称:用Python的fuzzy、wuzzy模块进行字符串模糊匹配-创新互联
转载来源:http://myzitong.com/article/jsose.html