PHP计算文档频率与特征向量
步骤:
播州ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:18980820575(备注:SSL证书合作)期待与您的合作!
(1)读取3篇txt格式的英文文档;
(2)对每篇文档进行分词;
(3)利用正则表达式去掉逗号、句号等标点符号;
(4)计算文档频率;
(5)统计特征向量
$_value){ $_value = trim($_value); $_value = preg_replace('/[.|,|(|)|-|;]/','',$_value); $_words[$i][$_key]=strtolower($_value); } //去重 $_words[$i]= array_unique($_words[$i]); } //合并 $_words_com = array_merge($_words[0],$_words[1],$_words[2]); //文档频率 $_df = array_count_values($_words_com); //特征向量 for ($i = 0;$i < $_len;$i++){ $_vsm[$i] = $_df; foreach($_vsm[$i] as $_key=>$_value){ $_vsm[$i][$_key] = 0; } for ($j=0;$j'; } print_r($_df); ?>
文章名称:PHP计算文档频率与特征向量
文章路径:http://myzitong.com/article/jojpop.html