当前位置:首页 > 培训职业 > 正文

怎样提取word文本中不重复的汉字

做字库么...汉字是unicode编码,所以知道了吧...最简单又比较有效率的就是用二叉搜索树来存放汉字的unicode码啦,如果读入的汉字编码在树内就说明是重复汉字了.

当然,还有很多别的数据结构可以使用,比如索引,散列都是很好的选择

回答补充:首先你得要知道文档里的字符是不是汉字对吧,汉字在不同的编码里面都有范围的,只要在这个范围之内就是汉字,其次你得要知道这个字符是否已经提取过了对吧,那你要有一个数据结构来存放提取信息

多重随机标签

猜你喜欢文章