怎样提取word文本中不重复的汉字
- 培训职业
- 2025-06-20 23:35:29
做字库么...汉字是unicode编码,所以知道了吧...最简单又比较有效率的就是用二叉搜索树来存放汉字的unicode码啦,如果读入的汉字编码在树内就说明是重复汉字了.
当然,还有很多别的数据结构可以使用,比如索引,散列都是很好的选择
回答补充:首先你得要知道文档里的字符是不是汉字对吧,汉字在不同的编码里面都有范围的,只要在这个范围之内就是汉字,其次你得要知道这个字符是否已经提取过了对吧,那你要有一个数据结构来存放提取信息
上一篇
如何做好施工成本控制
下一篇
单句与复句的区别
多重随机标签