如何剔除一个utf-8格式的文本里面的繁体汉字?

有一个utf-8格式的文本,里面有繁体汉字和简体汉字。
如何剔除里面的繁体汉字,只保留简体汉字?

共 4 个回复


stevewang

没有很好的方法。

# 0

heimeil

好像可以通过unicode范围分辨,但是有些字是繁简一样的

# 1

ThoseFlowers

@heimeil 更要命的是,某些字的简体就是另外一个字的繁体

# 2

xinyu391

简体和繁体,unicode 编码范围是不一样,即使字形长得一样。

自己写程序,根据繁体范围取剔除 繁体字

# 3