NCChineseConverter 1.0.3

NCChineseConverter 1.0.3

测试已测试
语言 Obj-CObjective C
许可证 MIT
发布最后发布2015年4月

nickcheng维护。



  • 作者:
  • nickcheng

简介

NCChineseConverter 是一个基于 Objective-C 的中文简繁正转换库。除此之外,本项目还包括一个 Python 的词库转换工具。

本库的基本实现原理是从 Mediawiki 提供的字典中提取数据,转换为自己需要的格式,然后用最大正向匹配算法进行字符替换。

特点

  • 可以仅使用单一词库
  • 可扩展自定义词库
  • 提供 NSString 的 Category

使用方法

  1. 用词典工具生成词典
  2. 把生成的词典放在项目的 Resources 目录下
  3. 按照以下方式引用转换库和调用
#import "NCChineseConverter.h"NSString *oriString = @"";
NSString *result = [[NCChineseConverter sharedInstance] convert:oriString 
                                                       withDict:NCChineseConverterDictTypezh2TW];
…

工具

下载词库并生成词典

python dictgenerator.py

使用本地词库生成词典(适用于已经下载了词库文件)

python dictgenerator.py n

词典工具会在当前目录生成如下词典文件

  • zh2TW.txt (简体 -> 台湾正体)
  • zh2HK.txt (简体 -> 港澳繁体)
  • zh2SG.txt (简体 -> 新马繁体)
  • zh2CN.txt (繁体/正体 -> 大陆简体)

为了方便,我在 dictionary 目录中放置了转换好的词典文件。目录名称即为词典生成时间。

注意:请勿修改文件名,转换库是按照文件名来读取词典的。

自定义扩充转换词组

由于词典工具是根据 Mediawiki 的词库来进行词典生成,所以需要等待 Mediawiki 的词库更新才能得到新的词典。如果您有一些 Mediawiki 中没有的词语要扩充,则可以使用该方法来使用。

使用前缀相同的字典文件来进行自定义词组的扩充,转换库会自动加载对应的扩充字典。

例如,把您自己的 简体 -> 台湾正体 词典命名为 zh2TW.custom.txt,这样转换库就可以自动加载这个词典并在转换时使用。

备注

虽然词典工具一次生成四个词典,但是您可以仅使用其中一个或多个。需要注意的是,如果您没有在项目中放入某个词典文件,那么避免在代码中调用该字典。

未来改进

  • 增加更多转换词库
  • 使用 Double-array Trie Tree 来构造原始字典,提高搜索速度
  • 改进分词算法

背景

关于简繁正的问题在此不多说,都是历史遗留问题,具体情况可以自行查看维基百科,用自己的思考去判断(汉字简化争论)。在此只讨论技术相关问题。

简繁转换不仅是一个简单的从一个字转换为另一个字的过程,它包含很多内容,如

  • 各种繁体/正体,如:港澳繁体、台湾正体。再加上各个华人地区的中文(如新加坡)使用等。
  • 简体和繁体的对照往往不止一对一,而是一对二、一对三,甚至一对五(多繁对一简问题

目前比较常用的转换方式主要是 维基百科的转换方式OpenCC

维基百科进行简繁转换的操作流程参见:繁简处理

OpenCC 的库比较专业。不过这是一个 C 库,所以如果要在 iOS 下使用,需要自己编译成 iOS 可用的库后进行调用。

参考