unicode转换(unicode汉字内码表)


国际化组件的Unicode (ICU)库

ICU(Unicode的国际组件)是一套成熟且广泛使用的C/C、Java和。NET类库,为软件应用程序提供unicode和全球化支持。它可以在所有平台的C/C、Java和C#软件上获得一致的结果,用于支持软件国际化的开源项目。软件开发人员几乎可以使用ICU解决任何国际化问题,并根据当地的风俗习惯和语言习惯,实现数字、货币、时间、日期、消息的格式化和解析,以及对字符串进行大小写转换、排序、搜索和排序等功能。ICU的主页是

ICU最早是由Taligent公司开发的。Taligent公司并入IBM全球认证中心Unicode研究组后,ICU继续由IBM和开源组织开发。一开始ICU只有Java平台的版本。后来这个平台下的ICU类被吸收到SUN公司开发的JDK1.1中,在JDK的后期版本中不断改进。C和C平台下的ICU是从JAVA平台下的ICU移植过来的,移植后的版本叫做ICU4C,支持C/C平台下的国际应用。ICU4J和ICU4C差别不大,但是因为ICU4C是开源的,并且紧跟Unicode标准,所以ICU4C支持的Unicode标准总是最新的。同时,由于在JAVA平台上发布ICU4J需要与JDK绑定,所以ICU4C支持的Unicode标准更改速度要比ICU4J快得多。在Linux操作系统上,NET Core使用ICU全球化API。

跨平台的应用(包括Linux、macOS、Windows)都有同样的全球化行为。

应用程序可以通过使用定制的ICU库来控制全球化行为。

ICU的主要功能是:

代码页转换:将文本数据转换成Unicode,几乎任何其他字符集或编码。ICU换算表是基于IBM几十年来收集的字符集数据,是全世界最全的。

校对):根据特定语言、地区或国家的管理和标准比较单词串。ICU的排序是基于Unicode排序算法加

格式化:根据所选地区的惯例格式化数字、货币、时间、日期和利率。包括将月名和日名翻译成所选语言、选择适当的缩写、正确排序字段等。这些数据也取自公共区域数据仓库。

时间计算:提供了多种基于传统公历的日历。提供一套完整的时区计算API。

Unicode支持: ICU紧跟Unicode标准,通过它可以方便地访问Unicode标准制定的很多Unicode字符属性、Unicode规范化、大小写转换等基本操作。

正则表达式: ICU的正则表达式完全支持Unicode,性能很有竞争力。

Bidi:支持不同书写顺序的混合字符处理(如英语从左向右书写,或阿拉伯语和希伯来语从右向左书写)。

文本边界:定位一段文本内的单词、句子或段落的位置,或者识别最适合显示文本的自动换行位置。

阜阳市颍泉区人民政府办公室