4。元素:字符编码字符编码映射字符到二进制数据(位/字节级别)。每个字符集使用一个或多个特定的编码。系统必须知道使用什么编码来正确解释二进制数据所表示的内容。土著语言文本由由Unicode字符组成的图形字符串(符号)组成。可以使用UTF-8(最好是)或UTF-16编码将这些素描编码为二进制数据。UTF-8是在卑诗省使用的首选编码。政府系统,因为它仅使用一个字节来存储所有ASCII字符,而大多数文本数据都在卑诗省。政府系统是ASCII。多字符素数和本地语言非ASCII字符需要其他字节。UTF-16也是编码Unicode字符的标准,但每个字符都需要2或4个字节。由于UTF-8对于主要使用ASCII字符的应用程序更有效,因此它是在卑诗省使用的首选编码。政府系统。
Unicode 是由 Unicode 协会制定的全球性字符编码标准,该协会是由一群对国际文本编码和计算应用感兴趣的公司和机构组成的团体。Unicode 标准的制定是为了解决多语言计算机程序中遇到的最常见和最严重的问题,包括“编码字符时字体机制超载,以及由于国家字符标准冲突而使用多个不一致的字符代码”。[1] Unicode 标准对字符和字形的区分如下:“字符只驻留在机器中,作为字符串存在于内存或磁盘的后备存储器中。Unicode 标准只处理字符代码。与字符不同,字形在屏幕或纸张上显示为一个或多个后备存储器字符的特定表示。一组字形构成一种字体。”[1] 因此,用 Unicode 术语来说,字形和字符之间的关系不是一对一映射。例如,拉丁大写字母 A 被编码为 Unicode 字符 0041(十六进制),但在屏幕或纸张上特定情况下表示该字符的视觉字形可能是 Times Roman A 或 Helvetica A 或 Courier A ,或任何其他 A 形式,具体取决于为文本选择的字体样式。相反,拉丁字母 A (0041)、西里尔字母 A (0410) 和希腊字母 Alpha (0391) 是不同的 Unicode 字符,都可以用
Unicode 是由 Unicode 联盟(一群对国际文本编码和计算应用感兴趣的公司和机构)开发的全球字符编码标准。Unicode 标准的开发旨在为多语言计算机程序中遇到的最常见和最严重的问题提供解决方案,包括“编码字符时字体机制的超载,以及由于国家字符标准冲突而导致的多个不一致字符代码的使用”。[ 1 ] Unicode 标准以以下方式区分字符和字形:“字符仅驻留在机器中,作为内存或磁盘上的字符串,在后备存储器中。Unicode 标准仅处理字符代码。与字符相反,字形在屏幕或纸张上显示为一个或多个后备存储器字符的特定表示。字形库构成字体。'[ 1 ] 因此,在 Unicode 术语中,字形和字符之间的关系不是一对一映射。例如,拉丁大写字母 A 被编码为 Unicode 字符 0041(十六进制),但在屏幕或纸张上的特定实例中表示该字符的视觉字形可能是 Times Roman A 或 Helvetica A 或 Courier A ,或任意数量的其他 A 形式,具体取决于为文本选择的字体样式。相反,拉丁字母 A (0041)、西里尔字母 A (0410) 和希腊字母 Alpha (0391) 是不同的 Unicode 字符,都可以用一个字形表示。即使在单个字母表中,多个字形也可能表示一个字符。例如,在阿拉伯字母表中,字母的书写形式取决于上下文,并且呈现给定字符的字形形状根据字符出现在文本字符串的首部、中间、结尾还是独立位置而不同。Unicode 1.0 不对这些异体变体进行编码(但请参阅下面的修订和更新)。