希字码：修订间差异

以互动方式浏览历史

←上一编辑下一编辑→

可视化wikitext

2025年10月29日 (三) 01:43的版本

希字码，或 XCC（ Charater Code），是希顶社区设计的，用于表示希顶语的字音的一套二进制编码系统。系统从实际的明文字音里抽象出不同元素的逻辑顺序，可以用于表示原希和希雅、标希、〇改等希顶方言的字音。

在此之外，除了二进制形式，我们另设计了对应的字符化形式（SXCC，Stringified  Charater Code）与十进制形式（或称电码形式，分为标希用与希雅用）。

系统说明

编码格式

为保持与ASCII的兼容性，编码中每一字节的首位（高位）不包含编码信息，仅填入1。

码段分配
b0	5位，声母	2位，介母	b0	4位，韵母	3位，编码后缀

如此安排，两个字节可表示一个希顶音节，即一个token。音节中对应的声、介、韵采用希顶拼写中的表层形式，不转化至音系上的底层形式。特别地，-、- 记为 ü-、ü-，因其拼写仅为字面上的简写：

声母
	0	4	8	C
80+	∅			
90+				
A0+				
B0+				
C0+				
D0+				
E0+				
F0+			空	空

包含原希的29个声母与一个空声母，其中不包含扩充字母 、。右下角两个空位设计用于扩展或其他符号的兼容。

介母
+0	∅
+1	
+2	
+3	ü

包含3个介母与一个空介母。其中 ü 用于拼写原希中的非规则音节（如彪 ü）和 -、-。

韵母
	1	9	11	19
80+	∅			
A0+				
C0+				
E0+				

包含15个韵母和一个空韵母。其中构成原希中的非规则音节（如私 ）。

对于部首的编码。即只取声、介、韵之一，其余部分填充为空。所以用于排序时部首字母的顺序韵母最前、介母稍后、声母最后。

编码后缀
编码	含义	SXCC形式
-1	字音终止	！
±0	平凡状态
+1	常态且字音终止	Z!
+2	常态	Z
+3	转置且字音终止	X!
+4	转置	X
+5	声旁、音节连接	-

编码后缀添加在音节或部首后，Z 和 X 用于处理转置 和常态，! 用于结束一个字音，- 用于连接多音节的声旁或无法用一码表示的复杂非规则音节。

容易发现，一个空音节（声、介、韵皆空）也可添加编码后缀，这是实用的：有时我们需要同时添加多个编码后缀，这时较为后者就应添加在序列随后的空音节上。值得注意的是，编码后缀独立出来和合并在前面的音节上是等价的，但储存时通常需正规化（计算NXCC时尤其需要注意），尽可能合并到一个音节上。（注：在多树希顶方言中，部首或许也与常态编码后缀等价。）

对应字音关系

希字码用于描述希顶语字音，亦实现希雅语为表层呈现（同时对应标希、〇改，但不构成双射）。可支持音译声旁和嵌套部首、多重H、整字部首等多种形式。作为希字码仅需按顺序罗列元素与所需的编码后缀，便于解析、分析、排序。

希字码到希顶语字音的过程称解码（decode），对于不同方言的实现不同。下面是对于希雅语所需的逻辑：

XCC的第一个token通常应为一个音节或一个空音节。（如不构成音节或视同一个多（非1）音节声旁，或视为非法序列，更推荐的形式可以是一个空音节后加 - 。）如遇 - 则连接下一token成为多音节声旁。

部首的初始方向是向前，我们记方向为 Δ，记反向操作为 -Δ，记前后为 ◅、▻。遇到一般的部首、Z 时我们的 Δ 不变，仅需添加对应的部首或 。遇到 X 时Δ:=-Δ，并在序列上添加 '（如◅）或 '（如▻）。

SXCC

……

NXCC

……

希雅语

↪ 请查看页面：希雅语

示例

……

@@ 第1行： / 第1行： @@
-'''希字码'''，或 '''XCC'''（ Charater Code），是[[希顶社区]]设计的，用于表示[[希顶语]]的[[字音]]的一套二进制编码系统。系统从实际的明文字音里抽象出不同[[正字法|元素]]的逻辑顺序，可以用于表示[[原希]]和[[希雅语|希雅]]和[[标希]]等希顶方言的字音。
+'''希字码'''，或 '''XCC'''（ Charater Code），是[[希顶社区]]设计的，用于表示[[希顶语]]的[[字音]]的一套二进制编码系统。系统从实际的明文字音里抽象出不同[[正字法|元素]]的逻辑顺序，可以用于表示[[原希]]和[[希雅]]、[[新标希|标希]]、[[〇改]]等希顶方言的字音。
-在此之外，除了二进制形式，我们另设计了对应的字符化形式（'''SXCC'''，Stringified  Charater Code）与十进制形式（或称电码形式，分为标希用与希雅用）。
+在此之外，除了二进制形式，我们另设计了对应的字符化形式（'''SXCC'''，Stringified  Charater Code）与十进制形式（或称电码形式，分为''标希用''与''希雅用''）。
 == 系统说明 ==
 === 编码格式 ===
-为保持与ASCII的兼容性，每字节的首位（高位）不包含编码信息，仅填入1。
+为保持与ASCII的兼容性，编码中每一字节的首位（高位）不包含编码信息，仅填入1。
 {| class="wikitable"
@@ 第16行： / 第15行： @@
 |}
-如此安排，两个字节可表示一个希顶音节。上文中声、介、韵采用希顶拼写中的形式，不转化至底层形式。特别地，{{x|4u-}} 记为 {{x|4ü-}}，因其拼写仅为字面上的简写。
+如此安排，两个字节可表示一个希顶音节，即一个token。音节中对应的声、介、韵采用希顶拼写中的表层形式，不转化至音系上的底层形式。特别地，{{x|4u-}}、{{x|hu-}} 记为 {{x|4ü-}}、{{x|hü-}}，因其拼写仅为[[希顶语拼读规则|字面]]上的简写：
 {| class="wikitable"
@@ 第39行： / 第38行： @@
 |F0+||{{x|c}}||{{x|5}}||空||空
 |}
+包含[[原希]]的29个声母与一个空声母，其中不包含扩充字母 {{x|M}}、{{x|O}}。右下角两个空位设计用于扩展或其他符号的兼容。
 {| class="wikitable"
@@ 第52行： / 第53行： @@
 |-
 |}
+包含3个介母与一个空介母。其中 {{x|ü}} 用于拼写[[原希]]中的非规则音节（如 彪 {{x|büL}}）和 {{x|4u-}}、{{x|hu-}}。
 {| class="wikitable"
@@ 第67行： / 第70行： @@
 |-
 |}
+包含15个韵母和一个空韵母。其中{{x|1s}}构成[[原希]]中的非规则音节（如 私 {{x|t1s}}）。
 对于部首的编码。即只取声、介、韵之一，其余部分填充为空。所以用于排序时部首字母的顺序韵母最前、介母稍后、声母最后。
@@ 第89行： / 第94行： @@
 | +5 || 声旁、音节连接 || -
 |}
+编码后缀添加在音节或部首后，Z 和 X 用于处理 转置{{x|H}} 和 常态{{x|H}}，! 用于结束一个字音，- 用于连接多音节的声旁或无法用一码表示的复杂非规则音节。
 容易发现，一个空音节（声、介、韵皆空）也可添加编码后缀，这是实用的：有时我们需要同时添加多个编码后缀，这时较为后者就应添加在序列随后的空音节上。值得注意的是，编码后缀独立出来和合并在前面的音节上是等价的，但储存时通常需正规化（计算NXCC时尤其需要注意），尽可能合并到一个音节上。（注：在多树希顶方言中，部首{{x|H}}或许也与常态{{x|H}}编码后缀等价。）
 === 对应字音关系===
-……
+希字码用于描述希顶语[[字音]]，亦实现[[希雅语]]为表层呈现（同时对应[[新标希|标希]]、[[〇改]]，但不构成双射）。可支持'''音译声旁'''和'''嵌套部首'''、'''多重H'''、'''整字部首'''等多种形式。作为希字码仅需按顺序罗列元素与所需的编码后缀，便于解析、分析、排序。
+希字码到希顶语字音的过程称解码（decode），对于不同方言的实现不同。下面是对于[[希雅语]]所需的逻辑：
+XCC的第一个token通常应为一个音节或一个空音节。（如不构成音节或视同一个''多''（非1）音节声旁，或视为非法序列，更推荐的形式可以是一个空音节后加 - 。）如遇 - 则连接下一token成为多音节声旁。
+部首的初始方向是向前，我们记方向为 Δ，记反向操作为 -Δ，记前后为 ◅、▻。遇到一般的部首、Z 时我们的 Δ 不变，仅需添加对应的部首或 {{x|H}}。遇到 X 时Δ:=-Δ，并在序列上添加 {{x|H'}}（如◅） 或 {{x|'H}}（如▻）。
 === SXCC===