希字码:修订间差异
无编辑摘要 |
无编辑摘要 |
||
| 第1行: | 第1行: | ||
'''希字码''',或 '''XCC'''( Charater Code),是[[希顶社区]]设计的,用于表示[[希顶语]]的[[字音]]的一套二进制编码系统。系统从实际的明文字音里抽象出不同[[正字法|元素]]的逻辑顺序,可以用于表示[[原希]]和[[希雅 | '''希字码''',或 '''XCC'''( Charater Code),是[[希顶社区]]设计的,用于表示[[希顶语]]的[[字音]]的一套二进制编码系统。系统从实际的明文字音里抽象出不同[[正字法|元素]]的逻辑顺序,可以用于表示[[原希]]和[[希雅]]、[[新标希|标希]]、[[〇改]]等希顶方言的字音。 | ||
在此之外,除了二进制形式,我们另设计了对应的字符化形式('''SXCC''',Stringified Charater Code)与十进制形式(或称电码形式,分为''标希用''与''希雅用'')。 | |||
== 系统说明 == | == 系统说明 == | ||
=== 编码格式 === | === 编码格式 === | ||
为保持与ASCII的兼容性,每字节的首位(高位)不包含编码信息,仅填入1。 | 为保持与ASCII的兼容性,编码中每一字节的首位(高位)不包含编码信息,仅填入1。 | ||
{| class="wikitable" | {| class="wikitable" | ||
| 第16行: | 第15行: | ||
|} | |} | ||
如此安排,两个字节可表示一个希顶音节。 | 如此安排,两个字节可表示一个希顶音节,即一个token。音节中对应的声、介、韵采用希顶拼写中的表层形式,不转化至音系上的底层形式。特别地,{{x|4u-}}、{{x|hu-}} 记为 {{x|4ü-}}、{{x|hü-}},因其拼写仅为[[希顶语拼读规则|字面]]上的简写: | ||
{| class="wikitable" | {| class="wikitable" | ||
| 第39行: | 第38行: | ||
|F0+||{{x|c}}||{{x|5}}||空||空 | |F0+||{{x|c}}||{{x|5}}||空||空 | ||
|} | |} | ||
包含[[原希]]的29个声母与一个空声母,其中不包含扩充字母 {{x|M}}、{{x|O}}。右下角两个空位设计用于扩展或其他符号的兼容。 | |||
{| class="wikitable" | {| class="wikitable" | ||
| 第52行: | 第53行: | ||
|- | |- | ||
|} | |} | ||
包含3个介母与一个空介母。其中 {{x|ü}} 用于拼写[[原希]]中的非规则音节(如 彪 {{x|büL}})和 {{x|4u-}}、{{x|hu-}}。 | |||
{| class="wikitable" | {| class="wikitable" | ||
| 第67行: | 第70行: | ||
|- | |- | ||
|} | |} | ||
包含15个韵母和一个空韵母。其中{{x|1s}}构成[[原希]]中的非规则音节(如 私 {{x|t1s}})。 | |||
对于部首的编码。即只取声、介、韵之一,其余部分填充为空。所以用于排序时部首字母的顺序韵母最前、介母稍后、声母最后。 | 对于部首的编码。即只取声、介、韵之一,其余部分填充为空。所以用于排序时部首字母的顺序韵母最前、介母稍后、声母最后。 | ||
| 第89行: | 第94行: | ||
| +5 || 声旁、音节连接 || - | | +5 || 声旁、音节连接 || - | ||
|} | |} | ||
编码后缀添加在音节或部首后,Z 和 X 用于处理 转置{{x|H}} 和 常态{{x|H}},! 用于结束一个字音,- 用于连接多音节的声旁或无法用一码表示的复杂非规则音节。 | |||
容易发现,一个空音节(声、介、韵皆空)也可添加编码后缀,这是实用的:有时我们需要同时添加多个编码后缀,这时较为后者就应添加在序列随后的空音节上。值得注意的是,编码后缀独立出来和合并在前面的音节上是等价的,但储存时通常需正规化(计算NXCC时尤其需要注意),尽可能合并到一个音节上。(注:在多树希顶方言中,部首{{x|H}}或许也与常态{{x|H}}编码后缀等价。) | 容易发现,一个空音节(声、介、韵皆空)也可添加编码后缀,这是实用的:有时我们需要同时添加多个编码后缀,这时较为后者就应添加在序列随后的空音节上。值得注意的是,编码后缀独立出来和合并在前面的音节上是等价的,但储存时通常需正规化(计算NXCC时尤其需要注意),尽可能合并到一个音节上。(注:在多树希顶方言中,部首{{x|H}}或许也与常态{{x|H}}编码后缀等价。) | ||
=== 对应字音关系=== | === 对应字音关系=== | ||
希字码用于描述希顶语[[字音]],亦实现[[希雅语]]为表层呈现(同时对应[[新标希|标希]]、[[〇改]],但不构成双射)。可支持'''音译声旁'''和'''嵌套部首'''、'''多重H'''、'''整字部首'''等多种形式。作为希字码仅需按顺序罗列元素与所需的编码后缀,便于解析、分析、排序。 | |||
希字码到希顶语字音的过程称解码(decode),对于不同方言的实现不同。下面是对于[[希雅语]]所需的逻辑: | |||
XCC的第一个token通常应为一个音节或一个空音节。(如不构成音节或视同一个''多''(非1)音节声旁,或视为非法序列,更推荐的形式可以是一个空音节后加 - 。)如遇 - 则连接下一token成为多音节声旁。 | |||
部首的初始方向是向前,我们记方向为 Δ,记反向操作为 -Δ,记前后为 ◅、▻。遇到一般的部首、Z 时我们的 Δ 不变,仅需添加对应的部首或 {{x|H}}。遇到 X 时Δ:=-Δ,并在序列上添加 {{x|H'}}(如◅) 或 {{x|'H}}(如▻)。 | |||
=== SXCC=== | === SXCC=== | ||
2025年10月29日 (三) 01:43的版本
希字码,或 XCC( Charater Code),是希顶社区设计的,用于表示希顶语的字音的一套二进制编码系统。系统从实际的明文字音里抽象出不同元素的逻辑顺序,可以用于表示原希和希雅、标希、〇改等希顶方言的字音。
在此之外,除了二进制形式,我们另设计了对应的字符化形式(SXCC,Stringified Charater Code)与十进制形式(或称电码形式,分为标希用与希雅用)。
系统说明
编码格式
为保持与ASCII的兼容性,编码中每一字节的首位(高位)不包含编码信息,仅填入1。
| b0 | 5位,声母 | 2位,介母 | b0 | 4位,韵母 | 3位,编码后缀 |
|---|
如此安排,两个字节可表示一个希顶音节,即一个token。音节中对应的声、介、韵采用希顶拼写中的表层形式,不转化至音系上的底层形式。特别地,-、- 记为 ü-、ü-,因其拼写仅为字面上的简写:
| 0 | 4 | 8 | C | |
|---|---|---|---|---|
| 80+ | ∅ | | | |
| 90+ | | | | |
| A0+ | | | | |
| B0+ | | | | |
| C0+ | | | | |
| D0+ | | | | |
| E0+ | | | | |
| F0+ | | | 空 | 空 |
包含原希的29个声母与一个空声母,其中不包含扩充字母 、。右下角两个空位设计用于扩展或其他符号的兼容。
| +0 | ∅ |
| +1 | |
| +2 | |
| +3 | ü |
包含3个介母与一个空介母。其中 ü 用于拼写原希中的非规则音节(如 彪 ü)和 -、-。
| 1 | 9 | 11 | 19 | |
|---|---|---|---|---|
| 80+ | ∅ | | | |
| A0+ | | | | |
| C0+ | | | | |
| E0+ | | | | |
包含15个韵母和一个空韵母。其中构成原希中的非规则音节(如 私 )。
对于部首的编码。即只取声、介、韵之一,其余部分填充为空。所以用于排序时部首字母的顺序韵母最前、介母稍后、声母最后。
| 编码 | 含义 | SXCC形式 |
|---|---|---|
| -1 | 字音终止 | ! |
| ±0 | 平凡状态 | |
| +1 | 常态且字音终止 | Z! |
| +2 | 常态 | Z |
| +3 | 转置且字音终止 | X! |
| +4 | 转置 | X |
| +5 | 声旁、音节连接 | - |
编码后缀添加在音节或部首后,Z 和 X 用于处理 转置 和 常态,! 用于结束一个字音,- 用于连接多音节的声旁或无法用一码表示的复杂非规则音节。
容易发现,一个空音节(声、介、韵皆空)也可添加编码后缀,这是实用的:有时我们需要同时添加多个编码后缀,这时较为后者就应添加在序列随后的空音节上。值得注意的是,编码后缀独立出来和合并在前面的音节上是等价的,但储存时通常需正规化(计算NXCC时尤其需要注意),尽可能合并到一个音节上。(注:在多树希顶方言中,部首或许也与常态编码后缀等价。)
对应字音关系
希字码用于描述希顶语字音,亦实现希雅语为表层呈现(同时对应标希、〇改,但不构成双射)。可支持音译声旁和嵌套部首、多重H、整字部首等多种形式。作为希字码仅需按顺序罗列元素与所需的编码后缀,便于解析、分析、排序。
希字码到希顶语字音的过程称解码(decode),对于不同方言的实现不同。下面是对于希雅语所需的逻辑:
XCC的第一个token通常应为一个音节或一个空音节。(如不构成音节或视同一个多(非1)音节声旁,或视为非法序列,更推荐的形式可以是一个空音节后加 - 。)如遇 - 则连接下一token成为多音节声旁。
部首的初始方向是向前,我们记方向为 Δ,记反向操作为 -Δ,记前后为 ◅、▻。遇到一般的部首、Z 时我们的 Δ 不变,仅需添加对应的部首或 。遇到 X 时Δ:=-Δ,并在序列上添加 '(如◅) 或 '(如▻)。
SXCC
……
NXCC
……
希雅语
↪ 请查看页面:希雅语
示例
……
相关 demo 与解析库
……