木兰编程语言再现:改进的函数功能、常见分词数据处理实例

 2024-02-26 01:06:57  阅读 0

为了方便使用,标准库和第三方库都支持在调用函数时指定形参名称的方法,比如下面代码第一行使用“utf-8”来打开文件:

与此相关的是,在定义函数时,您可以指定形参的默认值并添加它们。

该代码是获取常用汉字的分词数据。 源数据包含数万个汉字的信息,例如:

U+4FC7	俇	⿰亻狂
U+4FC8	俈	⿰亻告
U+4FC9	俉	⿰亻吾
U+4FCA	俊	⿰亻夋 

首先我写了一个简单的常用字体库来判断一个单词是否属于2500个常用单词(具体见源码)。

上图中的代码对源数据进行过滤,只提取常用词。 分离出来的部分也属于常用词,输出到json文件中。 例如:

    "圣": {
        "字型": "⿱",
        "部分": [
            "又",
            "土"
        ]
    },
    "地": {
        "字型": "⿰",
        "部分": [
            "土",
            "也"
        ]
    },

通过该示例代码验证了新增函数的功能,发现并修复了字符串转义处理中的一些问题。

另外,汉化字典中无键的反馈信息:

d = {1 : 'a', 3 : 'c'}
print(d[4]) 

标签: 常用 函数 汉字

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码