一种方言同音字汇自动生成系统 - 百姓标王

一种方言同音字汇自动生成系统

文档序号:27912628发布日期:2021-12-11 10:00阅读:1080来源:国知局
一种方言同音字汇自动生成系统

1.本发明涉及文字处理技术领域,具体涉及一种方言同音字汇自动生成系统。


背景技术:

2.中国是方言大国,每种方言都有自己独特的语音系统,整理每种方言的语音系统是方言调查的基本任务。方言同音字汇,简单来说就是一本按方言韵母、声母、声调查字的语文工具书。可以方便地供方言调查者进一步记录语音材料(例如,变调、儿化、轻声、音变等),整理方言的词汇和语法,进行方言语音系统以及古今语音演变的研究;也可以供讲方言的人对照学习普通话;对其他方言区的人了解、学习该方言也有帮助。因此,研究方言的人非常看重“同音字汇”。但是“方言同音字汇”的制作相当困难,传统是采用做卡片的方式,做好一本同音字汇需要很长时间,稍有不慎,就会出现偏差,是一项费时费力的工作。可以说,“方言同音字汇”的制作,已成为制约加速方言调查工作的“瓶颈”。因此,基于计算语言学知识,通过计算机自动生成“方言同音字汇”是一项意义深远的任务。
3.随着科学研究的交叉融合渗透,相关领域研究人员开始利用计算机辅助方言的调查与研究,以减轻方言调查者的工作量。在“同音字汇”自动处理方面,相关研究工作主要有以下三个方面。
4.上海师范大学潘悟云利用visual foxpro开发了一个“汉语方言计算机处理系统”,在该系统的第四个功能“方言音系分析”中,可调入按一定格式建立的visual foxpro数据库字表,生成同音字表。但是用户在使用中必须严格采用该系统所规定的vfp数据库格式,否则即会出现运行错误,并且要求数据库中一定要有汉字、中古声母、中古韵母、中古声调等14个字段
1.。此外,该软件最终生成的同音字表虽然按韵、声、调的顺序对同音字进行了排序,但每一组同音字都有声、韵、调三个属性,离生成文本形式的同音字汇“竖排表”还有一定的距离。
5.广西民族大学海柳文
2.利用visual foxpro开发的“汉语方言民族语言语音材料处理软件”。在进行“同音字汇排序”时,该系统只能按英文字母的音序进行排序,因此影响了同音字汇生成的精度。
6.广西师范大学刘村汉
3.基于excel开发的“方言字音处理系统”,在生成同音字汇时,要进行复杂的公式运算,操作一不小心,就有可能出错。加大了对计算机不熟悉的方言调查者学习和操作的难度。
7.以上软件在同音字汇自动生成方面做出了有效的尝试,并且取得了一定的效果,但它们在用户可用性、用户体验以及准确率上仍然有待提升。


技术实现要素:

8.针对现有技术的不足,本发明旨在提供一种方言同音字汇自动生成系统。
9.为了实现上述目的,本发明采用如下技术方案:
10.一种方言同音字汇自动生成的系统,具体包括:
11.数据读入模块:用于从数据库中读入目标方言的字表及id、字目、声、韵、调五个字段的信息,自动分析出目标方言的声、韵、调系统;
12.排序模块:用于供用户对数据读入模块分析出的声、韵、调系统的排序依据进行设定,并根据用户设定的排序依据对声、韵、调系统进行排序,如果用户没有对排序依据进行设定,则采用默认的排序依据对声、韵、调系统进行排序;
13.同音字汇竖排表生成模块:用于对排序模块得到的排序结果,过滤掉相同的声、韵、调,即所有属于同一个韵母的字,韵母只表示一次;所有属于同一个声母的字,声母只表示一次;所有属于同一个声调的字,声调只表示一次,最终生成同音字汇竖排表。
14.进一步地,上述系统还包括有数据库,用于当用户没有自行建立 access或者excel数据库来存储字表时,供用户从文档中复制字表到所述数据库中。
15.进一步地,数据读入模块可与用户自行建立的access数据库挂接,并自动加载该数据库的字表和字段。
16.进一步地,数据读入模块可与用户建立的excel表挂接,自动加载字表和各个字段。
17.进一步地,所述默认的排序依据为:声母按发音部位排序,韵母按开口度排序,声调按平、上、去、入排序,韵母相同的,按声母排列,韵母和声母都相同的,再按声调排列。
18.进一步地,排序模块对声、韵、调系统进行排序的过程为:
19.依据韵、声、调的排序依据规定的韵、声、调优先级,得到韵、声、调的所有排列组合,按顺序对于每个韵、声、调的排列组合依次使用stryun[m]==stryun_type[i]&&strsheng[m]== strsheng_type[i]&&strdiao[m]==strdiao_type[k]检测字表中的每个字目m的声strsheng、韵stryun、调strdiao是否符合该条件,stryun_type[i]、strsheng_type[i]、strdiao_type[k]分别表示本次检测针对的韵、声、调排列组合中的韵、声、调,当某个字目均符合上述条件,则跳出本次检测并加入到结果集中。
[0020]
本发明的有益效果在于:本发明根据用户事先给定的韵、声、调排序依据和排序顺序,对已经录入的方言字表进行排序,排序技术采用对应韵、声、调与字表所有字目的一个四重循环,最终生成“同音字汇竖排表”,能很好的满足方言调查实用化的需求。
附图说明
[0021]
图1为本发明实施例的系统运行流程示意图;图2为本发明实施例的排序循环流程图。
具体实施方式
[0022]
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
[0023]
现有的同音字汇软件都是利用visual foxpro数据库或excel 进行排序,而visual foxpro数据库或者excel的排序主要是针对英文字母,由于国际音标的集合远远大于英文字母,且排列与英文字母不同,所以排序的时候会有很多困难。
[0024]
基于此,本实施例的方言同音字汇自动生成系统中,数据库只用于存储,从数据库
中读取所需要的数据信息后,所有运算都用程序进行,所采用的程序开发语言为c#和dephixe,数据库为 access(2003/2007)、excel(2003/2007)。采用c#和dephixe的一个重要原因是它们都支持unicode编码,因为常用的国际音标基本上是大字符集,大都是unicode编码的,例如“云龙国际音标”。采用access 与excel作为数据库的原因有三个:一是支持unicode编码;二是 access与excel作为microsoft office的系统程式,在windows系统上的安装非常容易,为大多数用户所熟悉;三是它们使用简单方便,可移植性非常强,小巧灵活,用来存储方言字表绰绰有余。
[0025]
如图1所示,本实施例的方言同音字汇自动生成的系统的运行流程大致如下:从数据库中读入目标方言的字表及“id(索引)、字目、声、韵、调”五个字段的信息

自动分析出该方言的“声、韵、调”系统

用户对自动分析出的“声、韵、调”排序

根据用户要求的“声、韵、调”顺序对字表进行排序,如用户没有指定顺序,将按默认的顺序排序

过滤掉相同的声、韵、调

生成同音字汇竖排表。
[0026]
更具体地,本实施例提供的一种方言同音字汇自动生成的系统,具体包括:
[0027]
数据读入模块:用于从数据库中读入目标方言的字表及id(索引)、字目、声、韵、调五个字段的信息,自动分析出目标方言的“声、韵、调”系统;
[0028]
后续分析所需要的数据有两个,一个是方言调查者在记音调查后得到的字表,这个字表用国际音标记录了每一个字目的“声”“韵”“调”三个属性。本实施例的数据读入模块提供了三种方式读入这些数据。
[0029]
第一种方式:本实施例系统还提供有数据库,当用户没有建立自己的access或者excel数据库来存储字表时,用户可以从word、txt 等文档中复制字表到本实施例系统提供的数据库中。
[0030]
第二种方式:如果用户的字表存储在自己建立的access数据库中,本实施例的数据读入模块则可以与之挂接,并自动加载该数据库的字表和字段,用户可以很方便地通过下拉框选择字表和字表中的各个字段。
[0031]
第三种方式:如果用户的字表存储在excel表中,本实施例的数据读入模块中也可以与之挂接,自动加载字表和各个字段。
[0032]
当数据读入模块读入方言调查字表后,便能自动分析出该方言的声、韵、调系统。
[0033]
排序模块:用于供用户对数据读入模块分析出的“声、韵、调”系统的排序依据进行设定,并根据用户设定的排序依据对“声、韵、调”系统进行排序,如果用户没有对排序依据进行设定,则按默认的排序依据进行排序。
[0034]
本实施例系统所需要的第二个数据就是方言调查者在分析得出的声、韵、调系统的基础上提供的顺序表。通常,声母是按发音部位排,韵母按开口度排,声调是按平、上、去、入排,因每个方言点的语音系统都不相同,一般来说,应由用户即方言研究者自己设定。字目的“声、韵、调”三个属性,如果按不同的方式进行组合,可以有六种排序方式。如果用户没有对声、韵、调的排序依据进行设定,排序模块将按默认的“韵、声、调”顺序排列,韵母相同的,按声母排,韵母和声母都相同的,再按声调排。
[0035]
为了便于说明,现在假设有一个方言字表,它有24个字目,具体见表1。
[0036]
表1 方言字表
[0037][0038]
假定调查该方言的学者给出的韵、声、调排列顺序如表2所示。
[0039]
表2 韵、声、调顺序
[0040][0041]
则整个排序过程将采用韵、声、调的排序依据再加上字表所有字目的四重循环。循环流程图如图2所示。
[0042]
通过对表1进行分析可知,上述方言字表共包含5种韵母、5种声母、6种声调以及24个字目,其排列顺序如表2所示。
[0043]
依据韵、声、调的排序依据(如表2所示)规定的韵、声、调优先级,得到韵、声、调的所有排列组合,按顺序对于每个韵、声、调的排列组合依次使用stryun[m]==stryun_type[i]&&strsheng[m] ==strsheng_type[i]&&strdiao[m]==strdiao_type[k]检测字表中的每个字目m的声strsheng、韵stryun、调strdiao是否符合该条件,stryun_type[i]、strsheng_type[i]、strdiao_type[k]分别表示本次检测针对的韵、声、调排列组合中的韵、声、调,当某个字目均符合上述条件,则跳出本次检测并加入到结果集中。全部检测执行完后得到的结果如表3所示。
[0044]
图2中“stryun[m]==stryun_type[i]&&strsheng[m]== strsheng_type[i]&&strdiao[m]==strdiao_type[k]”一句表示,当字表中的某个字目的声(strsheng)、韵(stryun)、调(strdiao)在检测中符合条件的时候。
[0045]
在表3中,所有的字目都按韵、声、调的顺序进行了排列,其中 id为24的“惹”字没有与之同音的,排序模块把它当作同音字的一种特殊情况,也自动进行了排序。
[0046]
表3 按韵、声、调排序后的字表
[0047][0048]
同音字汇竖排表生成模块:用于对排序模块得到的排序结果,过滤掉相同的声、韵、调,即所有属于同一个韵母的字,韵母只表示一次;所有属于同一个声母的字,声母只表示一次;所有属于同一个声调的字,声调只表示一次,最终生成同音字汇竖排表。
[0049]
排序模块生成的同音字汇是一个表格的形式,每个字都有声、韵、调三个属性,不利于观察和使用。因此同音字汇竖排表生成模块就是要把相同的“声、韵、调”属性过滤掉,即所有属于同一个韵母的字,韵母只表示一次;所有属于同一个声母的字,声母只表示一次;所有属于同一个声调的字,声调只表示一次。最后生成的同音字汇形式是一个文本,叫同音字汇竖排表。前面表1中提供的24个字目的字表最终生成的同音字汇竖排表见表4。
[0050]
表4 同音字汇竖排表
[0051][0052]
至此,同音字汇的生成工作全部完成。
[0053]
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

相关内容推荐

关键词排名系统选火21星淘宝竞争大的关键词做排名淘宝提升关键词搜索排名关键词排名文案海口求推荐好的关键词优化排名黄冈市关键词排名优化报价地区关键词排名查询淘宝看自己的关键词排名快车影响关键词排名山西手机的关键词排名泰州市关键词优化排名漯河整站关键词优化排名软件关键词排名推荐鹏博资讯沧州关键词排名推广安阳企业关键词排名优化价格福州有经验的seo关键词排名杏花岭区优势关键词排名泉州抖音关键词搜索用户排名河南整站关键词搜索排名费用兰州快速网站关键词排名福建网站关键词排名优化技巧查关键词排名用金苹果靠谱上饶关键词快速排名软件上海关键词排名有关键词排名优化要找2火星关键词排名万金苹果专业国际站关键词排名在哪里河北百度优化关键词排名洛阳新站关键词排名技术贵州快速关键词排名优化服务企业长尾关键词排名系统莆田关键词排名源头厂家刷关键词排名牜就找vs宙斯查询淘宝宝贝关键词排名软件简书作者排名关键词小红书关键词排名下降百度关键词排名微金手指排名广州网站关键词排名公司安丘网站关键词排名推广价格辽宁关键词排名优化教程提升关键词排名点击纺织关键词排名专家云南关键词排名推广哪家好sem关键词排名查看支付宝关键词搜索排名关键词快速排名享誉火星推荐关键词怎么没有平均排名拼多多关键词搜索排名怎么提升关键词排名软件哪个好肇庆电子关键词排名查询国外关键词排名查询网站西藏自治区关键词竞价排名卡关键词排名原理关键词排名主要怎么做淘宝如何去做关键词的排名刷移动关键词排名四川查找关键词排名鹤壁关键词点击排名亚马逊关键词相关性排名云城关键词排名优化西安手机关键词排名国王排名 关键词江门关键词排名教程名气大的百度关键词优化排名淘宝搜索关键词20万排名刷关键词排名热销易速达免费刷网站关键词排名软件河南关键词排名点击软黄石关键词排名公司2017关键词排名有哪些秦皇岛关键词排名工具钓鱼关键词排名电商平台多的关键词排名关键词快速排名上首页关键词排名外包 sit滁州市关键词seo排名优化关键词排名靠安徽关键词排名快速上线肇庆房地产关键词排名如何如何确定网站的关键词排名关键词百度手机排名查询系统昆明关键词排名推广外包公司淘宝关键词排名提升方法网站关键词优化排名培训产品关键词排名是什么关键词快速排名优选k火 星淘宝关键词排名搜阳江关键词排名广告上海刷长尾关键词排名软件广东关键词排名渠道鸡冠区关键词seo排名优化贵阳如何进行关键词优化排名网站没关键词排名什么原因怎样把关键词的排名靠前息县关键词优化排名手机提升关键词排名吗海外aso关键词排名的优点郑州官网长尾关键词排名技巧晋源区关键词排名包括什么木工刀具关键词搜索排名贵州查看关键词排名安阳关键词排名价格拼多多查关键词排名查询软件如何看亚马逊关键词排名位置宝鸡网站关键词排名多少钱搜索关键词排名长尾词罗湖seo关键词排名优化快速优化关键词排名的法宝唐山关键词排名推荐特定关键词排名信息推荐搜狗关键词排名口碑怎么样临汾关键词排名外包莆田关键词排名源头厂家关键词排名怎么计费安阳长尾关键词排名代理自然排名首页关键词如何做广告武汉百度关键词排名杭州百度关键词排名推广方式房产免费关键词排名优化集美区关键词seo排名优化甘肃关键词排名优化软件小红书关键词排名下降遵义网站关键词排名湖南网站关键词排名优化价格泽州县关键词seo排名优化焦作搜索引擎关键词排名技术产品关键词排名优化靠谱关键词排名没有站群优化如何查找亚马逊关键词排名抖音如何提升自己的关键词排名河北关键词排名没有了行业关键词的排名技术关键词快速排名要钱吗关键词排名已稳定天水网站seo关键词排名优化湖南网络关键词排名优化技术焦作排名快关键词推广技巧开封seo关键词排名费用通辽关键词快速排名软件百度关键词排名是几的好关键词优化辶金手指排名十五关键词推广优化排名怎么做代发关键词排名权重池州移动端关键词排名开封seo关键词排名推广河南查关键词排名工具兴化无锡关键词排名刷关键词排名价输关键词可以看见宝贝的排名海珠区关键词快照优化排名关键词刷网站排名 sit神马搜索关键词排名查江西搜狗关键词排名云岩网关键词排名下降了怎么办江苏口碑好的关键词排名搜狗关键词排名怎么优舒城seo关键词排名优化济源新站关键词点击排名技术辽宁查关键词排名工具周口百度关键词优化排名哪家好ios关键词排名优化方式平顶山官网关键词自然排名技术乌审旗关键词seo排名优化拼多多在哪里查关键词排名查询广东关键词优化排名广东关键词排名变化瑞昌关键词优化排名关键词排名阶云速捷靠谱泰州提升网站关键词搜索排名收搜关键词排名移动端关键词刷排名苹果怎么抢关键词排名武汉网站关键词点击排名技巧溧阳关键词排名优化福建网店关键词排名烟台关键词排名价格淘宝关键词排名哪里能查黄山seo关键词排名方法大全长春爱采购关键词排名淘宝搜索关键词排名帝搜软件桐乡市关键词seo排名优化铁山港区关键词seo排名优化贵州免费关键词排名优化策略收索关键词排名南充关键词排名价格河北怎么做关键词排名优化策略淘宝关键词测排名怎么弄盘锦市关键词排名加盟专门做网站关键词排名内蒙古自治区微信关键词排名沙井关键词排名优化哪家强拼多多关键词流量排名甘肃网络关键词排名优化价格周口360关键词搜索排名公司百度推广关键词排名在哪看移动端宝贝关键词排名查询关键词快速排名优化收费官网关键词排名技术技巧飞鱼抖音关键词排名莒南县关键词seo排名优化

合作伙伴

百姓标王

龙岗网络公司
深圳网站优化
龙岗网站建设
坪山网站建设
百度标王推广
天下网标王
SEO优化按天计费
SEO按天计费系统