目录

项目背景

项目开展思路、实施方案 

项目预期成果

项目成员及分工

项目开源地址


项目背景

中医药学包含着中华民族几千年的健康养生理念及其实践经验,是中华文明的瑰宝之一,凝聚了中华民族的博大智慧。中医药的作用,在这次抗击疫情种展现出了非同凡响的一面。随着时代的发展,中医在全世界的认可度、被接受度越来越高。对于越来越多的外国留学生以及对中医文化感兴趣的外国友人来说,获取到有效的中医信息是很难的。为了推动中医药走向世界,充分发挥中医药防病治病的独特优势和作用,为建设健康中国,实现中华民族伟大复兴的中国梦贡献力量,我们团队决定建立一个基于web和微信小程序的中医汉英语料库资源平台,对建立的中英语料库进行数据处理与挖掘,提取病理、疾病、中药名等不同的信息进行匹配,对提取的信息实现关键字查找、模糊查询、排序优化,实现内容的快速检索。传统医药是优秀传统文化的重要载体,平台的建立可以使我国优秀的中医文化加以传播,建立对中医药学的自信,促进文明互鉴,维护人类健康。

项目开展思路、实施方案 

(1)中医药学学科划分和语料选取
首先依据国家十三五规划对中医药高等教育学科的划分,按照Biber (1993)
的语料库建库标准,以中医相关电子版材料为基础进行语料选取。
语料选取中主要通过扫描或网页数据爬取等方式获取语料,并将语料统一
转化为TXT电子文档,便于建立汉英双语语料库。同时本研究将采用Xpath
降噪减重方法,去除文本语料中多余的文本信息或文本句子格式整合的错误。
获得汉英文本后,本研究拟采用Paraconc软件对语料进行初步构建。
(2)创建中医汉英双语语料库
从各个英译本的TXT文档中人工提取汉英对应表达,分别平行地置于新建
的中文TXT文档和英文TXT文档。同时,将中文术语标记术语类型,如病理
名、疾病名、治法名、方剂名、中药名等等,便于后期提取相关数据和语料,
从而对多个术语英译本进行分类别地实证性对比研究;将英译文标记译本来
源,便于后期的对比研究以及电脑查词软件使用者对汉英译本的选择和比较。
(3)多译本语料与数据的挖掘
利用AntConc软件从创建的中文TXT文档和英文TXT文档中分别挖掘各
类概念表述英译的词数、词频、词性、词汇密度和词语搭配等数据;利用
CUC_ ParaConc软件从所创建的汉英双语语料库中快速挖掘多英译本语料。
(4)开发多英译本关联查询软件
基于所创建的中医药汉英双语语料库针对多英译本关联查询的实际需求,
运用WEB开发技术设计,实现B/S结构的查询软件系统;实现根据用户输入
的中医关键字查找匹配的多版本英译;系统支持模糊查询,以搜索语料库中对
应的词汇表达;通过基于翻译记忆库技术的辅助翻译引擎,根据使用频度对词
汇进行排序优化,实现相关语料内容的快速定位查找。
 

项目预期成果

通过对中医汉英语料库的数据挖掘与匹配。针对多英译本关联查询的需求,实现基于web和微信小程序的语料库数字资源快速检索平台。

项目成员及分工

丛林兴:负责语料库语料处理,预期功能的详细化描述。

杨一萌:登录注册搜索的前端界面和交互代码。

鄢来文:登录注册后端

杨阳:关键词语料处理存储和建立全文索引

王伟:前端界面和实现token的前后端代码编写

项目开源地址

中医汉英语料库数字资源平台(前端): 通过对中医汉英语料库的数据挖掘与匹配,针对多英译本关联查询的需求,实现基于web和微信小程序的语料库数字资源快速检索平台 (gitee.com)

杨一萌/中医汉英语料库数字资源平台(后端) (gitee.com) 

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐