Новости

数字语言研究领域的新技术研究

news

ISU在数字语言研究实验项目中创新了一项新技术,它使我们能够加快口语语料库的创建速度:快速、最准确地转录录音并分析生成文本。

 

口语语料库是音频文件和文本转录的数据库。

 

2021年以来,ISU俄语和普通语言学研究教研处一直在对“口语语料库作为语言学和跨学科研究工具”的项目进行研究。该团队工作的主要目标是创建一个可补充的、可公开访问的口语语料库,包括对伊尔库茨克居民的采访文本以及与布里亚特共和国巴尔古津斯基区方言使用者的对话文本。

 

IFIYAM 院长玛丽娜·塔什利科娃 (Marina Tashlykova):

 

这样的语料库确保能够同步转录文本和录音:这使得研究人员能够听到因遗漏字母无法传达的内容。该资源不仅对语言学家有用,而且对其他人文领域的学者(文学学者、社会学家、人类学家、历史学家等)也有益:它将能够确保处理大量文本以及具有特殊性和地域性、西伯利亚地区特性的文本。

 

语言学专业的学生积极参与了该项目,对语料库中所需的文本进行了标记筛选。借助语料库中的标记,我们不仅可以在文本中快速轻松地找到某些形式的单词,还可以找到也携带各种非语言元素的信息,例如停顿、叹息、咳嗽等。

 

在该项目的工作过程中,由于教研组的笔记本电脑因版本过旧无法安装研究程序,以及无法安装使用分析口语所需的现代技术程序。为了组织录音抄本的小组工作,通常需要低质量、高灵敏度的耳机。

 

因此教研组引进了新设备:6台笔记本电脑和11副耳机,这些设备不仅可以更有效地组织所有项目参与者的工作,而且还将提供对其他语言研究的机会:科学家们已经在计划新的方言学探索。

 

乌利亚娜·契克米斯(Ulyana Chekmez),ISU俄语和一般语言学系讲师:

 

语料库是广泛研究的重要工具. 它们使我们研究独特的和人类语言普遍存在的现象。 目前,语料库被积极地用于教学机器翻译程序,自动文本处理系统和其他技术。 在它们的帮助下,人文自然学各个领域的学者可以探索人们如何描述某些历史事件,如何描绘他们的生活经历,如何看待和解释周围的现实。