4月22日,格桑花藏语语料库建设在“2025天府融媒大讲堂——主流媒体系统性变革之技术赋能”活动上正式启动。该语料库由天府融媒(四川)科技有限公司、四川省全媒信息传播研究院共同发起,尼玛扎西院士工作站(电子科技大学)、四川党的建设杂志、甘孜州传媒中心、四川日报全媒体技术中心等多家机构共同建设。
目前,格桑花藏语语料库已初步搭建藏语语料训练系统。接下来,将对已整理的超200亿字符的藏文资料、30000多小时的音视频资料进行训练,形成千万条高质量多模态藏语语料。同时,基于已有的翻译词库构建500万级“藏汉英对照”平行语料库。今后,将通过数据清洗、知识提取等智能处理,形成藏语核心语料及细分领域知识库,并借助格桑花藏语语料库建设藏语智能体综合平台,开发藏语知识问答、藏汉互译等智能体,为藏语研究、内容生产与传播提供支撑。
中国工程院院士尼玛扎西谈到,四川是我国重要的藏族聚居地,其涉藏地区涵盖了藏语三大方言中的康巴和安多两大方言。同时,四川党的建设杂志、甘孜州传媒中心等四川主流媒体机构拥有的藏语数据具备素材多、质量好的优势。由这些主流媒体参与建设的格桑花藏语语料库,可以为语言学、计算机科学、民族学等多学科跨领域研究提供广泛的数据支撑。格桑花藏语语料库将在传承和弘扬中华传统文化,促进民族文化交流,增强国家文化软实力方面发挥重要作用。
据了解,格桑花代表着幸福和吉祥,是藏族人民对美好生活的向往和期盼。以“格桑花”命名,寓意语料库将像格桑花一样传承藏族文化,并为藏语在人工智能时代的应用注入新的希望和活力。
来源/ 四川观察
编辑/ 黄星洁
校对/ 毛莉泓
责编/ 刘睿娟
审核/ 白马
监制/ 谭荣皓