中国语言学系名家学者讲座系列 ——「机器语言理解能力评测任务设计与资料集制作」和「从语法理论到语言知识工程 —— 语言知识的形式化和数据化」
- 2023年04月27日-2023年05月02日 | 15:00 - 16:30(UTC+8)
- D4-G/F-04 及Zoom线上会议 (27 Apr); B4-LP-13 及Zoom线上会议 (2 May)
- 讲座
- 普通话
- 詹卫东教授 (北京大学中文系)
香港教育大学中国语言学系现正举办「名家学者讲座系列」,邀请多位教授进行演讲,分享研究心得,互相交流。第六轮演讲我们邀请到北京大学的詹卫东教授,他将会就「机器语言理解能力评测任务设计与资料集制作」和「从语法理论到语言知识工程 —— 语言知识的形式化和数据化」进行两次演讲,现诚邀各位一起参与,讲座详情如下:
讲座一
讲题:机器语言理解能力评测任务设计与资料集制作
讲者:詹卫东教授(北京大学中文系)
主持:梁源博士(香港教育大学中国语言学系)
日期: 4月27日(星期四)
时间: 下午3时至4时30分
模式:混合模式(线上及线下)
地点: 香港教育大学大埔校园D4-G/F-04及Zoom线上会议*
语言:普通话
报名连结:https://eduhk.au1.qualtrics.com/jfe/form/SV_2glYBczcnh3wgtw (Zoom讲座连结将于4月26日以电邮发送,敬请留意)
讲座摘要:
在自然语言处理(NLP)的发展中,评测任务(benchmark)引导和推动着技术、模型和方法的不断进步。近十年来随着深度学习(deep learning)引领人工智慧领域飞速发展,新的NLP评测任务和相关资料集大量涌现。与此同时,现有评测也暴露出不少问题。参照人类语言能力评测方法,我们提出类人机器语言能力评测的任务设计理念。讲座将介绍北京大学中文系和计算语言学教育部重点实验室课题组联合开展的两项评测研究工作:(1)基于机器学习程式与二语学习者对比的中文近义词辨析实验;(2)空间语义理解能力评测任务设计(SpaCE2021、SpaCE2022)及资料集的研制。在分析实验结果和总结资料集制作经验的基础上,提出应重视测试资料集的类型代表性和难度挑战性,从而使测试结果更能反映机器语言能力的真实水准。在以ChatGPT为代表的大型生成式预训练语言模型使得机器语言能力大幅提升的背景下,机器语言能力理解评测任务设计应更注重语言学理论的指导,为更细细微性地测试机器语言能力以及寻求机器语言能力的解释理据提供支援。
讲座二
讲题:从语法理论到语言知识工程 —— 语言知识的形式化和数据化
讲者:詹卫东教授(北京大学中文系)
主持:张凌博士(香港教育大学中国语言学系)
日期: 5月2日(星期二)
时间:下午3时至4时30分
模式:混合模式(线上及线下)
地点: 香港教育大学大埔校园B4-LP-13及Zoom线上会议
语言:普通话
报名连结: https://eduhk.au1.qualtrics.com/jfe/form/SV_2glYBczcnh3wgtw(Zoom讲座连结将于4月28日以电邮发送,敬请留意)
讲座摘要:
在人类社会的发展进入到大数据和人工智慧时代的背景下,语言数据资源建设工作成为语言学研究,特别是面向应用的语言学研究的前沿领域。 讲座以现代汉语句法结构树库(treebank)的构建为例,介绍北京大学中文系在汉语语言知识工程领域的研究工作。 一方面,句法结构树的形式表征要借鉴现代汉语语法本体研究的理论成果,语言知识工程离不开语法理论研究的坚实基础; 另一方面,树库构建中对语言范畴的严格形式化要求,语言资源建设所得到的语言知识数据化成果,又可以反过来帮助检验和评判汉语语法理论本体研究的成果,深化对语法理论研究目标的理解。 从语法理论到语言知识工程的实践,呼唤新时代的汉语语言学更加开放,更具多元视角,更加注重多学科交叉和融合。
讲者简介:
詹卫东,北京大学中文系教授,博士生导师。北京大学中国语言学研究中心副主任,北京大学计算语言学研究所副所长,教育部“新世纪优秀人才”,教育部“青年长江学者”。主要从事现代汉语形式语法、语言知识工程与中文资讯处理、语言文字应用方面的研究。代表性成果有《面向中文资讯处理的现代汉语短语结构规则研究》,国家语言文字标准《出版物上数位用法》及配套读本《〈出版物上数字用法〉解读》。参编《计算语言学概论》《自然语言处理》《现代汉语》等多部教材。在国内外学术刊物发表论文八十余篇。近年来研究兴趣主要集中在现代汉语构式资源库建设,面向认知智慧的机器语言理解能力评测。
欢迎各位踊跃参与!
如有查询,请电邮至 ismwong@eduhk.hk (王小姐),谢谢!