由联发科集团辖下的前瞻技术研究单位联发创新基地、中央研究院词库小组和国家教育研究院三方所组成的研究团队,今日开放全球第一款繁体中文语言模型到开源网站提供测试。本次公开释出以开源语言模型BLOOM开发的繁体中文大型语言模型(large language model),比目前开源可用的最大繁体中文模型大1,000倍,所使用的训练资料也多1,000倍。该模型已公开让外界下载,可应用於问答系统、文字编修、广告文案生成、华语教学、客服系统等。
联发创新基地负责人许大山博士表示: 「大型语言模型是近年来人工智慧技术进步的亮点,更是未来进步不可或缺的基石。联发科技向来重视创新及科技发展,此次结合中研院及国教院,成为台湾极少数能训练大型语言模型的团队,以透明、开放和包容的方式,善用技术、人才及资源,既发展自主训练大型人工智慧模型的能力,也让繁体中文的大型语言模型研究及应用更为普及。」
开放原始码释出的大型语言模型,目前多数仍以英文为主要优化的对象,繁体中文的语言模型相对不足。为此中央研究院词库小组在2019年开发并公开BERT和GPT-2的繁体中文优化版本,但是因为资料量的差距,这些模型与主流的大型语言模型差距越来越大。有监於开放原始码繁体中文大型语言模型的重要性与迫切性,在2022年5月,联发创新基地、中央研究院和国家教育研究院展开合作计画,使用大型语言模型BLOOM的繁体中文模型再训练与优化。目前开放系列中第一个有量级跳跃意义的繁体中文语言模型,联发创新基地也暂备一个手机网页的介面,供语言模型研究者试用。此模型系列的评量指标,以及叁数量更大(176B)的模型,将会陆续开放下载。
为了建立该项语言模型,国家教育研究院提供了大量高品质的繁体中文语料,作为主要的训练材料。联发创新基地则建置了训练的硬体环境,制订各种符合国际标准的繁体中文评量指标,收集更近期的语料,并对模型进行能更有效读懂使用者的指示(prompt)的特别训练。中央研究院词库小组则针对模型生成的文字是否具有偏见或敌意等不合适的内容,进行自动侦测与改正的研究与评估。评估结果表明,这套由三方提供的一系列繁体中文语言模型,均达到开源模型前所未有的效果,较能避免具有偏见或敌意的内容。
大型语言模型近来的蓬勃发展,源自於2019年Google推出的BERT语言模型,以及同年OpenAI开始推出的一系列GPT语言模型。这些大型语言模型已经被证实具备相当的知识与能力,即使在少量训练资料,甚至无训练资料之下也依然能够对新任务产生正确结果,已成为人工智慧往前进化不可或缺的基础。