1.3.1 法律大型语言模型
法律是社会秩序的基石,是用来维护公平、保护权益、解决纠纷的重要手段。随着社会的发展,人们对法律的需求日益增长,如何更快速、精确和可靠地处理法律信息变得十分急迫。虽然大型语言模型的能力已经被广大群众认可,但是由于大型语言模型在预训练阶段是在广泛数据上进行训练的,需要记忆的知识内容也比较广泛,在法律领域虽然可以回答一定的问题,但效果不是十分理想,因此很多学者为了让大型语言模型在法律领域具有较好的交互,会在法律领域数据上进行预训练或微调,来进一步提高模型效果。我们通常称在法律领域进行特殊训练过的大型语言模型为法律大型语言模型。
法律大型语言模型可以成为律师、法官、法律研究者或普通人的工具,可以快速检索和分析大量的法律文件,以协助专业人员在法律咨询、决策制定方面更高效;也可以为个人提供广泛的法律知识和意识,让人们通过法律大型语言模型来了解更多的法律概念、权力和责任,以及如何在法律系统中行使自己的权力;还可以让那些无法负担高额法律费用的人降低法律研究和咨询的成本,保证了司法公平。
目前,中文开源法律大型语言模型主要包括LaWGPT模型、ChatLaw模型、LexiLaw模型、Lawyer LLaMA模型、智海-录问模型、HanFei模型、DISC-LawLLM模型等。
1.LaWGPT模型
LaWGPT模型[1]是由Pengxiao Song等人研发的,模型基座采用LLaMA模型架构,并使用中文裁判文书网公开法律文书数据、司法考试数据等数据来对模型进行词表扩张和增量预训练工作,同时利用Self-Instruct等方法构建法律领域对话数据集并利用ChatGPT进行数据清洗,进一步获取高质量数据集对模型进行指令微调工作。LaWGPT系列模型共涉及4个模型,详细如表1-8所示。
表1-8 LaWGPT系列模型介绍
2.ChatLaw模型
ChatLaw模型[2]是由北京大学提出的,主要由大型语言模型、关键词生成模型和向量匹配模型三个部分组成,如图1-12所示。而大型语言模型的基座采用LLaMA模型架构,并采用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本构造对话数据集进行模型的指令微调。ChatLaw系统模型共涉及2个模型,详细如表1-9所示。
图1-12 ChatLaw模型流程图
表1-9 ChatLaw系列模型介绍
其中,ChatLaw-13B模型在中文各项评测集上表现较好,但是对于逻辑复杂的法律问答效果不佳。ChatLaw-33B模型由于参数量更大,逻辑推理能力有大幅提升,但底座模型缺少中文数据集训练,因此对于中文提问,模型可能生成英文内容。
3.Lawyer LLaMA模型
Lawyer LLaMA模型[3]是由北京大学提出的,模型基座采用LLaMA模型架构,并在大规模法律语料上进行模型继续预训练,再利用ChatGPT收集的法考题目分析数据及法律咨询对话数据进行模型指令微调。其中法考解题数据共7000条、法律咨询数据共1.45万条。目前开源的lawyer-llama-13b-beta1.0模型是以Chinese-LLaMA-13B模型为底座,未经过法律语料继续预训练,使用通用和法律指令数据进行指令微调得来。
4.LexiLaw模型
LexiLaw模型[4]是由Haitao Li等人研发的,模型基座采用ChatGLM-6B模型架构,在模型指令微调过程中不仅采用了法律领域数据,还采用了通用领域数据。其中,通用领域数据主要来自于BELLE项目,法律领域数据包括:LawGPT_zh模型中5.2万条单轮问答数据和9.2万条带有法律依据的情景问答、Lawyer LLaMA模型中法考数据和法律指令微调数据、2万条高质量华律网问答数据、3.6万条百度知道中的法律问答数据。此外,为了增加模型对法律条款的解释与理解能力,根据法律法规和法律参考书籍构造了对应的指令数据;为了增加模型对法律案例和文书的了解,对5万条法律文书采用正则匹配方法提取事实和裁判分析过程部分内容构造了对应的指令数据。LexiLaw模型共涉及3种指令微调方法,包括参数冻结方法、LoRA方法和P-Tuning v2方法。
5.智海-录问模型
智海-录问模型[5]是由浙江大学、阿里巴巴达摩院及华院计算等提出的,模型基座采用Baichuan-7B模型,采用法律文书、司法案例及法律问答等40GB数据进行模型继续预训练工作,再采用10万条指令数据集进行模型的指令微调。在10万条指令数据中,70%的数据为通用数据,30%的数据为法律领域数据。通用数据主要来自LIMA、OpenOrca、ShareGPT、BELLE、MOSS等;法律领域数据主要通过ChatGPT进行构造,数据种类包含法律咨询、情景问答、罪名预测、触犯法律预测、刑期预测、法考选择题、案件摘要提取、司法判断题、法律多轮对话、法院意见、法律阅读理解等。智海-录问模型的增量预训练和指令微调均采用全量参数训练的方式。
为了进一步增强智海-录问模型的最终问答效果,还收集了6种类型的知识库用于知识增强,包括法条类、案例类、模板类、书籍类、法律考试类、法律日常问答类。
6.HanFei模型
HanFei模型[6]是由中科院深圳先进院、深圳市大数据研究院等提出的,模型基座采用Bloomz-7B模型,采用法律案例、法律法规、法律起诉状、法律新闻等60GB数据进行模型继续预训练,采用11.8万通用数据和14.7万法律数据进行指令微调,并且HanFei模型的增量预训练和指令微调均采用全量参数训练的方式。
7.DISC-LawLLM模型
DISC-LawLLM模型[7]由复旦大学提出,模型基座采用Baichuan-13B模型,采用29.5万条的法律领域指令数据和10.8万条通用指令数据进行模型指令微调,其中法律领域指令数据主要由法律信息提取、判决预测、文档摘要和法律问题解答等数据组成,涉及直接问答数据和借助检索内容的问答数据两种。DISC-LawLLM模型在指令微调过程中采用全量参数进行模型训练。
为了进一步增强模型的最终问答效果,还构建了包含800多部国家地方法律、条例和规定的法律库和2.4万道法律相关的考试题库。同时,还开源了一个法律大模型的评估框架DISC-Law-Eval Benchmark,从客观和主观两个角度对来对法律大型语言模型的性能进行评估,以考察模型在中国法律领域的性能。