pc版

第一名!百智诚远荣获CAIL2024 裁判文书事实生成第一名!

时间:2024-12-27 15:10:05 来源:百智诚远智法前沿

  近年来,随着以裁判文书为代表的司法大数据不断公开,以及自然语言处理技术的不断突破,如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。

\

  中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台,推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用,共同促进中国法律智能技术的创新发展,为科技赋能社会治理作出贡献。

  为了促进智能技术赋能司法,实现更高水平的数字正义,在最高人民法院和中国中文信息学会的指导下,从2018年起,CAIL已连续举办了六届中国法律智能技术评测,先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛,成为中国法律智能技术评测的重要平台。

\

  随着智能技术与法律需求交叉融合的不断深入,CAIL的任务设置更加符合司法需求,任务难度也逐年升级。

  大型语言模型在自然语言处理任务中取得了显著进展,并在法律领域展现了相当大的潜力。然而,法律应用在准确性、可靠性和公平性方面都有非常高的要求。

  在未仔细评估其潜力和局限性的情况下,将现有的大模型应用于法律系统,可能会对法律实践带来重大风险。

  为此构建法律认知能力评估框架,将司法大模型应当具备的能力分为六个层次,包括:记忆层、理解层、推理层、辨别层、生成层、伦理层。

\\

  本次大赛共吸引了全球学术界和工业界的众多研究者和开发者参加,其中既有来自北大、清华等国内外顶尖学术机构的科研人员,也有来自华为、阿里、360Lab优秀AI实验室成员,还在来自法律科技领域的专业公司通达海、华宇等研发人员。

  经过激烈角逐,在此次CAIL比赛中,我司AI智能研究院和江苏省无锡市中院人民法院的联合研发人员,在裁判文书事实生成赛道荣获第一名、在裁判文书说理生成赛道荣获第二名的好成绩!

\

  裁判文书事实生成赛道

  裁判文书是法院审理案件后撰写的正式法律文书,其内容包括案件的基本情况、法院的审理过程、法律依据、裁判结果等。

  在裁判文书中,审理事实查明部分至关重要,它详细记录了案件的事实情况,是法院做出公正裁判的基础。审理事实查明不仅要准确还要详尽,以确保所有相关事实都得到了充分的认定和合理的法律解释。

  本任务是对提供的起诉状、答辩状和涉及的所有证据进行整理,认定案件中的事实并生成文书“本院查明”部分,包括时间、地点、参与人员、发生行为的顺序、影响等,确保事件的描述具有连贯性和逻辑性。

  评测评价

  裁判文书事实生成赛道的测试评价分为三部分,分别为查明事实准确度,语义相似度和逻辑通顺度。

  事实查明准确度:查明事实准确度指的是能否根据证据查明起诉状和答辩状中提到的具体事实。我们将逐条对比参赛者提交的event和参考答案。每条event采用ROUGE-L评价,最终该部分分数为每条ROUGE-L的平均分数。

  语义相似度:语义相似度衡量的是大模型生成的审理事实段落与真实段落在语义上的一致性,以及语言是否规范、专业。该指标通过BERTScore进行计算。

  要件完整性和逻辑性:要件完整性和逻辑性指的审理事实段落是否覆盖了所有重要的事实和要素,描述的案件事实是否具备清晰、连贯的内在逻辑,各事实之间的因果关系是否合理。要件完整性和逻辑性将通过大模型进行评估。

  裁判文书说理生成 赛道

  裁判文书说理是法院在作出裁判时,根据具体案情和法律规定,对案件事实、证据以及法律适用等问题进行阐述和论证的部分。它包含判决结果及为何得出此判决结果。

  该任务旨在使用人工智能模型,根据判决书中基本案情的事实部分生成法院对于该案件的裁判说理。

  评测评价

  裁判文书说理生成的评价方式分为四部分,分别为判决结果预测评价、要素准确评价,语义相似评价以及伦理、法理阐释评价。其中,伦理、法理阐释评价为可选加分项。

  判决结果预测评价:主要采用EM(Exact Match)指标和F1指标,其中EM指标主要衡量模型输出的案由和标准结果是否完全一致。F1指标主要衡量判决内容和标准结果的一致程度。

  要素准确评价:主要采用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)评价。ROUGE指标将模型生成的裁判说理与参考的裁判说理文本进行比较, 其中ROUGE-1衡量unigram匹配情况,ROUGE-2衡量bigram匹配,ROUGE-L记录最长的公共子序列。

  语义相似评价:通过引入大语言模型,判断参赛模型生成的裁判说理在语义结果上和参考文本的语义一致程度并给出语义得分。

  伦理或法理:阐述主要使用macro-F1,衡量模型输出的所有伦理或法理和参考的伦理或法理列表一致程度。即对于每一条模型输出的伦理或法理,计算该伦理或法理阐述在参考的伦理或法理列表中的f1得分,最后进行平均。

  本次在CAIL2024比赛中的成绩,充分展现了百智诚远在法律智能领域的技术实力和创新能力。

  我们的AI模型在事实查明准确度、语义相似度以及要件完整性和逻辑性三个维度均取得了优异成绩,这不仅体现了我们在大语言模型与法律领域深度融合方面的探索成果,更印证了我们在推动法律智能化发展道路上的坚实步伐。

  作为法律科技领域的先行者,百智诚远将继续秉持"科技赋能法律"的理念,持续深耕法律智能化领域,不断提升产品性能和服务质量。

  我们相信,随着技术的不断进步和完善,人工智能将在提升司法效率、保障司法公正方面发挥越来越重要的作用。百智诚远也将继续承担起推动法律科技创新的使命,为建设智慧法治贡献更大力量。

  未来,我们将进一步加大研发投入,持续优化算法模型,深化产学研合作,努力打造更多优质的法律智能产品和解决方案,为司法工作者提供更专业、更高效的智能辅助工具,推动法律服务的数字化转型和升级,让科技更好地服务于法治建设。

【责任编辑:张伟】

热门推荐

登录 注册

暂无评论