LegalAI领域大规模预训练语言模型的整理、总结及介绍(持续更新ing…)

2023-11-18

诸神缄默不语-个人CSDN博文目录

1. 通用大规模预训练语言模型

英语:

  1. LegalBERT
    1. 原始论文:(2020 EMNLP) LEGAL-BERT: The Muppets straight out of Law School - ACL Anthology
    2. 下载地址:huggingface在这里插入图片描述
  2. CaseLaw-BERT / Custom Legal-BERT
    1. 原始论文:(2021 ICAIL) When does pretraining help?: assessing self-supervised learning for law and the CaseHOLD dataset of 53,000+ legal holdings
    2. 下载地址:https://huggingface.co/casehold/custom-legalbert
  3. BERTLaw
    1. 原始论文:(2021) Sublanguage: A Serious Issue Affects Pretrained Models in Legal Domain
    2. 下载地址:https://huggingface.co/nguyenthanhasia/BERTLaw
  4. PolBERT
    1. 原始论文:(2022 NeurIPS) Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset
  5. legal-longformer
    1. 下载地址:https://huggingface.co/saibo/legal-longformer-base-4096
  6. (印度) InLegalBERT
    1. 原始论文:(2023 ICAIL) Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law
    2. 下载地址:https://huggingface.co/law-ai/InLegalBERT
  7. (跨国)LexLM(backbone是RoBERTa)
    1. 原始论文:(2023 ACL) LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development
    2. checkpoint已放到transformers上:
      from transformers import AutoModel, AutoTokenizer
      
      model = AutoModel.from_pretrained("lexlms/legal-roberta-base")
      tokenizer = AutoTokenizer.from_pretrained("lexlms/legal-roberta-base")
      

中文:

  1. Lawformer
    1. 原始论文:(2021) Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents
    2. 下载方式:thunlp/LegalPLMs: Source code and checkpoints for legal pre-trained language models.

意大利语:

  1. ITALIAN-LEGAL-BERT
    1. 原始论文:(2022) ITALIAN-LEGAL-BERT: A Pre-trained Transformer Language Model for Italian Law
    2. 下载地址:https://huggingface.co/dlicari/Italian-Legal-BERT

罗马尼亚语:

  1. jurBERT
    1. 原始论文:(2021 NLLP) jurBERT: A Romanian BERT Model for Legal Judgement Prediction

西班牙语:

  1. RoBERTalex
    1. 原始论文:(2021) Spanish Legalese Language Model and Corpora
    2. 下载地址:PlanTL-GOB-ES/RoBERTalex · Hugging Face

多语言:

  1. ParaLaw Nets(看论文应该是日语和英语)
    1. 原始论文:(2021 COLIEE) ParaLaw Nets – Cross-lingual Sentence-level Pretraining for Legal Text Processing
    2. 下载地址:我猜是这个:nguyenthanhasia/XLM-Paralaw · Hugging Face
  2. LegalXLMs
    1. 原始论文:(2023) MultiLegalPile: A 689GB Multilingual Legal Corpus
    2. 下载地址:太多了,待补

越南语:

  1. nguyenthanhasia/VNBertLaw · Hugging Face
  2. PhoBERT
    1. 原始论文:(2020 EMNLP) PhoBERT: Pre-trained language models for Vietnamese
    2. 官方GitHub项目(介绍了各个预训练模型checkpoint的地址和下载方式):VinAIResearch/PhoBERT: PhoBERT: Pre-trained language models for Vietnamese (EMNLP-2020 Findings)

法语

  1. JuriBERT
    1. 原始论文:(2022) JuriBERT: A Masked-Language Model Adaptation for French Legal Text
    2. 下载地址:http://master2-bigdata.polytechnique.fr/resources#juribert(用transformers包的)

葡萄牙语

  1. JurisBERT(巴西)
    1. 原始论文:(2023 ICCSA) JurisBERT: A New Approach that Converts a Classification Corpus into an STS One
    2. 下载地址:https://huggingface.co/alfaneo

2. 对话模型

中文:

  1. Lawyer LLaMA
    AndrewZhe/lawyer-llama: 中文法律LLaMA
    1. 原始论文:(2023) Lawyer LLaMA Technical Report
    2. 官方GitHub项目:AndrewZhe/lawyer-llama: 中文法律LLaMA
      本地部署版:lawyer-llama-13b-beta1.0已公开(lawyer-llama/run_inference.md at main · AndrewZhe/lawyer-llama · GitHub),但是必须要LLaMA的权重,而我还在排LLaMA的队,所以等着吧
  2. 智海-录问
    zhihaiLLM/wisdomInterrogatory
  3. LawGPT
    pengxiao-song/LaWGPT:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LegalAI领域大规模预训练语言模型的整理、总结及介绍(持续更新ing…) 的相关文章

随机推荐

  • pci无线配置服务器,PCI配置空间(中文).doc

    PCI Configuration 名词说明 PCI为Peripheral Component Interconnect 的缩写 它是由 Intel 所发表的另一种局部总线 另一种为 VESA Local Bus 以配合 Pentium 系
  • ACE_Proactor实现

    ACE Proactor实现了Facade模式 其方法可以分为四类 生命周期管理方法 事件循环管理方法 定时器管理方法 IO操作facilitator方法 须知ACE Proactor是使用Bridge模式的 ACE aynch Read
  • 内网安全-隧道搭建&穿透上线&FRP&NPS&Ngrok

    目录 环境介绍 内网穿透 Ngrok 入门 上线 tcp协议 内网穿透 Frp 简易型 上线 内网穿透 Nps 自定义 上线 环境介绍 实验目的 让msf上线外网 通常情况下 内网可以访问外网 但是外网无法访问到内网 所以外网的木马通常情况
  • 将二叉树转为有序的双向链表

    一 题目要求 输入一棵二叉排序树 现在要将该二叉排序树转换成一个有序的双向链表 而且在转换的过程中 不能创建任何新的结点 只能调整树中的结点指针的指向来实现 include
  • AHB to APB bridge

    目录 SPEC 验证框架图 测试点分解以及设计测试用例 测试点分解 设计测试用例 具体的Sequence及testcase Sequence testcase SPEC DUT如下 具体功能描述可参考ARM官方文档 AHB to APB s
  • 驾驭计算机视觉的翅膀:论文找代码的几种必杀技!

    摘要 对于CVer来说 代码和找代码 能力都是一种很重要的能力 毕竟idea再好只有通过代码实现出来才能发文章和刷榜 当我们阅读一篇高质量或者英文论文时 如何去找到该文章实现的代码 进而结合文章内容和代码实现去更好的理解作者所做的工作 只有
  • 什么是MVC设计模式

    直接上图 其中model 和view大家经常写 就不说了 有人可能并不清楚controller 到底是啥 其实就是经常写的 data source delegate outlet什么的 先撇开那些乱七八糟的箭头单看他们之间的分界线 view
  • C# 中BindingSource 的用法

    C BindingSource 1 引言 BindingSource组件是数据源和控件间的一座桥 同时提供了大量的API和Event供我们使用 使用这些API我们可以将Code与各种具体类型数据源进行解耦 使用这些Event我们可以洞察数据
  • mac os 搭建fortran环境

    首先从App Store下载Xcode 然后安装命令行工具 终端下输入 xcode select install 然后终端下输入如下命令 安装Homebrew ruby e curl fsSL https raw githubusercon
  • 使用缺省的拷贝构造函数带来的危险性

    我此前另外一篇文章通过类String看拷贝构造函数 赋值函数的作用和区别 对于更深的拷贝构造函数讨论大家可以参见这篇帖子 C 类对象的复制 拷贝构造函数 通过编写类String的拷贝构造函数和赋值函数介绍了一些拷贝构造数 本文着重介绍拷贝构
  • 前端面试题有哪些,有没有前端面试题库?

    全篇干货总结前端跳槽面试必备技能 如何看待面试 如何准备面试 注意事项有哪些 面试各环节考察的是什么 一面 考察基础知识 二面 考察能力广度和深度 三面 考察项目业务能力 终面 hr面 考察沟通能力 性格 潜力等等 一面的基础知识 在这分享
  • java定义一个周长类三角形_point类 三点的三角形的周长、面积 编程求解矩形和圆面积 java 三角形的定义...

    三角形的定义 1 先创建一个Point类 然后定义Trianglele类 在Trianglele类中定义三个Point的实体来表示一个三角形的三个点 再定义构造方法对这三个点进行初始化 然后定义两个方法求三角形的周长 面积 定义一个测试类
  • 算法:点与点之间欧式距离最小

    2017 03 10 问 知道一堆点 如何求出其中距离最近的一对 按欧式距离 除了暴力求解 还有没有其他的办法 这个算是最笨的办法 复杂度也比较高 我在另外一个博客里看到 他是用分治法的方式进行处理 而且也指出这个算法的难点在于如何将各种情
  • YOLO,VOC数据集标注格式解析

    YOLO数据集txt标注格式 0 0 160938 0 541667 0 120312 0 386111 分别指所标注内容的类别 归一化后的中心点x坐标 归一化后的中心点y坐标 归一化后的目标框宽度w 归一化后的目标况高度h 此处归一化指的
  • Fildder无法抓不到Firefox的包

    起因 Firefox这个浏览器对开发者太友好了 开发者工具看着很清爽 功能也很实用 就安装来用这个浏览器做项目测试 某次开发中发现某个请求有些问题 想用强大的Fiddler来看下前端到底是怎么发送的请求 问题来了 Fildder死活抓不到f
  • 什么是网络空间测绘?到底有什么作用?

    据X视新闻客户端报道 当地时间4月18日 谷歌地图服务开始以最大分辨率提供俄罗斯所有军事和战略设施的卫星图像 目前 包括各种洲际弹道D弹发射井 指挥所 秘密试验场等在内的俄战略要地均可以每像素约0 5米的分辨率查看 随后 谷歌公司已否认了
  • 前端UI框架整理

    1 TDesign 腾讯最近刚刚公开的一套UI框架 个人感觉不错 桌面与移动端都有 下面是官网介绍 TDesign 是什么 TDesign 是腾讯各业务团队在服务业务过程中沉淀的一套企业级设计体系 TDesign 具有统一的 设计价值观 一
  • BLAM跑自己的数据包无法显示全局点云地图解决(速腾聚创RS-LiDAR-16 雷达 )-SLAM不学无术小问题

    BLAM算法跑自己的数据包无法显示全局点云地图解决 适配速腾聚创RS LiDAR 16 雷达 提示 本文笔者使用环境Ubuntu18 04 ROS melodic版本 首先放一个效果链接 由b站up VladimirDuan上传 非官方 官
  • linux打不开摄像头,linux opencv打不开摄像头

    配置 ubuntu16 04 opencv3 4 罗技c270 webcam 摄像头我在windows上测试了是没问题的 但是到了linux嵌入式板子上就不行了 灯一直不亮 一开始我以后是opencv的版本问题 换了最新版本的opencv
  • LegalAI领域大规模预训练语言模型的整理、总结及介绍(持续更新ing…)

    诸神缄默不语 个人CSDN博文目录 文章目录 1 通用大规模预训练语言模型 2 对话模型 3 分句 4 文本分类 5 信息抽取 6 案例检索 7 文本摘要 1 通用大规模预训练语言模型 英语 LegalBERT 原始论文 2020 EMNL