Repo Meta

Notes

🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
* 类ChatGPT的模型评测对比 * 类ChatGPT的资料 * 类ChatGPT的开源框架 * LLM的训练_推理_低资源_高效训练 * 提示工程 * 类ChatGPT的文档问答 * 类ChatGPT的行业应用 * 类ChatGPT的课程资料 * LLM的安全问题 * 多模态LLM * LLM的数据集

🍆 🍒 🍐 🍊	🌻 🍓 🍈 🍅 🍍
* 语料库 * 词库及词法工具 * 预训练语言模型 * 抽取 * 知识图谱 * 文本生成 * 文本摘要 * 智能问答 * 文本纠错	* 文档处理 * 表格处理 * 文本匹配 * 文本数据增强 * 文本检索 * 阅读理解 * 情感分析 * 常用正则表达式 * 语音处理
* 常用正则表达式 * 事件抽取 * 机器翻译 * 数字转换 * 指代消解 * 文本聚类 * 文本分类 * 知识推理 * 可解释NLP * 文本对抗攻击	* 文本可视化 * 文本标注工具 * 综合工具 * 有趣搞笑工具 * 课程报告面试等 * 比赛 * 金融NLP * 医疗NLP * 法律NLP * 文本生成图像 * 其他

类 ChatGPT 的模型评测对比

资源名（Name）	描述（Description）	链接
ChatALL：可以同时与多个 AI 聊天机器人（含清华、讯飞的产品）	可以同时与多个 AI 聊天机器人（如 ChatGPT、Bing Chat、Bard、Alpaca、Vincuna、Claude、ChatGLM、MOSS、iFlytek Spark、ERNIE 等）进行对话的工具。它可以并行发送提示给不同的 AI 机器人，帮助用户找到最好的回答	github-ChatALL
Chatbot Arena	实际场景用 Elo rating 对 LLM 进行基准测试 - 介绍了 Chatbot Arena，一种针对大型语言模型 (LLM) 的基准平台，采用匿名、随机的方式进行对抗评测，评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。发布了 9 个流行的开源 LLM 模型的 Elo rating 并推出排行榜。平台采用 FastChat 多模型服务系统，在多个语言下提供交互式界面，数据来源于用户投票。总结了 Chatbot Arena 的优点并计划提供更好的采样算法、排名和服务系统	截止2023年5月3日
类 ChatGPT 模型评测总结	大型语言模型 (LLM) 受到广泛关注，这些强大的模型能够理解复杂的信息，并对各种问题提供类人的回应。其中 GPT-3 和 GPT-4 表现最好，Flan-t5 和 Lit-LLaMA 表现也不错。但要注意，模型商用可能需要付费和数据共享	blog
大型语言模型（LLMs）大盘点		blog
大模型评测方面的最新研究	长文本建模一直是 ChaGPT 令人惊艳的能力之一，我们以【篇章翻译】为实验场景，对大模型的篇章建模能力进行全面、细粒度的测试。	paper
中文大模型评测工具&排行榜	C-Eval 是一个全面的中文评估套件，适用于基础模型。它包含 13948 个多项选择题，涵盖 52 个不同的学科和四个难度级别，具体如下所示。请访问我们的网站或查阅我们的论文获取更多详细信息。	github paper
OpenCompass 大模型评测	OpenCompass 上海人工智能实验室开发的一款开源、高效、全面的评测大模型体系及开放平台，提供完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术，即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式，包括零样本评测、小样本评测和思维链评测，全方位量化模型各个维度能力。	github website

类 ChatGPT 的资料

资源名（Name）	描述（Description）	链接
Open LLMs：可供商业使用的开放大型语言模型 (LLM)	A list of open LLMs available for commercial use	github
LLM Zoo: 大型语言模型的数据、模型和基准集市	LLM Zoo: democratizing ChatGPT - a project that provides data, models, and evaluation benchmark for large language models	github
大型语言模型 (LLM) 资料合集	相关论文列表，包括指导、推理、决策、持续改进和自我提升等方面的研究工作	LLM资料合集
DecryptPrompt	总结 Prompt&LLM 论文，开源数据&模型，AIGC 应用	github
SmartGPT	旨在为大型语言模型 (尤其是 GPT-3.5 和 GPT-4) 提供完成复杂任务的能力，通过将它们分解成更小的问题，并使用互联网和其他外部来源收集信息。特点包括模块化设计，易于配置，以及对插件的高度支持。SmartGPT 的运作基于 “Autos” 的概念，包括 “Runner” 和 “Assistant” 两种类型，都配有处理计划、推理和任务执行的 LLM 代理。此外，SmartGPT 还具有内存管理系统，以及可以定义各种命令的插件系统	github-SmartGPT
OpenGPT	用于创建基于指令的数据集并训练对话领域专家大型语言模型 (LLMs) 的框架。已经成功应用于训练健康护理对话模型 NHS-LLM，利用来自英国国家卫生服务体系 (NHS) 网站的数据，生成了大量的问答对和独特对话	github-OpenGPT
PaLM 2 技术报告	Google 最新发布 PaLM 2，一种新的语言模型，具有更好的多语言和推理能力，同时比其前身 PaLM 更节省计算资源。PaLM 2 综合了多项研究进展，包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM 2 在多种任务和能力上达到了最先进的性能，包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM 2 还展示了强大的多语言能力，能够处理数百种语言，并在不同语言之间进行翻译和解释。PaLM 2 还考虑了负责任的使用问题，包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等	PaLM 2 Technical Report
DB-GPT	于 vicuna-13b 和 FastChat 的开源实验项目，采用了 langchain 和 llama-index 技术进行上下文学习和问答。项目完全本地化部署，保证数据的隐私安全，能直接连接到私有数据库处理私有数据。其功能包括 SQL 生成、SQL 诊断、数据库知识问答等	github-DB-GPT
Transformers 相关文献资源大列表	包含了各种各样的 Transformer 模型，例如 BERT、GPT、Transformer-XL 等，这些模型已经在许多自然语言处理任务中得到了广泛应用。此外，该列表还提供了这些模型的相关论文和代码链接，为自然语言处理领域的研究人员和开发者提供了很好的参考资源	github
GPT-4 终极指南	一份关于如何使用 GPT3 和 GPT4 的指南，其中包括 100 多个资源，可以帮助学习如何用它来提高生活效率。包括如何学习 ChatGPT 基础知识、如何学习 ChatGPT 高级知识、如何在语言学习中使用 GPT-3、如何在教学中使用 GPT-3、如何使用 GPT-4 等，还提供了如何升级到 ChatGPT+ 计划以使用 GPT-4 以及如何免费使用 GPT-4 的方法等内容。同时，还提供了如何在业务、生产力、受益、金钱等方面使用 ChatGPT 的指南	link
基于 LoRA 的 LLM 参数高效微调		link
复杂推理：大语言模型的北极星能力	在 GPT-4 发布博客中，作者写道：“在一次随意的谈话中，GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时，差异就会显现出来。”这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。在这篇文章中，我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。	blog
大型语言模型的涌现能力是否是海市蜃楼？	大语言模型的涌现能力一直是被大家视作很神奇的现象，似乎是一种大力出奇迹，但这篇论文认为这可能只是一种错觉。	paper
大语言模型的概率总结	非常详尽的 LLM 科学解释和总结	paper
LLaMA 模型简史	LLaMA 是 Meta 发布的语言模型，采用 Transformer 架构，有多个版本，最大为 65B 参数。与 GPT 类似，可用于进一步微调，适用于多种任务。与 GPT 不同的是，LLaMA 是开源的，可以在本地运行。现有的 LLaMA 模型包括：Alpaca、Vicuna、Koala、GPT4-x-Alpaca 和 WizardLM。每个模型都有不同的训练数据和性能表现	blog
大型语言模型的复杂推理	讨论了如何训练具有强大复杂推理能力的语言模型，并探讨了如何有效地提示模型以充分释放其潜力；针对语言模型和编程的训练相似性，提出了三阶段的训练：持续训练、监督微调和强化学习；介绍了评估大型语言模型推理能力的一套任务集合；讨论了如何进行提示工程，通过提供各种学习机会使模型获得更好的学习效果，最终实现智能化	link
大语言模型进化树		paper
李宏毅：穷人如何低资源复刻自己的 ChatGPT		blog
训练 ChatGPT 的必备资源：语料、模型和代码库完全指南		资源链接论文地址
GitHub 宝藏库，里面整理了 GPT 相关的各种开源项目		github
ChatGPT 中文指南		gitlab
探讨了 ChatGPT 在自然语言处理中的应用、优势、限制以及未来发展方向	强调了在使用该技术时的伦理道德考量和提示工程技术。	paper
大型语言模型相关文献资源列表		github
大型语言模型文献综述 — 中文版		github
ChatGPT 相关资源大列表		github
Pre-Training to Learn in Context		paper
Langchain 架构图		image
LLM 开发人员都应该知道的数字		github
大语言模型如何构建强大的复杂推理能力		blog
LLMs 九层妖塔	分享打怪 (ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all 等) 实战与经验	github

类 ChatGPT 的开源框架

资源名（Name）	描述（Description）	链接
LLM-As-Chatbot	这个项目把市面上有的 LLM 全部做成了 Chatbot，直接可以在 google colab 运行，不需要自己搭建，非常适用于想体验 LLM 的朋友们。我刚试了，真的超简单。有些 LLM 需要的显存比较多，所以最好是要有 colab pro 订阅。	github
OpenBuddy	一款强大的开源多语言聊天机器人模型，目标是全球用户，重点是对话 AI 和流畅的多语言支持，包括英文、中文等多种语言。基于 Facebook 的 LLAMA 模型，进行了微调，包括扩展词汇表、增加常用字符和增强的 token embeddings。通过这些改进和多轮对话数据集，OpenBuddy 提供了一个强大的模型，能回答问题并在各种语言之间进行翻译任务。OpenBuddy 的使命是提供一个免费、开放且可离线使用的 AI 模型，该模型可以在用户的设备上运行，无论他们的语言或文化背景如何。目前，OpenBuddy-13B 的演示版本可以在 Discord 服务器上找到。其关键功能包括多语言对话 AI(包括中文、英文、日文、韩文、法文等)、增强的词汇表和对常见 CJK 字符的支持，以及两种模型版本：7B 和 13B	github-OpenBuddy
Panda: 海外中文开源大语言模型	基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练，使用了接近 15M 条数据，并针对推理能力在中文 benchmark 上进行了评测	github-PandaLM
Dromedary：一个开源的自对齐语言模型，只需少量人工监督即可进行训练		github-Dromedary
LaMini-LM 蒸馏的小型、高效的语言模型集合	从 ChatGPT 蒸馏的小型、高效的语言模型集合，在 2.58 M 指令大规模数据集上进行训练	github
LLaMA-Adapter V2	上海人工智能实验室 LLaMA-Adapter V2，仅注入 14M 参数，1 小时时间即可完成训练，对比较果确实很惊艳，且具有多模态功能（对图像进行解释和问答）	github
HuggingChat	Hugging Face 推出第一个 ChatGPT 开源替代品：HuggingChat。基于 Open Assistant 大模型搭建，支持中文对话与编写代码，但暂不支持中文回复。应用已上线，无需代理，打开即可访问	link
Open-Chinese-LLaMA	基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座	github
OpenLLaMA	LLaMA 模型的开源复现，在 RedPajama 数据集上训练，使用了与 LLaMA 相同的预处理步骤和超参数，模型结构，上下文长度，训练步骤，学习率调度和优化器。OpenLLaMA 的 PyTorch 和 Jax 权重可以在 Huggingface Hub 上获得。OpenLLaMA 在各种任务中展现出与 LLaMA 和 GPT-J 相似的表现，部分任务表现优异	github
replit-code-v1-3b	BY-SA 4.0 授权发布，这意味着允许商业使用	link
MOSS	MOSS 是一个支持中英双语和多种插件的开源对话语言模型，moss-moon 系列模型具有 160 亿参数，在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行，在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。	github
RedPajama	1.2 万亿 tokens 数据集	link
chinese_llama_alpaca_lora 抽取框架		github
Scaling Transformer to 1M tokens and beyond with RMT	该论文提出一种名为 RMT 的新技术，或许可将 Transform 的 Token 上限扩展至 100 万，甚至更多。	github
Open Assistant	包含大量 AI 生成的、人工标注的语料库和包括基于 LLaMA 和基于 Pythia 的多种模型可选。发布的数据集包括超过 161K 较高质量的，多达 35 种语言的人工助手型交互对话语料库	data model
ChatGLM Efficient Tuning	基于 PEFT 的高效 ChatGLM 微调	github
Dolly 介绍		news
Baize：一种对自聊天数据进行参数高效调优的开源聊天模型	Baize 是一个开源的聊天模型，可以进行多轮对话。它是通过使用 ChatGPT 自我对话生成高质量的多轮聊天语料库，并使用参数高效调整来增强 LLaMA（一个开源的大型语言模型）而创建的。Baize 模型在具有最小潜在风险的情况下表现出良好的多轮对话性能。它可以在单个 GPU 上运行，使更广泛的研究人员可以使用它。Baize 模型和数据仅用于研究目的。	论文地址源码地址
GPTrillion— 未找到开源代码	包含 1.5 万亿（1.5T）参数的大模型 GPTrillion 开源了，号称是目前世界上最大的开源 LLM	google_doc
Cerebras-GPT-13B(可商用)		hugging_face
Chinese-ChatLLaMA	中文 ChatLLaMA 对话模型；预训练/指令微调数据集，基于 TencentPretrain 多模态预训练框架构建，支持简繁体中文、英文、日文等多语言	github
Lit-LLaMA	基于 Apache 2.0 许可证完全开源的 LLaMA 独立实现，建立在 nanoGPT 之上，旨在解决原始 LLaMA 代码采用 GPL 许可证的限制，以实现更广泛的学术和商业应用	github
MosaicML	MPT-7B-StoryWriter，65K tokens，可以把《了不起的盖茨比》都一次性扔进去。	huggingface
Langchain	大型语言模型（LLMs）正在成为一项具有变革性的技术，使开发者能够构建以前无法实现的应用程序。然而，仅仅使用这些独立的 LLMs 通常不足以创建一个真正强大的应用程序 - 真正的力量来自于能够将它们与其他计算或知识来源相结合。	github
Guidance	引导能够比传统的提示或链接更有效地控制现代语言模型，并且更高效。引导程序允许您将生成、提示和逻辑控制交错到单一连续流中，与语言模型实际处理文本的方式相匹配。像 “Chain of Thought” 及其许多变体（例如 ART、Auto-CoT 等）这样的简单输出结构已被证明能改善语言模型的性能。更强大的语言模型（如 GPT-4）的出现使得更丰富的结构成为可能，而引导则使得构建这种结构变得更加容易和经济。	github
WizardLM	赋予大型预训练语言模型遵循复杂指令的能力，使用完整进化指令（约 300k）训练的 WizardLM-7B 模型	github

LLM 的训练 _ 推理 _ 低资源 _ 高效训练

资源名（Name）	描述（Description）	链接
QLoRA—Guanaco	一种高效的微调方法，可以在单个 48GB 的 GPU 上微调一个拥有 65B 参数的模型，同时保持完整的 16 位微调任务性能，并通过 QLoRA 将梯度反向传播通过一个冻结的、4 位量化的预训练语言模型到低秩适配器（LoRA）	github
Chinese-Guanaco	一个中文低资源的量化训练/部署方案	github
DeepSpeed Chat: 一键式 RLHF 训练		github
LLMTune: 在消费级 GPU 上微调大型 65B+LLM	可以在普通消费级 GPU 上进行 4 位微调，例如最大的 65B LLAMA 模型。LLMTune 还实现了 LoRA 算法和 GPTQ 算法来压缩和量化 LLM，并通过数据并行处理大型模型。此外，LLMTune 提供了命令行界面和 Python 库的使用方式	github
基于 ChatGLM-6B+LoRA 在指令数据集上进行微调	基于 deepspeed 支持多卡微调，速度相比单卡提升 8-9 倍具体设置可见微调 3 基于 DeepSpeed 进行 Lora 微调	github
微软发布 RLHF 训练工具 DeepSpeed Chat		github
LlamaChat：Mac 上基于 LLaMa 的聊天机器人		github
ChatGPT/GPT4 开源“平替”们		github
训练大型机器学习模型的实用建议和技巧	帮助您训练大型模型（>1B 参数）、避免不稳定性、保存开始失败的实验而不从 0 重新开始	link
Instruction Tuning with GPT-4		paper
xturing	一个 Python 软件包，用于高效、快速、简单地微调 LLM 模型，支持 LLaMA、GPT-J、GPT-2 等多种模型，可使用单 GPU 和多 GPU 训练，使用 LoRA 等高效微调技术可将硬件成本降低高达 90%，并在短时间内完成模型训练	github
GPT4All	一个允许在 Macbook 本地运行 GPT 的开源项目。基于 LLaMa-7B 大语言模型打造，包括数据、代码和 demo 都是开源的，对话风格偏向 AI 助理	github
用 Alpaca-LoRA 微调 ChatGPT 类模型		link
LMFlow	可扩展、方便有效的工具箱，用于微调大型机器学习模型	github
闻达：大型语言模型调用平台	目前支持 chatGLM-6B、chatRWKV、chatYuan 和 chatGLM-6B 模型下的 chatPDF（自建知识库查找）‘	github
Micro Agent	小型自主智能体开源项目，由 LLM(OpenAI GPT-4) 提供动力，可以为你编写软件，只需设置一个“目的”，让它自己工作	github
Llama-X	开源的学术研究项目，通过社区共同努力，逐步将 LLaMA 的性能提高到 SOTA LLM 水平，节省重复工作，共同创造更多、更快的增量	github
Chinese-LLaMA-Alpaca	中文 LLaMA&Alpaca 大语言模型 + 本地部署 (Chinese LLaMA & Alpaca LLMs) - 开源了经过中文文本数据预训练的中文 LLaMA 大模型；开源了进一步经过指令精调的中文 Alpaca 大模型；快速地使用笔记本电脑（个人 PC）本地部署和体验量化版大模型	github
Efficient Alpaca	基于 LLaMA 实现的开源项目，旨在通过微调 LLaMA-7B 模型在资源消耗更少、推理速度更快、更适合研究者使用方面提高 Stanford Alpaca 的性能	github
ChatGLM-6B-Slim	裁减掉 20K 图片 Token 的 ChatGLM-6B，完全一样的性能，占用更小的显存	github
Chinese-Vicuna	一个中文低资源的 llama+lora 方案	github
Alpaca-LoRA	用 LoRA 在消费级硬件上复现斯坦福 Alpaca 的结果	github
LLM Accelerator	让基础大模型更聪明的 LLM Accelerator 来了！基础大模型正在诸多应用中发挥着日益重要的作用。大多数大语言模型的训练都是采取自回归的方式进行生成，虽然自回归模型生成的文本质量有所保证，但却导致了高昂的推理成本和长时间的延迟。由于大模型的参数量巨大、推理成本高，因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题，微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator，在大模型典型的应用场景中可以取得两到三倍的加速。	blog
大语言模型（LLM）微调技术笔记		github
PyLLMs	简洁的 Python 库，用于连接各种 LLM(OpenAI、Anthropic、Google、AI21、Cohere、Aleph Alpha、HuggingfaceHub)，内置模型性能基准。非常适合快速原型设计和评估不同模型，具有以下特点：通过少量代码连接顶级 LLM；响应元数据包括处理的 Token、成本和延迟，对各个模型进行标准化；支持多模型：同时从不同模型获取补全；LLM 基准：评估模型的质量、速度和成本	github
用混合精度加速大型语言模型	通过使用低精度浮点数运算，可以将训练和推断速度提升多达 3 倍，同时不影响模型准确性	blog
新的 LLM 训练方法 Federate	杜克大学和微软一起发布了一个新的 LLM 训练方法 Federated GPT，这个训练方法是将原本中心化的训练方法分散到不同的边缘设备里面（edge device），然后训练完成后，再上传到中心去将各子模型合并。	github

提示工程

资源名（Name）	描述（Description）	链接
OpenBuprompt-engineering-note	提示工程笔记 (课程总结)》介绍了面向开发者的 ChatGPT Prompt Engineering Learning Notes 课程，该课程提供了语言模型的工作原理和提示工程实践，并展示了如何将语言模型 API 应用于各种任务的应用程序中。课程包括总结、推断、转换、扩展和打造聊天机器人等方面的内容，并讲述了如何设计好的提示和构建自定义聊天机器人。	github-OpenBuprompt
提示工程指南		link
AIGC 提示工程学习站 Learn Prompt	ChatGPT/Midjourney/Runway	link
Prompts 精选 - ChatGPT 使用指南	ChatGPT 使用指南，提升 ChatGPT 可玩性和可用性	github
非官方的 ChatGPT 资源聚合列表，旨在汇总使用 ChatGPT	旨在汇总使用 ChatGPT 的应用、Web 应用、浏览器扩展、CLI 工具、机器人、集成、软件包、文章等资源	github
Snack Prompt：ChatGPT Prompt 提示分享社区		link
ChatGPT 提问技巧	如何向 ChatGPT 提问以获得高质量答案：提示技巧工程完全指南	github
rompt-Engineering-Guide-Chinese - 提示工程师指南	源自英文版，但增加了 AIGC 的 prompt 部分	github
OpenPrompt	一个开放的共享 Prompt 社区，大家一起推荐好用的 prompt	github
GPT-Prompts	教你如何用 GPT 生成 Prompts	github

类 ChatGPT 的文档问答

资源名（Name）	描述（Description）	链接
privateGPT	基于 GPT4All-J 的私有化部署文档问答平台，无需联网，能 100% 保证用户的隐私不泄露。提供了一个 API，用户可以使用自己的文档进行交互式问答和生成文本。此外，平台支持自定义训练数据和模型参数，以满足个性化需求	github-privateGPT
Auto-evaluator	文档问答的自动评估；、	github
PDF GP	一个基于 GPT 实现的开源 PDF 文档聊天方案,主要实现以下功能：跟 PDF 文档进行一对一对话；自动切割内容，并使用强大的深度平均网络编码器来生成嵌入；对 PDF 内容执行语义搜索，并将最相关的嵌入传递给 Open AI；自定义逻辑，生成更精确的响应信息，速度要比 OpenAI 的快。	github
Redis-LLM-Document-Chat	用 LlamaIndex、Redis 和 OpenAI 与 PDF 文档进行交互，包含一个 Jupyter 笔记本，演示了如何使用 Redis 作为向量数据库来存储和检索文档向量，还展示了如何使用 LlamaIndex 在文档中执行语义搜索，以及如何利用 OpenAI 提供类似聊天机器人的体验	github
doc-chatbot	GPT-4 + Pinecone + LangChain + MongoDB 实现的文档聊天机器人，可多文件、多话题和多窗口聊天，聊天历史由 MongoDB 保存	github
document.ai	基于向量数据库与 GPT3.5 的通用本地知识库方案 (A universal local knowledge base solution based on vector database and GPT3.5)	github
DocsGPT	DocsGPT 是一种尖端的开源解决方案，可以简化在项目文档中查找信息的过程。通过集成强大的 GPT 模型，开发人员可以轻松地提出关于项目的问题并获得准确的答案。	github
ChatGPT Retrieval Plugin	ChatGPT 检索插件存储库提供了一种灵活的解决方案，可以使用自然语言查询对个人或组织文档进行语义搜索和检索。	github
LamaIndex	lamaIndex（GPT 索引）是您的 LLM 应用程序的数据框架。	github
chatWeb	ChatWeb 可以爬取任意网页或 PDF，DOCX，TXT 文件并提取正文，可以生成嵌入式概要，可以根据正文内容回答你的问题。基于 gpt3.5 的 chatAPI 和 embeddingAPI，以及向量数据库实现。	github

类 ChatGPT 的行业应用

资源名（Name）	描述（Description）	链接
新闻报道进行情感分析	用 ChatGPT 通过对上市公司的新闻报道进行情感分析，在 15 个月时间内在股票市场 (交易期权) 产生了 500% 的回报（在历史数据中测试得出的结果）——探讨了 ChatGPT 在利用新闻标题的情感分析来预测股市回报方面的潜力。发现 ChatGPT 的情感分析能力超过了传统的方法，并且与股市回报呈正相关。提出 ChatGPT 在金融经济领域有很大的价值，并对未来的研究和应用提出了一些启示和建议	paper
编程语言生成模型 StarCoder	BigCode 是 ServiceNow Inc. 和 Hugging Face Inc. 合作成立的。StarCoder 有多个版本。核心版本 StarCoderBase 具有 155 亿个参数，支持 80 多种编程语言，8192 个 token 的上下文。视频为其 vscode 插件效果	github
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages	code generation	paper
MedicalGPT-zh：中文医疗通用语言模型	中文医疗通用语言模型，基于 28 个科室的医疗共识与临床指南文本，提高模型的医疗领域知识与对话能力	github
MagicSlides	不少人梦寐以求的 AI 自作 PPT，免费版每月能做 3 个 PPT，支持 2500 字输入	link
SalesGPT	使用 LLM 实现上下文感知的销售助手，可自动化销售拓展代表的活动，如外呼销售电话	github
华驼 (HuaTuo): 基于中文医学知识的 LLaMA 微调模型		github
ai-code-translator	帮助你把代码从一种语言翻译成另一种语言，这事对 ChatGPT 来说简直太擅长了，尤其是 GPT-4，翻译质量相当高，而且 tokens 长度也可以更长。	github
ChatGenTitle	使用百万 arXiv 论文信息在 LLaMA 模型上进行微调的论文题目生成模型	github
Regex.ai	一款所见即所得的，基于 AI 的正则表达式自动生成工具，只需要选择出数据，它就能帮你写正则表达式，并提供多种提取数据的方式	video
ChatDoctor	一个基于医学领域知识微调 LLaMA 的医学聊天模型，其中医学数据包含大约 700 种疾病的数据、以及大约 5000 段医生和病人的对话记录	paper
CodeGPT	提高编程能力的关键在于数据。CodeGPT 是通过 GPT 生成的用于 GPT 的代码对话数据集。现在公开了 32K 条中文数据，让模型更擅长编程	github
LaWGPT	一系列基于中文法律知识的开源大语言模型	github
LangChain-ChatGLM-Webui	受 langchain-ChatGLM 启发, 利用 LangChain 和 ChatGLM-6B 系列模型制作的 Webui, 提供基于本地知识的大模型应用.目前支持上传 txt、docx、md、pdf 等文本格式文件, 提供包括 ChatGLM-6B 系列、Belle 系列等模型文件以及 GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh 等 Embedding 模型.	github

类 ChatGPT 的课程资料

资源名（Name）	描述（Description）	链接
Databricks	（Dolly 模型的作者）在 edX 发布了两个免费课程程，其中第二个是关于 LLM 是如何构建的。	link
大语言模型技术分享系列	东北大学自然语言处理实验室	video
GPT-4 是如何工作的？如何利用 GPT-4 打造智能程序？	哈佛大学 CS50 公开课	video
提示工程最佳实践：Andrew Ng 提示工程新课摘要 +LangChain 经验总结		medium_blog
微调 LLM 模型	如果你对微调 LLM 模型感兴趣，一定要关注这个油管博主，他把几乎世面上所有的 LLM 模型都公开了微调的方法。	油管博主 Sam Witteveen
Transformer 的架构解读	通俗易懂的介绍	youtube1 youtube2 youtube3
Transformer multi head 机制的视频	如果想要真正理解整个 Transform 的每一个细节，包括里面的数学原理，可以看一下这个视频，真的是剖析地非常详细	youtube
Introduction to Large Language Models	大语言模型介绍	介绍了大型语言模型（Large Language Models，LLMs）的概念、使用场景、提示调整以及 Google 的 Gen AI 开发工具。

LLM 的安全问题

资源名（Name）	描述（Description）	链接
LLM 模型安全研究		link
Chatbot Injections & Exploit	收集了一些 Chatbot 注入和漏洞的例子，以帮助人们了解 Chatbot 的潜在漏洞和脆弱性。注入和攻击的方式包括命令注入、字符编码、社交工程、表情符号、Unicode 等。仓库提供了一些示例，其中一些包括可用于攻击 Chatbot 的表情符号列表	github
GPTSecurity	一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练 Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于 GPT/AIGC/LLM 最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。	github

多模态 LLM

资源名（Name）	描述（Description）	链接
DeepFloyd IF	高度逼真且具有语言理解能力的最新开源文本到图像模型，由一个冻结文本编码器和三个连续的像素扩散模块组成，是一个高效的模型，性超越了当前最先进的模型，在 COCO 数据集上实现了零样本的 FID 得分为 6.66	github
Multi-modal GPT	用多模态 GPT 训练一个能同时接收视觉和语言指令的聊天机器人。基于 OpenFlamingo 多模态模型，使用各种开放数据集创建各种视觉指导数据，联合训练视觉和语言指导，有效提高模型性能	github
AudioGPT	Understanding and Generating Speech, Music, Sound, and Talking Head’ by AIGC-Audio	github
text2image-prompt-generator	基于 GPT-2 用 25 万条 Midjourney 的 promps 训练出来的小模型，可以生成高质量的 Midjourney prompt	link data
汇总 6 个 Midjourney 以外的免费以文生图服务：		Bing Image Creator Playground AI DreamStudio Pixlr Leonardo AI Craiyon
BARK	一个非常强大的 TTS（文字转语音）项目，这个项目的特点是，它可以在文字中加入提示词，比如“大笑”。这个提示词会变成笑的声音，然后合成到语音里去。它也可以混合“男声”，“女声”，这样再做就可以不用再做拼接操作了	github
whisper	在语音转文字（STT，也称 ASR）方面，whisper 是我用过的最好的，最快的库。没想到，这么快的模型，还能 70x 的优化空间。我准备部署这个模型，并开放给大家使用，可以用来转录大的语音文件，和进行翻译。这个模型是多语言的，而且能自动识别是什么语言，真的非常强大	github
OFA-Chinese：中文多模态统一预训练模型	transformers 结构的中文 OFA 模型	github
文生图开源模型试炼场	可根据输入文字同时用 stable-diffusion 1.5、stable-diffusion 2.1、DALL-E、kandinsky-2 等模型生成图像，方便测试比较	link
LLMScore	LLMScore 是一种全新的框架，能够提供具有多粒度组合性的评估分数。它使用大语言模型（LLM）来评估文本到图像生成模型。首先，将图像转化为图像级别和对象级别的视觉描述，然后将评估指令输入到 LLM 中，以衡量合成图像与文本的对齐程度，并最终生成一个评分和解释。我们的大量分析显示，LLMScore 在众多数据集上与人类判断的相关性最高，明显优于常用的文本 - 图像匹配度量指标 CLIP 和 BLIP。	paper github
VisualGLM-6B	VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。	github

LLM 的数据集

资源名（Name）	描述（Description）	链接
歧义数据集	能否正确的消除歧义是衡量大语言模型的一个重要指标。不过一直没有一个标准化的衡量方法，这篇论文提出了一个包含 1,645 个具有不同种类歧义的数据集及对应的评估方法。	github paper
thu 指令训练数据	设计了一套流程来自动产生多样化高质量的多轮指令对话数据 UltraChat，并进行了细致的人工后处理。现已将英文数据全部开源，共计 150 余万条，是开源社区数量最多的高质量指令数据之一	github
多模态数据集 MMC4	5.8 亿图片，1 亿文档，400 亿 token	github
EleutherAI 数据	800g 的文本语料给你整合好了免费下载，不知道 trian 出来的 model 质量如何，打算试试：	pile data paper
UltraChat	大规模、信息丰富、多样化的多轮对话数据	github
ConvFinQA 金融数据问答		github
The botbots dataset	一个包含对话内容的数据集，对话内容来自于两个 ChatGPT 实例 (gpt-3.5-turbo)，CLT 命令和对话提示来自 GPT-4，覆盖多种情境和任务，生成成本约为 35 美元，可用于研究和训练更小的对话模型 (如 Alpaca)	github
alpaca_chinese_dataset - 人工精调的中文对话数据集		github
CodeGPT-data	提高编程能力的关键在于数据。CodeGPT 是通过 GPT 生成的用于 GPT 的代码对话数据集。现在公开了 32K 条中文数据，让模型更擅长编程	github

语料库

资源名（Name）	描述（Description）	链接
人名语料库		wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors	各种中文词向量	github repo
中文聊天语料	该库搜集了包含豆瓣多轮, PTT 八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料	link
中文谣言数据	该数据文件中，每一行为一条 json 格式的谣言数据	github
中文问答数据集		链接提取码 2dva
微信公众号语料	3G 语料，包含部分网络抓取的微信公众号的文章，已经去除 HTML，只包含了纯文本。每行一篇，是 JSON 格式，name 是微信公众号名字，account 是微信公众号 ID，title 是题目，content 是正文	github
中文自然语言处理语料、数据集		github
任务型对话英文数据集	【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全，这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外，为了帮助研究者更好的把握领域进展的脉络，我们以 Leaderboard 的形式给出了几个数据集上的 State-of-the-art 实验结果。	github
语音识别语料生成工具	从具有音频/字幕的在线视频创建自动语音识别 (ASR) 语料库	github
LitBankNLP 数据集	支持自然语言处理和计算人文学科任务的 100 部带标记英文小说语料	github
中文 ULMFiT	情感分析文本分类语料及模型	github
省市区镇行政区划数据带拼音标注		github
教育行业新闻自动文摘语料库		github
中文自然语言处理数据集		github
维基大规模平行文本语料	85 种语言、1620 种语言对、135M 对照句	github
古诗词库		github repo 更全的古诗词库
低内存加载维基百科数据	用新版 nlp 库加载 17GB+ 英文维基语料只占用 9MB 内存遍历速度 2-3 Gbit/s	github
对联数据	700,000 couplets, 超过 70 万对对联	github
《配色辞典》数据集		github
42GB 的 JD 客服对话数据 (CSDD)		github
70 万对联数据		link
用户名黑名单列表		github
依存句法分析语料	4 万句高质量标注数据	Homepage
人民日报语料处理工具集		github
虚假新闻数据集 fake news corpus		github
诗歌质量评价/细粒度情感诗歌语料库		github
中文自然语言处理相关的开放任务	数据集以及当前最佳结果	github
中文缩写数据集		github
中文任务基准测评	代表性的数据集 - 基准 (预训练) 模型 - 语料库 -baseline- 工具包 - 排行榜	github
中文谣言数据库		github
CLUEDatasetSearch	中英文 NLP 数据集搜索所有中文 NLP 数据集，附常用英文 NLP 数据集	github
多文档摘要数据集		github
让人人都变得“彬彬有礼”礼貌迁移任务	在保留意义的同时将非礼貌语句转换为礼貌语句，提供包含 139M + 实例的数据集	paper and code
粤语/英语会话双语语料库		github
中文 NLP 数据集列表		github
类人名/地名/组织机构名的命名体识别数据集		github
中文语言理解测评基准	包括代表性的数据集&基准模型&语料库&排行榜	github
OpenCLaP 多领域开源中文预训练语言模型仓库	民事文书、刑事文书、百度百科	github
中文全词覆盖 BERT 及两份阅读理解数据	DRCD 数据集：由中国台湾台达研究院发布，其形式与 SQuAD 相同，是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018 数据集: 哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与 SQuAD 相同。	github
Dakshina 数据集	十二种南亚语言的拉丁/本地文字平行数据集合	github
OPUS-100	以英文为中心的多语 (100 种) 平行语料	github
中文阅读理解数据集		github
中文自然语言处理向量合集		github
中文语言理解测评基准	包括代表性的数据集、基准 (预训练) 模型、语料库、排行榜	github
NLP 数据集/基准任务大列表		github
LitBankNLP 数据集	支持自然语言处理和计算人文学科任务的 100 部带标记英文小说语料	github
70 万对联数据		github
文言文（古文）- 现代文平行语料	短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍，已和《资治通鉴》合并	github
COLDDateset，中文冒犯性语言检测数据集	涵盖了种族、性别和地区等话题内容，数据待论文发表后放出	paper
GAOKAO-bench：以中国高考题目作为数据集	以中国高考题目作为数据集，评估大语言模型的语言理解能力和逻辑推理能力的测评框架，包含 1781 道选择题、218 道填空题和 812 道解答题	github
zero to nlp - 中文 nlp 应用数据、模型、训练、推理		github

词库及词法工具

资源名（Name）	描述（Description）	链接
textfilter	中英文敏感词过滤	observerss/textfilter
人名抽取功能	中文（现代、古代）名字、日文名字、中文的姓和名、称呼（大姨妈、小姨妈等）、英文 →中文名字（李约翰）、成语词典	cocoNLP
中文缩写库	全国人大: 全国人民代表大会; 中国: 中华人民共和国; 女网赛: 女子/n 网球/n 比赛/vn	github
汉语拆字词典	漢字拆法 (一) 拆法 (二) 拆法 (三) 拆手斥扌斥才斥	kfcd/chaizi
词汇情感值	山泉水:0.400704566541 充沛: 0.37006739587	rainarch/SentiBridge
中文词库、停用词、敏感词		dongxiexidian/Chinese
python-pinyin	汉字转拼音	mozillazg/python-pinyin
zhtools	中文繁简体互转	skydark/nstools
英文模拟中文发音引擎	say wo i ni 说：我爱你	tinyfool/ChineseWithEnglish
chinese_dictionary	同义词库、反义词库、否定词库	guotong1988/chinese_dictionary
wordninja	无空格英文串分割、抽取单词	wordninja
汽车品牌、汽车零件相关词汇		data
THU 整理的词库	IT 词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库	link
罪名法务名词及分类模型	包含 856 项罪名知识图谱, 基于 280 万罪名训练库的罪名预测,基于 20W 法务问答对的 13 类问题分类与法律资讯问答功能	github
分词语料库 + 代码		百度网盘链接 - 提取码 pea6
基于 Bi-LSTM + CRF 的中文分词 + 词性标注	keras 实现	link
基于 Universal Transformer + CRF 的中文分词和词性标注		link
快速神经网络分词包	java version
chinese-xinhua	中华新华字典数据库及 api，包括常用歇后语、成语、词语和汉字	github
SpaCy 中文模型	包含 Parser, NER, 语法树等功能。有一些英文 package 使用 spacy 的英文模型的，如果要适配中文，可能需要使用 spacy 中文模型。	github
中文字符数据		github
Synonyms 中文近义词工具包		github
HarvestText	领域自适应文本挖掘工具（新词发现 - 情感分析 - 实体链接等）	github
word2word	方便易用的多语言词 - 词对集 62 种语言/3,564 个多语言对	github
多音字词典数据及代码		github
汉字、词语、成语查询接口		github
103976 个英语单词库包	（sql 版，csv 版，Excel 版）	github
英文脏话大列表		github
词语拼音数据		github
186 种语言的数字叫法库		github
世界各国大规模人名库		github
汉字字符特征提取器 (featurizer)	提取汉字的特征（发音特征、字形特征）用做深度学习的特征	github
char_featurizer - 汉字字符特征提取工具		github
中日韩分词库 mecab 的 Python 接口库		github
g2pC 基于上下文的汉语读音自动标记模块		github
ssc, Sound Shape Code	音形码 - 基于“音形码”的中文字符串相似度计算方法	version 1 version 2 blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧		github
Tokenizer 快速、可定制的文本词条化库		github
Tokenizers	注重性能与多功能性的最先进分词器	github
通过同义词替换实现文本“变脸”		github
token2index 与 PyTorch/Tensorflow 兼容的强大轻量词条索引库		github
繁简体转换		github
粤语 NLP 工具		github
领域词典库	涵盖 68 个领域、共计 916 万词的专业词典知识库	github

预训练语言模型&大模型

资源名（Name）	描述（Description）	链接
BMList	大模型大列表	github
bert 论文中文翻译		link
bert 原作者的 slides		link
文本分类实践		github
bert tutorial 文本分类教程		github
bert pytorch 实现		github
bert pytorch 实现		github
BERT 生成句向量，BERT 做文本分类、文本相似度计算		github
bert、ELMO 的图解		github
BERT Pre-trained models and downstream applications		github
语言/知识表示工具 BERT & ERNIE		github
Kashgari 中使用 gpt-2 语言模型		github
Facebook LAMA	用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析，提供 Transformer-XL/BERT/ELMo/GPT 预训练语言模型的统一访问接口	github
中文的 GPT2 训练代码		github
XLMFacebook 的跨语言预训练语言模型		github
海量中文预训练 ALBERT 模型		github
Transformers 20	支持 TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型 (BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8 种架构/33 种预训练模型/102 种语言	github
8 篇论文梳理 BERT 相关模型进展与反思		github
法文 RoBERTa 预训练语言模型	用 138GB 语料训练的法文 RoBERTa 预训练语言模型	link
中文预训练 ELECTREA 模型	基于对抗学习 pretrain Chinese Model	github
albert-chinese-ner	用预训练语言模型 ALBERT 做中文 NER	github
开源预训练语言模型合集		github
中文 ELECTRA 预训练模型		github
用 Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta) 预测下一个词 (模型比较)		github
TensorFlow Hub	40+ 种语言的新语言模型 (包括中文)	link
UER	基于不同语料、编码器、目标任务的中文预训练模型仓库（包括 BERT、GPT、ELMO 等）	github
开源预训练语言模型合集		github
多语言句向量包		github
Language Model as a Service (LMaaS)	语言模型即服务	github
开源语言模型 GPT-NeoX-20B	200 亿参数，是目前最大的可公开访问的预训练通用自回归语言模型	github
中文科学文献数据集（CSL）	包含 396,209 篇中文核心期刊论文元信息（标题、摘要、关键词、学科、门类）。CSL 数据集可以作为预训练语料，也可以构建许多 NLP 任务，例如文本摘要（标题预测）、关键词生成和文本分类等。	github
大模型开发神器		github

抽取

资源名（Name）	描述（Description）	链接
时间抽取	已集成到 python package cocoNLP 中，欢迎试用	java version python version
神经网络关系抽取 pytorch	暂不支持中文	github
基于 bert 的命名实体识别 pytorch	暂不支持中文	github
关键词 (Keyphrase) 抽取包 pke		github
BLINK 最先进的实体链接库		github
BERT/CRF 实现的命名实体识别		github
支持批并行的 LatticeLSTM 中文命名实体识别		github
构建医疗实体识别的模型	包含词典和语料标注，基于 python	github
基于 TensorFlow 和 BERT 的管道式实体及关系抽取	- Entity and Relation Extraction Based on TensorFlow and BERT 基于 TensorFlow 和 BERT 的管道式实体及关系抽取，2019 语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019	github
中文命名实体识别 NeuroNER vs BertNER		github
基于 BERT 的中文命名实体识别		github
中文关键短语抽取工具		github
bert	用于中文命名实体识别 tensorflow 版本	github
bert-Kashgari	基于 keras 的封装分类标注框架 Kashgari，几分钟即可搭建一个分类或者序列标注模型	github
cocoNLP	人名、地址、邮箱、手机号、手机归属地等信息的抽取，rake 短语抽取算法。	github
Microsoft 多语言数字/单位/如日期时间识别包		github
百度开源的基准信息抽取系统		github
中文地址分词（地址元素识别与抽取），通过序列标注进行 NER		github
基于依存句法的开放域文本知识三元组抽取和知识库构建		github
基于预训练模型的中文关键词抽取方法		github
chinese_keyphrase_extractor (CKPE)	A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具	github
简单的简历解析器，用来从简历中提取关键信息		github
BERT-NER-Pytorch 三种不同模式的 BERT 中文 NER 实验		github

知识图谱

资源名（Name）	描述（Description）	链接
清华大学 XLORE 中英文跨语言百科知识图谱	百度、中文维基、英文维基	link
文档图谱自动生成		github
基于医疗领域知识图谱的问答系统		github 该 repo 参考了 github
中文人物关系知识图谱项目		github
AmpliGraph 知识图谱表示学习 (Python) 库知识图谱概念链接预测		github
中文知识图谱资料、数据及工具		github
基于百度百科的中文知识图谱	抽取三元组信息，构建中文知识图谱	github
Zincbase 知识图谱构建工具包		github
基于知识图谱的问答系统		github
知识图谱深度学习相关资料整理		github
东南大学《知识图谱》研究生课程 (资料)		github
知识图谱车音工作项目		github
《海贼王》知识图谱		github
132 个知识图谱的数据集	涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教	link
大规模、结构化、中英文双语的新冠知识图谱 (COKG-19)		link
基于依存句法与语义角色标注的事件三元组抽取		github
抽象知识图谱	目前规模 50 万，支持名词性实体、状态性描述、事件性动作进行抽象	github
大规模中文知识图谱数据 14 亿实体		github
Jiagu 自然语言处理工具	以 BiLSTM 等模型为基础，提供知识图谱关系抽取中文分词词性标注命名实体识别情感分析新词发现关键词文本摘要文本聚类等功能	github
medical_NER - 中文医学知识图谱命名实体识别		github
知识图谱相关学习资料/数据集/工具资源大列表		github
LibKGE 面向可复现研究的知识图谱嵌入库		github
基于 mongodb 存储的军事领域知识图谱问答项目	包括飞行器、太空装备等 8 大类，100 余小类，共计 5800 项的军事武器知识库，该项目不使用图数据库进行存储，通过 jieba 进行问句解析，问句实体项识别，基于查询模板完成多类问题的查询，主要是提供一种工业界的问答思想 demo。	github
京东商品知识图谱		github
基于远监督的中文关系抽取		github
基于医药知识图谱的智能问答系统		github
BLINK 最先进的实体链接库		github
一个小型的证券知识图谱/知识库		github
dstlr 非结构化文本可扩展知识图谱构建平台		github
百度百科人物词条属性抽取	用基于 BERT 的微调和特征提取方法来进行知识图谱	github
新冠肺炎相关数据	新冠及其他类型肺炎中文医疗对话数据集；清华大学等机构的开放数据源（COVID-19）	github github
DGL-KE 图嵌入表示学习算法		github
因果关系图谱		method data
基于多领域文本数据集的因果事件对		link

文本生成

资源名（Name）	描述（Description）	链接
Texar	Toolkit for Text Generation and Beyond	github
Ehud Reiter 教授的博客		link 北大万小军教授强力推荐，该博客对 NLG 技术、评价与应用进行了深入的探讨与反思。
文本生成相关资源大列表		github
开放域对话生成及在微软小冰中的实践	自然语言生成让机器掌握自动创作的本领	link
文本生成控制		github
自然语言生成相关资源大列表		github
用 BLEURT 评价自然语言生成		link
自动对联数据及机器人		代码 link 70万对联数据
自动生成评论	用 Transformer 编解码模型实现的根据 Hacker News 文章标题生成评论	github
自然语言生成 SQL 语句（英文）		github
自然语言生成资源大全		github
中文生成任务基准测评		github
基于 GPT2 的特定主题文本生成/文本增广		github
编码、标记和实现一种可控高效的文本生成方法		github
TextFooler 针对文本分类/推理的对抗文本生成模块		github
SimBERT	基于 UniLM 思想、融检索与生成于一体的 BERT 模型	github
新词生成及造句	不存在的词用 GPT-2 变体从头生成新词及其定义、例句	github
由文本自动生成多项选择题		github
合成数据生成基准		github

文本摘要

资源名（Name）	描述（Description）	链接
中文文本摘要/关键词提取		github
基于命名实体识别的简历自动摘要		github
文本自动摘要库 TextTeaser	仅支持英文	github
基于 BERT 等最新语言模型的抽取式摘要提取		github
Python 利用深度学习进行文本摘要的综合指南		link
(Colab) 抽象文本摘要实现集锦 (教程		github

智能问答

资源名（Name）	描述（Description）	链接
中文聊天机器人	根据自己的语料训练出自己想要的聊天机器人，可以用于智能客服、在线问答、智能聊天等场景	github
有趣的情趣 robot qingyun	qingyun 训练出来的中文聊天机器人	github
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据		github
qa 对的机器人	Amodel-for-Retrivalchatbot - 客服机器人，Chinese Retreival chatbot（中文检索式机器人）	git
ConvLab 开源多域端到端对话系统平台		github
基于最新版本 rasa 搭建的对话系统		github
基于金融 - 司法领域 (兼有闲聊性质) 的聊天机器人		github
端到端的封闭域对话系统		github
MiningZhiDaoQACorpus	580 万百度知道问答数据挖掘项目，百度知道问答语料库，包括超过 580 万的问题，每个问题带有问题标签。基于该问答语料库，可支持多种应用，如逻辑挖掘	github
用于中文闲聊的 GPT2 模型 GPT2-chitchat		github
基于检索聊天机器人多轮响应选择相关资源列表 (Leaderboards、Datasets、Papers)		github
微软对话机器人框架		github
chatbot-list	行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍	github
Chinese medical dialogue data 中文医疗对话数据集		github
一个大规模医疗对话数据集	包含 110 万医学咨询，400 万条医患对话	github
大规模跨领域中文任务导向多轮对话数据集及模型 CrossWOZ		paper & data
开源对话式信息搜索平台		github
情境互动多模态对话挑战 2020(DSTC9 2020)		github
用 Quora 问题对训练的 T5 问题意译 (Paraphrase)		github
Google 发布 Taskmaster-2 自然语言任务对话数据集		github
Haystack 灵活、强大的可扩展问答 (QA) 框架		github
端到端的封闭域对话系统		github
Amazon 发布基于知识的人 - 人开放领域对话数据集		github
基于百度 webqa 与 dureader 数据集训练的 Albert Large QA 模型		github
CommonsenseQA 面向常识的英文 QA 挑战		link
MedQuAD(英文) 医学问答数据集		github
基于 Albert、Electra，用维基百科文本作为上下文的问答引擎		github
基于 14W 歌曲知识库的问答尝试	功能包括歌词接龙，已知歌词找歌曲以及歌曲歌手歌词三角关系的问答	github

文本纠错

资源名（Name）	描述（Description）	链接
中文文本纠错模块代码		github
英文拼写检查库		github
python 拼写检查库		github
GitHub Typo Corpus 大规模 GitHub 多语言拼写错误/语法错误数据集		github
BertPunc 基于 BERT 的最先进标点修复模型		github
中文写作校对工具		github
文本纠错文献列表	Chinese Spell Checking (CSC) and Grammatical Error Correction (GEC)	github
文本智能校对大赛冠军方案	已落地应用，来自苏州大学、达摩院团队	link

多模态

资源名（Name）	描述（Description）	链接
中文多模态数据集「悟空」	华为诺亚方舟实验室开源大型，包含 1 亿图文对	github
中文图文表征预训练模型 Chinese-CLIP	中文版本 CLIP 预训练模型，开源多个模型规模，几行代码搞定中文图文表征提取 & 图文检索	github

语音处理

资源名（Name）	描述（Description）	链接
ASR 语音数据集 + 基于深度学习的中文语音识别系统		github
清华大学 THCHS30 中文语音数据集		data_thchs30tgz-OpenSLR国内镜像 data_thchs30tgz test-noisetgz-OpenSLR国内镜像 test-noisetgz resourcetgz-OpenSLR国内镜像 resourcetgz Free ST Chinese Mandarin Corpus Free ST Chinese Mandarin Corpus AIShell-1 开源版数据集-OpenSLR国内镜像 AIShell-1 开源版数据集 Primewords Chinese Corpus Set 1-OpenSLR国内镜像 Primewords Chinese Corpus Set 1
笑声检测器		github
Common Voice 语音识别数据集新版	包括来自 42,000 名贡献者超过 1,400 小时的语音样本，涵 github	link
speech-aligner	从“人声语音”及其“语言文本”，产生音素级别时间对齐标注的工具	github
ASR 语音大辞典/词典		github
语音情感分析		github
masr	中文语音识别，提供预训练模型，高识别率	github
面向语音识别的中文文本规范化		github
语音质量评价指标 (MOSNet, BSSEval, STOI, PESQ, SRMR)		github
面向语音识别的中文/英文发音辞典		github
CoVoSTFacebook 发布的多语种语音 - 文本翻译语料库	包括 11 种语言 (法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文) 的语音、文字转录及英文译文	github
Parakeet 基于 PaddlePaddle 的文本 - 语音合成		github
(Java) 准确的语音自然语言检测库		github
CoVoSTFacebook 发布的多语种语音 - 文本翻译语料库		github
TensorFlow 2 实现的文本语音合成		github
Python 音频特征提取包		github
ViSQOL 音频质量感知客观、完整参考指标，分音频、语音两种模式		github
zhrtvc	好用的中文语音克隆兼中文语音合成系统	github
aukit	好用的语音处理工具箱，包含语音降噪、音频格式转换、特征频谱生成等模块	github
phkit	好用的音素处理工具箱，包含中文音素、英文音素、文本转拼音、文本正则化等模块	github
zhvoice	中文语音语料，语音更加清晰自然，包含 8 个开源数据集，3200 个说话人，900 小时语音，1300 万字	github
audio 面向语音行为检测	、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具	github
深度学习情感文本语音合成		github
Python 音频数据增广库		github
基于大规模音频数据集 Audioset 的音频增强		github
语声迁移		github

文档处理

资源名（Name）	描述（Description）	链接
LayoutLM-v3 文档理解模型		github
PyLaia 面向手写文档分析的深度学习工具包		github
单文档非监督的关键词抽取		github
DocSearch 免费文档搜索引擎		github
fdfgen	能够自动创建 pdf 文档，并填写信息	link
pdfx	自动抽取出引用参考文献，并下载对应的 pdf 文件	link
invoice2data	发票 pdf 信息抽取	invoice2data
pdf 文档信息抽取		github
PDFMiner	PDFMiner 能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个 PDF 转换器，可以将 PDF 文件转换成其他文本格式 (如 HTML)。还有一个可扩展的解析器 PDF，可以用于文本分析以外的其他用途。	link
PyPDF2	PyPDF 2 是一个 python PDF 库，能够分割、合并、裁剪和转换 PDF 文件的页面。它还可以向 PDF 文件中添加自定义数据、查看选项和密码。它可以从 PDF 检索文本和元数据，还可以将整个文件合并在一起。	link
PyPDF2	PyPDF 2 是一个 python PDF 库，能够分割、合并、裁剪和转换 PDF 文件的页面。它还可以向 PDF 文件中添加自定义数据、查看选项和密码。它可以从 PDF 检索文本和元数据，还可以将整个文件合并在一起。	link
ReportLab	ReportLab 能快速创建 PDF 文档。经过时间证明的、超好用的开源项目，用于创建复杂的、数据驱动的 PDF 文档和自定义矢量图形。它是免费的，开源的，用 Python 编写的。该软件包每月下载 5 万多次，是标准 Linux 发行版的一部分，嵌入到许多产品中，并被选中为 Wikipedia 的打印/导出功能提供动力。	link
SIMPdfPython 写的简单 PDF 文件文字编辑器		github
pdf-diff	PDF 文件 diff 工具可显示两个 pdf 文档的差别	github

表格处理

资源名（Name）	描述（Description）	链接
用 unet 实现对文档表格的自动检测，表格重建		github
pdftabextract	用于 OCR 识别后的表格信息解析，很强大	link
tabula-py	直接将 pdf 中的表格信息转换为 pandas 的 dataframe，有 java 和 python 两种版本代码
camelot	pdf 表格解析	link
pdfplumber	pdf 表格解析
PubLayNet	能够划分段落、识别表格、图片	link
从论文中提取表格数据		github
用 BERT 在表格中寻找答案		github
表格问答的系列文章		简介模型完结篇
使用 GAN 生成表格数据（仅支持英文）		github
carefree-learn(PyTorch)	表格数据集自动化机器学习 (AutoML) 包	github
封闭域微调表格检测		github
PDF 表格数据提取工具		github
TaBERT 理解表格数据查询的新模型		paper
表格处理	Awesome-Table-Recognition	github

文本匹配

资源名（Name）	描述（Description）	链接
句子、QA 相似度匹配 MatchZoo	文本相似度匹配算法的集合，包含多个深度学习的方法，值得尝试。	github
中文问题句子相似度计算比赛及方案汇总		github
similarity 相似度计算工具包	java 编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算	github
中文词语相似度计算方法	综合了同义词词林扩展版与知网（Hownet）的词语相似度计算方法，词汇覆盖更多、结果更准确。	gihtub
Python 字符串相似性算法库		github
基于 Siamese bilstm 模型的相似句子判定模型,提供训练数据集和测试数据集	提供了 10 万个训练样本	github

文本数据增强

资源名（Name）	描述（Description）	链接
中文 NLP 数据增强（EDA）工具		github
英文 NLP 数据增强工具		github
一键中文数据增强工具		github
数据增强在机器翻译及其他 nlp 任务中的应用及效果		link
NLP 数据增广资源集		github

常用正则表达式

资源名（Name）	描述（Description）	链接
抽取 email 的正则表达式		已集成到 python package cocoNLP 中，欢迎试用
抽取 phone_number		已集成到 python package cocoNLP 中，欢迎试用
抽取身份证号的正则表达式	IDCards_pattern = r’^([1-9]\d{5}[12]\d{3}(0[1-9]\|1[012])(0[1-9]\|[12][0-9]\|3[01])\d{3}[0-9xX]) IDs = re.findall(IDCards_pattern, text, flags=0)
IP 地址正则表达式	(25[0-5]\| 2[0-4]\d\| [0-1]\d{2}\| [1-9]?\d).(25[0-5]\| 2[0-4]\d\| [0-1]\d{2}\| [1-9]?\d).(25[0-5]\| 2[0-4]\d\| [0-1]\d{2}\| [1-9]?\d).(25[0-5]\| 2[0-4]\d\| [0-1]\d{2}\| [1-9]?\d)
腾讯 QQ 号正则表达式	1-9
国内固话号码正则表达式	[0-9-()（）]{7,18}
用户名正则表达式	[A-Za-z0-9_-\u4e00-\u9fa5]+
国内电话号码正则匹配（三大运营商 + 虚拟等）		github
正则表达式教程		github

文本检索

资源名（Name）	描述（Description）	链接
高效模糊搜索工具		github
面向各语种/任务的 BERT 模型大列表/搜索引擎		link
Deepmatch 针对推荐、广告和搜索的深度匹配模型库		github
wwsearch 是企业微信后台自研的全文检索引擎		github
aili - the fastest in-memory index in the East 东半球最快并发索引		github
高效的字符串匹配工具 RapidFuzz	a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy	github

阅读理解

资源名（Name）	描述（Description）	链接
高效模糊搜索工具		github
面向各语种/任务的 BERT 模型大列表/搜索引擎		link
Deepmatch 针对推荐、广告和搜索的深度匹配模型库		github
allennlp 阅读理解支持多种数据和模		github

情感分析

资源名（Name）	描述（Description）	链接
方面情感分析包		github
awesome-nlp-sentiment-analysis	情感分析、情绪原因识别、评价对象和评价词抽取	github
情感分析技术让智能客服更懂人类情感		github

事件抽取

资源名（Name）	描述（Description）	链接
中文事件抽取		github
NLP 事件提取文献资源列表		github
PyTorch 实现的 BERT 事件抽取 (ACE 2005 corpus)		github
新闻事件线索抽取		github

机器翻译

资源名（Name）	描述（Description）	链接
无道词典	有道词典的命令行版本，支持英汉互查和在线查询	github
NLLB	支持 200+ 种语言任意互译的语言模型 NLLB	link
Easy-Translate	在本地翻译大文本文件的脚本，基于 Facebook/Meta AI 的 M2M100 模型和 NLLB200 模型，支持 200+ 种语言	github

数字转换

资源名（Name）	描述（Description）	链接
最好的汉字数字 (中文数字)- 阿拉伯数字转换工具		github
快速转化「中文数字」和「阿拉伯数字」		github
将自然语言数字串解析转换为整数和浮点数		github

指代消解

资源名（Name）	描述（Description）	链接
中文指代消解数据		github baidu ink code a0qq

文本聚类

资源名（Name）	描述（Description）	链接
TextCluster 短文本聚类预处理模块 Short text cluster		github

文本分类

资源名（Name）	描述（Description）	链接
NeuralNLP-NeuralClassifier 腾讯开源深度学习文本分类工具		github

知识推理

资源名（Name）	描述（Description）	链接
GraphbrainAI 开源软件库和科研工具，目的是促进自动意义提取和文本理解以及知识的探索和推断		github
(哈佛) 讲因果推理的免费书		pdf

可解释自然语言处理

资源名（Name）	描述（Description）	链接
文本机器学习模型最先进解释器库		github

文本攻击

资源名（Name）	描述（Description）	链接
TextAttack 自然语言处理模型对抗性攻击框架		github
OpenBackdoor: 文本后门攻防工具包	OpenBackdoor 基于 Python 和 PyTorch 开发，可用于复现、评估和开发文本后门攻防的相关算法	github

文本可视化

资源名（Name）	描述（Description）	链接
Scattertext 文本可视化 (python)		github
whatlies 词向量交互可视化		spacy工具
PySS3 面向可解释 AI 的 SS3 文本分类器机器可视化工具		github
用记事本渲染 3D 图像		github
attnvisGPT2、BERT 等 transformer 语言模型注意力交互可视化		github
Texthero 文本数据高效处理包	包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等	github

文本标注工具

资源名（Name）	描述（Description）	链接
NLP 标注平台综述		github
brat rapid annotation tool 序列标注工具		link
Poplar 网页版自然语言标注工具		github
LIDA 轻量交互式对话标注工具		github
doccano 基于网页的开源协同多语言文本标注工具		github
Datasaurai 在线数据标注工作流管理工具		link

语言检测

资源名（Name）	描述（Description）	链接
langid	97 种语言检测	https://github.com/saffsd/langid.py
langdetect	语言检测	https://code.google.com/archive/p/language-detection/

综合工具

资源名（Name）	描述（Description）	链接
jieba		jieba
hanlp		hanlp
nlp4han	中文自然语言处理工具集 (断句/分词/词性标注/组块/句法分析/语义分析/NER/N 元语法/HMM/代词消解/情感分析/拼写检	github
仇恨言论检测进展		link
基于 Pytorch 的 Bert 应用	包括命名实体识别、情感分析、文本分类以及文本相似度等	github
nlp4han 中文自然语言处理工具集	断句/分词/词性标注/组块/句法分析/语义分析/NER/N 元语法/HMM/代词消解/情感分析/拼写检查	github
一些关于自然语言的基本模型		github
用 BERT 进行序列标记和文本分类的模板代码		github
jieba_fast 加速版的 jieba		github
StanfordNLP	纯 Python 版自然语言处理包	link
Python 口语自然语言处理工具集 (英文)		github
PreNLP 自然语言预处理库		github
nlp 相关的一些论文及代码	包括主题模型、词向量 (Word Embedding)、命名实体识别 (NER)、文本分类 (Text Classificatin)、文本生成 (Text Generation)、文本相似性 (Text Similarity) 计算等，涉及到各种与 nlp 相关的算法，基于 keras 和 tensorflow	github
Python 文本挖掘/NLP 实战示例		github
Forte 灵活强大的自然语言处理 pipeline 工具集		github
stanza 斯坦福团队 NLP 工具	可处理六十多种语言	github
Fancy-NLP 用于建设商品画像的文本知识挖掘工具		github
全面简便的中文 NLP 工具包		github
工业界常用基于 DSSM 向量化召回 pipeline 复现		github
Texthero 文本数据高效处理包	包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等	github
nlpgnn 图神经网络自然语言处理工具箱		github
Macadam	以 Tensorflow(Keras) 和 bert4keras 为基础，专注于文本分类、序列标注和关系抽取的自然语言处理工具包	github
LineFlow 面向所有深度学习框架的 NLP 数据高效加载器		github
Arabica：Python 文本数据探索性分析工具包		github
Python 压力测试工具：SMSBoom		github

有趣搞笑工具

资源名（Name）	描述（Description）	链接
汪峰歌词生成器		phunterlau/wangfeng-rnn
女友情感波动分析		github
NLP 太难了系列		github
变量命名神器		github link
图片文字去除，可用于漫画翻译		github
CoupletAI - 对联生成	基于 CNN+Bi-LSTM+Attention 的自动对对联系统	github
用神经网络符号推理求解复杂数学方程		github
基于 14W 歌曲知识库的问答机器人	功能包括歌词接龙，已知歌词找歌曲以及歌曲歌手歌词三角关系的问答	github
COPE - 格律诗编辑程序		github
Paper2GUI	一款面向普通人的 AI 桌面 APP 工具箱，免安装即开即用，已支持 18+AI 模型，内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域	github
礼貌程度估算器（使用新浪微博数据训练）		github paper
草蟒（Python 中文版）入门指南	中文编程语言	homepage gitee

课程报告面试等

资源名（Name）	描述（Description）	链接
自然语言处理报告		link
知识图谱报告		link
数据挖掘报告		link
自动驾驶报告		link
机器翻译报告		link
区块链报告		link
机器人报告		link
计算机图形学报告		link
3D 打印报告		link
人脸识别报告		link
人工智能芯片报告		link
cs224n 深度学习自然语言处理课程		link 课程中模型的 pytorch 实现 link
面向深度学习研究人员的自然语言处理实例教程		github
《Natural Language Processing》by Jacob Eisenstein		github
ML-NLP	机器学习 (Machine Learning)、NLP 面试中常考到的知识点和代码实现	github
NLP 任务示例项目代码集		github
2019 年 NLP 亮点回顾		download
nlp-recipes 微软出品 — 自然语言处理最佳实践和范例		github
面向深度学习研究人员的自然语言处理实例教程		github
Transfer Learning in Natural Language Processing (NLP)		youtube
《机器学习系统》图书		link github

比赛

资源名（Name）	描述（Description）	链接
NLPer-Arsenal	NLP 竞赛，含当前赛事信息、过往竞赛方案等，持续更新中	github
复盘所有 NLP 比赛的 TOP 方案		github
2019 年百度的三元组抽取比赛，“科学空间队”源码 (第 7 名)		github

金融自然语言处理

资源名（Name）	描述（Description）	链接
BDCI2019 金融负面信息判定		github
开源的金融投资数据提取工具		github
金融领域自然语言处理研究资源大列表		github
基于金融 - 司法领域 (兼有闲聊性质) 的聊天机器人		github
小型金融知识图谱构流程示范		github

医疗自然语言处理

资源名（Name）	描述（Description）	链接
中文医学 NLP 公开资源整理		github
spaCy 医学文本挖掘与信息提取		github
构建医疗实体识别的模型	包含词典和语料标注，基于 python	github
基于医疗领域知识图谱的问答系统		github 该 repo 参考了 github
Chinese medical dialogue data 中文医疗对话数据集		github
一个大规模医疗对话数据集	包含 110 万医学咨询，400 万条医患对话	github
新冠肺炎相关数据	新冠及其他类型肺炎中文医疗对话数据集；清华大学等机构的开放数据源（COVID-19）	github github

法律自然语言处理

资源名（Name）	描述（Description）	链接
Blackstone 面向非结构化法律文本的 spaCy pipeline 和 NLP 模型		github
法务智能文献资源列表		github
基于金融 - 司法领域 (兼有闲聊性质) 的聊天机器人		github
罪名法务名词及分类模型	包含 856 项罪名知识图谱, 基于 280 万罪名训练库的罪名预测,基于 20W 法务问答对的 13 类问题分类与法律资讯问答功能	github
法律 NLP 相关资源大列表		github

文本生成图像

资源名（Name）	描述（Description）	链接
Dalle-mini	根据文本提示生成图片的迷你版 DALL·E	github

其他

资源名（Name）	描述（Description）	链接
phone	中国手机归属地查询	ls0f/phone
phone	国际手机、电话归属地查询	AfterShip/phone
ngender	根据名字判断性别	observerss/ngender
中文对比英文自然语言处理 NLP 的区别综述		link
各大公司内部里大牛分享的技术文档 PDF 或者 PPT		github
comparxiv 用于比较 arXiv 上两提交版本差异的命令		pypi
CHAMELEON 深度学习新闻推荐系统元架构		github
简历自动筛选系统		github
Python 实现的多种文本可读性评价指标		github

bGZo's Notes

Table of Contents

fighting41love/funNLP

Repo Meta

Notes

类 ChatGPT 的模型评测对比

类 ChatGPT 的资料

类 ChatGPT 的开源框架

LLM 的训练 _ 推理 _ 低资源 _ 高效训练

提示工程

类 ChatGPT 的文档问答

类 ChatGPT 的行业应用

类 ChatGPT 的课程资料

LLM 的安全问题

多模态 LLM

LLM 的数据集

语料库

词库及词法工具

预训练语言模型&大模型

抽取

知识图谱

文本生成

文本摘要

智能问答

文本纠错

多模态

语音处理

文档处理

表格处理

文本匹配

文本数据增强

常用正则表达式

文本检索

阅读理解

情感分析

事件抽取

机器翻译

数字转换

指代消解

文本聚类

文本分类

知识推理

可解释自然语言处理

文本攻击

文本可视化

文本标注工具

语言检测

综合工具

有趣搞笑工具

课程报告面试等

比赛

金融自然语言处理

医疗自然语言处理

法律自然语言处理

文本生成图像

其他

Table of Contents

Graph View

Recent Notes

~为什么国内互联网企业-都不想成为伟大的-让人尊敬的公司

upload-your-blog-image

microsoft/terminal