Repo Meta
Notes
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥 |
---|
* 类ChatGPT的模型评测对比 * 类ChatGPT的资料 * 类ChatGPT的开源框架 * LLM的训练_推理_低资源_高效训练 * 提示工程 * 类ChatGPT的文档问答 * 类ChatGPT的行业应用 * 类ChatGPT的课程资料 * LLM的安全问题 * 多模态LLM * LLM的数据集 |
🍆 🍒 🍐 🍊 | 🌻 🍓 🍈 🍅 🍍 |
---|---|
* 语料库 * 词库及词法工具 * 预训练语言模型 * 抽取 * 知识图谱 * 文本生成 * 文本摘要 * 智能问答 * 文本纠错 | * 文档处理 * 表格处理 * 文本匹配 * 文本数据增强 * 文本检索 * 阅读理解 * 情感分析 * 常用正则表达式 * 语音处理 |
* 常用正则表达式 * 事件抽取 * 机器翻译 * 数字转换 * 指代消解 * 文本聚类 * 文本分类 * 知识推理 * 可解释NLP * 文本对抗攻击 | * 文本可视化 * 文本标注工具 * 综合工具 * 有趣搞笑工具 * 课程报告面试等 * 比赛 * 金融NLP * 医疗NLP * 法律NLP * 文本生成图像 * 其他 |
类 ChatGPT 的模型评测对比
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
ChatALL:可以同时与多个 AI 聊天机器人(含清华、讯飞的产品) | 可以同时与多个 AI 聊天机器人(如 ChatGPT、Bing Chat、Bard、Alpaca、Vincuna、Claude、ChatGLM、MOSS、iFlytek Spark、ERNIE 等)进行对话的工具。它可以并行发送提示给不同的 AI 机器人,帮助用户找到最好的回答 | github-ChatALL |
Chatbot Arena | 实际场景用 Elo rating 对 LLM 进行基准测试 - 介绍了 Chatbot Arena,一种针对大型语言模型 (LLM) 的基准平台,采用匿名、随机的方式进行对抗评测,评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。发布了 9 个流行的开源 LLM 模型的 Elo rating 并推出排行榜。平台采用 FastChat 多模型服务系统,在多个语言下提供交互式界面,数据来源于用户投票。总结了 Chatbot Arena 的优点并计划提供更好的采样算法、排名和服务系统 | 截止2023年5月3日 |
类 ChatGPT 模型评测总结 | 大型语言模型 (LLM) 受到广泛关注,这些强大的模型能够理解复杂的信息,并对各种问题提供类人的回应。其中 GPT-3 和 GPT-4 表现最好,Flan-t5 和 Lit-LLaMA 表现也不错。但要注意,模型商用可能需要付费和数据共享 | blog |
大型语言模型(LLMs)大盘点 | blog | |
大模型评测方面的最新研究 | 长文本建模一直是 ChaGPT 令人惊艳的能力之一,我们以【篇章翻译】为实验场景,对大模型的篇章建模能力进行全面、细粒度的测试。 | paper |
中文大模型评测工具&排行榜 | C-Eval 是一个全面的中文评估套件,适用于基础模型。它包含 13948 个多项选择题,涵盖 52 个不同的学科和四个难度级别,具体如下所示。请访问我们的网站或查阅我们的论文获取更多详细信息。 | githubpaper |
OpenCompass 大模型评测 | OpenCompass 上海人工智能实验室开发的一款开源、高效、全面的评测大模型体系及开放平台,提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术,即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式,包括零样本评测、小样本评测和思维链评测,全方位量化模型各个维度能力。 | github website |
类 ChatGPT 的资料
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Open LLMs:可供商业使用的开放大型语言模型 (LLM) | A list of open LLMs available for commercial use | github |
LLM Zoo: 大型语言模型的数据、模型和基准集市 | LLM Zoo: democratizing ChatGPT - a project that provides data, models, and evaluation benchmark for large language models | github |
大型语言模型 (LLM) 资料合集 | 相关论文列表,包括指导、推理、决策、持续改进和自我提升等方面的研究工作 | LLM资料合集 |
DecryptPrompt | 总结 Prompt&LLM 论文,开源数据&模型,AIGC 应用 | github |
SmartGPT | 旨在为大型语言模型 (尤其是 GPT-3.5 和 GPT-4) 提供完成复杂任务的能力,通过将它们分解成更小的问题,并使用互联网和其他外部来源收集信息。特点包括模块化设计,易于配置,以及对插件的高度支持。SmartGPT 的运作基于 “Autos” 的概念,包括 “Runner” 和 “Assistant” 两种类型,都配有处理计划、推理和任务执行的 LLM 代理。此外,SmartGPT 还具有内存管理系统,以及可以定义各种命令的插件系统 | github-SmartGPT |
OpenGPT | 用于创建基于指令的数据集并训练对话领域专家大型语言模型 (LLMs) 的框架。已经成功应用于训练健康护理对话模型 NHS-LLM,利用来自英国国家卫生服务体系 (NHS) 网站的数据,生成了大量的问答对和独特对话 | github-OpenGPT |
PaLM 2 技术报告 | Google 最新发布 PaLM 2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身 PaLM 更节省计算资源。PaLM 2 综合了多项研究进展,包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM 2 在多种任务和能力上达到了最先进的性能,包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM 2 还展示了强大的多语言能力,能够处理数百种语言,并在不同语言之间进行翻译和解释。PaLM 2 还考虑了负责任的使用问题,包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等 | PaLM 2 Technical Report |
DB-GPT | 于 vicuna-13b 和 FastChat 的开源实验项目,采用了 langchain 和 llama-index 技术进行上下文学习和问答。项目完全本地化部署,保证数据的隐私安全,能直接连接到私有数据库处理私有数据。其功能包括 SQL 生成、SQL 诊断、数据库知识问答等 | github-DB-GPT |
Transformers 相关文献资源大列表 | 包含了各种各样的 Transformer 模型,例如 BERT、GPT、Transformer-XL 等,这些模型已经在许多自然语言处理任务中得到了广泛应用。此外,该列表还提供了这些模型的相关论文和代码链接,为自然语言处理领域的研究人员和开发者提供了很好的参考资源 | github |
GPT-4 终极指南 | 一份关于如何使用 GPT3 和 GPT4 的指南,其中包括 100 多个资源,可以帮助学习如何用它来提高生活效率。包括如何学习 ChatGPT 基础知识、如何学习 ChatGPT 高级知识、如何在语言学习中使用 GPT-3、如何在教学中使用 GPT-3、如何使用 GPT-4 等,还提供了如何升级到 ChatGPT+ 计划以使用 GPT-4 以及如何免费使用 GPT-4 的方法等内容。同时,还提供了如何在业务、生产力、受益、金钱等方面使用 ChatGPT 的指南 | link |
基于 LoRA 的 LLM 参数高效微调 | link | |
复杂推理:大语言模型的北极星能力 | 在 GPT-4 发布博客中,作者写道:“在一次随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时,差异就会显现出来。”这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。在这篇文章中,我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。 | blog |
大型语言模型的涌现能力是否是海市蜃楼? | 大语言模型的涌现能力一直是被大家视作很神奇的现象,似乎是一种大力出奇迹,但这篇论文认为这可能只是一种错觉。 | paper |
大语言模型的概率总结 | 非常详尽的 LLM 科学解释和总结 | paper |
LLaMA 模型简史 | LLaMA 是 Meta 发布的语言模型,采用 Transformer 架构,有多个版本,最大为 65B 参数。与 GPT 类似,可用于进一步微调,适用于多种任务。与 GPT 不同的是,LLaMA 是开源的,可以在本地运行。现有的 LLaMA 模型包括:Alpaca、Vicuna、Koala、GPT4-x-Alpaca 和 WizardLM。每个模型都有不同的训练数据和性能表现 | blog |
大型语言模型的复杂推理 | 讨论了如何训练具有强大复杂推理能力的语言模型,并探讨了如何有效地提示模型以充分释放其潜力;针对语言模型和编程的训练相似性,提出了三阶段的训练:持续训练、监督微调和强化学习;介绍了评估大型语言模型推理能力的一套任务集合;讨论了如何进行提示工程,通过提供各种学习机会使模型获得更好的学习效果,最终实现智能化 | link |
大语言模型进化树 | paper | |
李宏毅:穷人如何低资源复刻自己的 ChatGPT | blog | |
训练 ChatGPT 的必备资源:语料、模型和代码库完全指南 | 资源链接论文地址 | |
GitHub 宝藏库,里面整理了 GPT 相关的各种开源项目 | github | |
ChatGPT 中文指南 | gitlab | |
探讨了 ChatGPT 在自然语言处理中的应用、优势、限制以及未来发展方向 | 强调了在使用该技术时的伦理道德考量和提示工程技术。 | paper |
大型语言模型相关文献资源列表 | github | |
大型语言模型文献综述 — 中文版 | github | |
ChatGPT 相关资源大列表 | github | |
Pre-Training to Learn in Context | paper | |
Langchain 架构图 | image | |
LLM 开发人员都应该知道的数字 | github | |
大语言模型如何构建强大的复杂推理能力 | blog | |
LLMs 九层妖塔 | 分享打怪 (ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all 等) 实战与经验 | github |
类 ChatGPT 的开源框架
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LLM-As-Chatbot | 这个项目把市面上有的 LLM 全部做成了 Chatbot,直接可以在 google colab 运行,不需要自己搭建,非常适用于想体验 LLM 的朋友们。我刚试了,真的超简单。有些 LLM 需要的显存比较多,所以最好是要有 colab pro 订阅。 | github |
OpenBuddy | 一款强大的开源多语言聊天机器人模型,目标是全球用户,重点是对话 AI 和流畅的多语言支持,包括英文、中文等多种语言。基于 Facebook 的 LLAMA 模型,进行了微调,包括扩展词汇表、增加常用字符和增强的 token embeddings。通过这些改进和多轮对话数据集,OpenBuddy 提供了一个强大的模型,能回答问题并在各种语言之间进行翻译任务。OpenBuddy 的使命是提供一个免费、开放且可离线使用的 AI 模型,该模型可以在用户的设备上运行,无论他们的语言或文化背景如何。目前,OpenBuddy-13B 的演示版本可以在 Discord 服务器上找到。其关键功能包括多语言对话 AI(包括中文、英文、日文、韩文、法文等)、增强的词汇表和对常见 CJK 字符的支持,以及两种模型版本:7B 和 13B | github-OpenBuddy |
Panda: 海外中文开源大语言模型 | 基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练,使用了接近 15M 条数据,并针对推理能力在中文 benchmark 上进行了评测 | github-PandaLM |
Dromedary:一个开源的自对齐语言模型,只需少量人工监督即可进行训练 | github-Dromedary | |
LaMini-LM 蒸馏的小型、高效的语言模型集合 | 从 ChatGPT 蒸馏的小型、高效的语言模型集合,在 2.58 M 指令大规模数据集上进行训练 | github |
LLaMA-Adapter V2 | 上海人工智能实验室 LLaMA-Adapter V2,仅注入 14M 参数,1 小时时间即可完成训练,对比较果确实很惊艳,且具有多模态功能(对图像进行解释和问答) | github |
HuggingChat | Hugging Face 推出第一个 ChatGPT 开源替代品:HuggingChat。基于 Open Assistant 大模型搭建,支持中文对话与编写代码,但暂不支持中文回复。应用已上线,无需代理,打开即可访问 | link |
Open-Chinese-LLaMA | 基于 LLaMA-7B 经过 中文数据集增量预训练 产生的 中文大语言模型基座 | github |
OpenLLaMA | LLaMA 模型的开源复现,在 RedPajama 数据集上训练,使用了与 LLaMA 相同的预处理步骤和超参数,模型结构,上下文长度,训练步骤,学习率调度和优化器。OpenLLaMA 的 PyTorch 和 Jax 权重可以在 Huggingface Hub 上获得。OpenLLaMA 在各种任务中展现出与 LLaMA 和 GPT-J 相似的表现,部分任务表现优异 | github |
replit-code-v1-3b | BY-SA 4.0 授权发布,这意味着允许商业使用 | link |
MOSS | MOSS 是一个支持中英双语和多种插件的开源对话语言模型,moss-moon 系列模型具有 160 亿参数,在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行,在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 | github |
RedPajama | 1.2 万亿 tokens 数据集 | link |
chinese_llama_alpaca_lora 抽取框架 | github | |
Scaling Transformer to 1M tokens and beyond with RMT | 该论文提出一种名为 RMT 的新技术,或许可将 Transform 的 Token 上限扩展至 100 万,甚至更多。 | github |
Open Assistant | 包含大量 AI 生成的、人工标注的语料库和包括基于 LLaMA 和基于 Pythia 的多种模型可选。发布的数据集包括超过 161K 较高质量的,多达 35 种语言的人工助手型交互对话语料库 | data model |
ChatGLM Efficient Tuning | 基于 PEFT 的高效 ChatGLM 微调 | github |
Dolly 介绍 | news | |
Baize:一种对自聊天数据进行参数高效调优的开源聊天模型 | Baize 是一个开源的聊天模型,可以进行多轮对话。它是通过使用 ChatGPT 自我对话生成高质量的多轮聊天语料库,并使用参数高效调整来增强 LLaMA(一个开源的大型语言模型)而创建的。Baize 模型在具有最小潜在风险的情况下表现出良好的多轮对话性能。它可以在单个 GPU 上运行,使更广泛的研究人员可以使用它。Baize 模型和数据仅用于研究目的。 | 论文地址源码地址 |
GPTrillion— 未找到开源代码 | 包含 1.5 万亿(1.5T)参数的大模型 GPTrillion 开源了,号称是目前世界上最大的开源 LLM | google_doc |
Cerebras-GPT-13B(可商用) | hugging_face | |
Chinese-ChatLLaMA | 中文 ChatLLaMA 对话模型;预训练/指令微调数据集,基于 TencentPretrain 多模态预训练框架构建,支持简繁体中文、英文、日文等多语言 | github |
Lit-LLaMA | 基于 Apache 2.0 许可证完全开源的 LLaMA 独立实现,建立在 nanoGPT 之上,旨在解决原始 LLaMA 代码采用 GPL 许可证的限制,以实现更广泛的学术和商业应用 | github |
MosaicML | MPT-7B-StoryWriter,65K tokens,可以把《了不起的盖茨比》都一次性扔进去。 | huggingface |
Langchain | 大型语言模型(LLMs)正在成为一项具有变革性的技术,使开发者能够构建以前无法实现的应用程序。然而,仅仅使用这些独立的 LLMs 通常不足以创建一个真正强大的应用程序 - 真正的力量来自于能够将它们与其他计算或知识来源相结合。 | github |
Guidance | 引导能够比传统的提示或链接更有效地控制现代语言模型,并且更高效。引导程序允许您将生成、提示和逻辑控制交错到单一连续流中,与语言模型实际处理文本的方式相匹配。像 “Chain of Thought” 及其许多变体(例如 ART、Auto-CoT 等)这样的简单输出结构已被证明能改善语言模型的性能。更强大的语言模型(如 GPT-4)的出现使得更丰富的结构成为可能,而引导则使得构建这种结构变得更加容易和经济。 | github |
WizardLM | 赋予大型预训练语言模型遵循复杂指令的能力,使用完整进化指令(约 300k)训练的 WizardLM-7B 模型 | github |
LLM 的训练 _ 推理 _ 低资源 _ 高效训练
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
QLoRA—Guanaco | 一种高效的微调方法,可以在单个 48GB 的 GPU 上微调一个拥有 65B 参数的模型,同时保持完整的 16 位微调任务性能,并通过 QLoRA 将梯度反向传播通过一个冻结的、4 位量化的预训练语言模型到低秩适配器(LoRA) | github |
Chinese-Guanaco | 一个中文低资源的量化训练/部署方案 | github |
DeepSpeed Chat: 一键式 RLHF 训练 | github | |
LLMTune: 在消费级 GPU 上微调大型 65B+LLM | 可以在普通消费级 GPU 上进行 4 位微调,例如最大的 65B LLAMA 模型。LLMTune 还实现了 LoRA 算法和 GPTQ 算法来压缩和量化 LLM,并通过数据并行处理大型模型。此外,LLMTune 提供了命令行界面和 Python 库的使用方式 | github |
基于 ChatGLM-6B+LoRA 在指令数据集上进行微调 | 基于 deepspeed 支持多卡微调,速度相比单卡提升 8-9 倍具体设置可见 微调 3 基于 DeepSpeed 进行 Lora 微调 | github |
微软发布 RLHF 训练工具 DeepSpeed Chat | github | |
LlamaChat:Mac 上基于 LLaMa 的聊天机器人 | github | |
ChatGPT/GPT4 开源“平替”们 | github | |
训练大型机器学习模型的实用建议和技巧 | 帮助您训练大型模型(>1B 参数)、避免不稳定性、保存开始失败的实验而不从 0 重新开始 | link |
Instruction Tuning with GPT-4 | paper | |
xturing | 一个 Python 软件包,用于高效、快速、简单地微调 LLM 模型,支持 LLaMA、GPT-J、GPT-2 等多种模型,可使用单 GPU 和多 GPU 训练,使用 LoRA 等高效微调技术可将硬件成本降低高达 90%,并在短时间内完成模型训练 | github |
GPT4All | 一个允许在 Macbook 本地运行 GPT 的开源项目。基于 LLaMa-7B 大语言模型打造,包括数据、代码和 demo 都是开源的,对话风格偏向 AI 助理 | github |
用 Alpaca-LoRA 微调 ChatGPT 类模型 | link | |
LMFlow | 可扩展、方便有效的工具箱,用于微调大型机器学习模型 | github |
闻达:大型语言模型调用平台 | 目前支持 chatGLM-6B、chatRWKV、chatYuan 和 chatGLM-6B 模型下的 chatPDF(自建知识库查找)‘ | github |
Micro Agent | 小型自主智能体开源项目,由 LLM(OpenAI GPT-4) 提供动力,可以为你编写软件,只需设置一个“目的”,让它自己工作 | github |
Llama-X | 开源的学术研究项目,通过社区共同努力,逐步将 LLaMA 的性能提高到 SOTA LLM 水平,节省重复工作,共同创造更多、更快的增量 | github |
Chinese-LLaMA-Alpaca | 中文 LLaMA&Alpaca 大语言模型 + 本地部署 (Chinese LLaMA & Alpaca LLMs) - 开源了经过中文文本数据预训练的中文 LLaMA 大模型;开源了进一步经过指令精调的中文 Alpaca 大模型;快速地使用笔记本电脑(个人 PC)本地部署和体验量化版大模型 | github |
Efficient Alpaca | 基于 LLaMA 实现的开源项目,旨在通过微调 LLaMA-7B 模型在资源消耗更少、推理速度更快、更适合研究者使用方面提高 Stanford Alpaca 的性能 | github |
ChatGLM-6B-Slim | 裁减掉 20K 图片 Token 的 ChatGLM-6B,完全一样的性能,占用更小的显存 | github |
Chinese-Vicuna | 一个中文低资源的 llama+lora 方案 | github |
Alpaca-LoRA | 用 LoRA 在消费级硬件上复现斯坦福 Alpaca 的结果 | github |
LLM Accelerator | 让基础大模型更聪明的 LLM Accelerator 来了!基础大模型正在诸多应用中发挥着日益重要的作用。大多数大语言模型的训练都是采取自回归的方式进行生成,虽然自回归模型生成的文本质量有所保证,但却导致了高昂的推理成本和长时间的延迟。由于大模型的参数量巨大、推理成本高,因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题,微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator,在大模型典型的应用场景中可以取得两到三倍的加速。 | blog |
大语言模型(LLM)微调技术笔记 | github | |
PyLLMs | 简洁的 Python 库,用于连接各种 LLM(OpenAI、Anthropic、Google、AI21、Cohere、Aleph Alpha、HuggingfaceHub),内置模型性能基准。非常适合快速原型设计和评估不同模型,具有以下特点:通过少量代码连接顶级 LLM;响应元数据包括处理的 Token、成本和延迟,对各个模型进行标准化;支持多模型:同时从不同模型获取补全;LLM 基准:评估模型的质量、速度和成本 | github |
用混合精度加速大型语言模型 | 通过使用低精度浮点数运算,可以将训练和推断速度提升多达 3 倍,同时不影响模型准确性 | blog |
新的 LLM 训练方法 Federate | 杜克大学和微软一起发布了一个新的 LLM 训练方法 Federated GPT,这个训练方法是将原本中心化的训练方法分散到不同的边缘设备里面(edge device),然后训练完成后,再上传到中心去将各子模型合并。 | github |
提示工程
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
OpenBuprompt-engineering-note | 提示工程笔记 (课程总结)》介绍了面向开发者的 ChatGPT Prompt Engineering Learning Notes 课程,该课程提供了语言模型的工作原理和提示工程实践,并展示了如何将语言模型 API 应用于各种任务的应用程序中。课程包括总结、推断、转换、扩展和打造聊天机器人等方面的内容,并讲述了如何设计好的提示和构建自定义聊天机器人。 | github-OpenBuprompt |
提示工程指南 | link | |
AIGC 提示工程学习站 Learn Prompt | ChatGPT/Midjourney/Runway | link |
Prompts 精选 - ChatGPT 使用指南 | ChatGPT 使用指南,提升 ChatGPT 可玩性和可用性 | github |
非官方的 ChatGPT 资源聚合列表,旨在汇总使用 ChatGPT | 旨在汇总使用 ChatGPT 的应用、Web 应用、浏览器扩展、CLI 工具、机器人、集成、软件包、文章等资源 | github |
Snack Prompt:ChatGPT Prompt 提示分享社区 | link | |
ChatGPT 提问技巧 | 如何向 ChatGPT 提问以获得高质量答案:提示技巧工程完全指南 | github |
rompt-Engineering-Guide-Chinese - 提示工程师指南 | 源自英文版,但增加了 AIGC 的 prompt 部分 | github |
OpenPrompt | 一个开放的共享 Prompt 社区,大家一起推荐好用的 prompt | github |
GPT-Prompts | 教你如何用 GPT 生成 Prompts | github |
类 ChatGPT 的文档问答
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
privateGPT | 基于 GPT4All-J 的私有化部署文档问答平台,无需联网,能 100% 保证用户的隐私不泄露。提供了一个 API,用户可以使用自己的文档进行交互式问答和生成文本。此外,平台支持自定义训练数据和模型参数,以满足个性化需求 | github-privateGPT |
Auto-evaluator | 文档问答的自动评估 ;、 | github |
PDF GP | 一个基于 GPT 实现的开源 PDF 文档聊天方案,主要实现以下功能:跟 PDF 文档进行一对一对话;自动切割内容,并使用强大的深度平均网络编码器来生成嵌入;对 PDF 内容执行语义搜索,并将最相关的嵌入传递给 Open AI;自定义逻辑,生成更精确的响应信息,速度要比 OpenAI 的快。 | github |
Redis-LLM-Document-Chat | 用 LlamaIndex、Redis 和 OpenAI 与 PDF 文档进行交互,包含一个 Jupyter 笔记本,演示了如何使用 Redis 作为向量数据库来存储和检索文档向量,还展示了如何使用 LlamaIndex 在文档中执行语义搜索,以及如何利用 OpenAI 提供类似聊天机器人的体验 | github |
doc-chatbot | GPT-4 + Pinecone + LangChain + MongoDB 实现的文档聊天机器人,可多文件、多话题和多窗口聊天,聊天历史由 MongoDB 保存 | github |
document.ai | 基于向量数据库与 GPT3.5 的通用本地知识库方案 (A universal local knowledge base solution based on vector database and GPT3.5) | github |
DocsGPT | DocsGPT 是一种尖端的开源解决方案,可以简化在项目文档中查找信息的过程。通过集成强大的 GPT 模型,开发人员可以轻松地提出关于项目的问题并获得准确的答案。 | github |
ChatGPT Retrieval Plugin | ChatGPT 检索插件存储库提供了一种灵活的解决方案,可以使用自然语言查询对个人或组织文档进行语义搜索和检索。 | github |
LamaIndex | lamaIndex(GPT 索引)是您的 LLM 应用程序的数据框架。 | github |
chatWeb | ChatWeb 可以爬取任意网页或 PDF,DOCX,TXT 文件并提取正文,可以生成嵌入式概要,可以根据正文内容回答你的问题。 基于 gpt3.5 的 chatAPI 和 embeddingAPI,以及向量数据库实现。 | github |
类 ChatGPT 的行业应用
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
新闻报道进行情感分析 | 用 ChatGPT 通过对上市公司的新闻报道进行情感分析,在 15 个月时间内在股票市场 (交易期权) 产生了 500% 的回报(在历史数据中测试得出的结果)——探讨了 ChatGPT 在利用新闻标题的情感分析来预测股市回报方面的潜力。发现 ChatGPT 的情感分析能力超过了传统的方法,并且与股市回报呈正相关。提出 ChatGPT 在金融经济领域有很大的价值,并对未来的研究和应用提出了一些启示和建议 | paper |
编程语言生成模型 StarCoder | BigCode 是 ServiceNow Inc. 和 Hugging Face Inc. 合作成立的。StarCoder 有多个版本。核心版本 StarCoderBase 具有 155 亿个参数,支持 80 多种编程语言,8192 个 token 的上下文。视频为其 vscode 插件效果 | github |
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages | code generation | paper |
MedicalGPT-zh:中文医疗通用语言模型 | 中文医疗通用语言模型,基于 28 个科室的医疗共识与临床指南文本,提高模型的医疗领域知识与对话能力 | github |
MagicSlides | 不少人梦寐以求的 AI 自作 PPT,免费版每月能做 3 个 PPT,支持 2500 字输入 | link |
SalesGPT | 使用 LLM 实现上下文感知的销售助手,可自动化销售拓展代表的活动,如外呼销售电话 | github |
华驼 (HuaTuo): 基于中文医学知识的 LLaMA 微调模型 | github | |
ai-code-translator | 帮助你把代码从一种语言翻译成另一种语言,这事对 ChatGPT 来说简直太擅长了,尤其是 GPT-4,翻译质量相当高,而且 tokens 长度也可以更长。 | github |
ChatGenTitle | 使用百万 arXiv 论文信息在 LLaMA 模型上进行微调的论文题目生成模型 | github |
Regex.ai | 一款所见即所得的,基于 AI 的正则表达式自动生成工具,只需要选择出数据,它就能帮你写正则表达式,并提供多种提取数据的方式 | video |
ChatDoctor | 一个基于医学领域知识微调 LLaMA 的医学聊天模型,其中医学数据包含大约 700 种疾病的数据、以及大约 5000 段医生和病人的对话记录 | paper |
CodeGPT | 提高编程能力的关键在于数据。CodeGPT 是通过 GPT 生成的用于 GPT 的代码对话数据集。现在公开了 32K 条中文数据,让模型更擅长编程 | github |
LaWGPT | 一系列基于中文法律知识的开源大语言模型 | github |
LangChain-ChatGLM-Webui | 受 langchain-ChatGLM 启发, 利用 LangChain 和 ChatGLM-6B 系列模型制作的 Webui, 提供基于本地知识的大模型应用.目前支持上传 txt、docx、md、pdf 等文本格式文件, 提供包括 ChatGLM-6B 系列、Belle 系列等模型文件以及 GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh 等 Embedding 模型. | github |
类 ChatGPT 的课程资料
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Databricks | (Dolly 模型的作者)在 edX 发布了两个免费课程程,其中第二个是关于 LLM 是如何构建的。 | link |
大语言模型技术分享系列 | 东北大学自然语言处理实验室 | video |
GPT-4 是如何工作的?如何利用 GPT-4 打造智能程序? | 哈佛大学 CS50 公开课 | video |
提示工程最佳实践:Andrew Ng 提示工程新课摘要 +LangChain 经验总结 | medium_blog | |
微调 LLM 模型 | 如果你对微调 LLM 模型感兴趣,一定要关注这个油管博主,他把几乎世面上所有的 LLM 模型都公开了微调的方法。 | 油管博主 Sam Witteveen |
Transformer 的架构解读 | 通俗易懂的介绍 | youtube1youtube2 youtube3 |
Transformer multi head 机制的视频 | 如果想要真正理解整个 Transform 的每一个细节,包括里面的数学原理,可以看一下这个视频,真的是剖析地非常详细 | youtube |
Introduction to Large Language Models | 大语言模型介绍 | 介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及 Google 的 Gen AI 开发工具。 |
LLM 的安全问题
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LLM 模型安全研究 | link | |
Chatbot Injections & Exploit | 收集了一些 Chatbot 注入和漏洞的例子,以帮助人们了解 Chatbot 的潜在漏洞和脆弱性。注入和攻击的方式包括命令注入、字符编码、社交工程、表情符号、Unicode 等。仓库提供了一些示例,其中一些包括可用于攻击 Chatbot 的表情符号列表 | github |
GPTSecurity | 一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于 GPT/AIGC/LLM 最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。 | github |
多模态 LLM
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
DeepFloyd IF | 高度逼真且具有语言理解能力的最新开源文本到图像模型,由一个冻结文本编码器和三个连续的像素扩散模块组成,是一个高效的模型,性超越了当前最先进的模型,在 COCO 数据集上实现了零样本的 FID 得分为 6.66 | github |
Multi-modal GPT | 用多模态 GPT 训练一个能同时接收视觉和语言指令的聊天机器人。基于 OpenFlamingo 多模态模型,使用各种开放数据集创建各种视觉指导数据,联合训练视觉和语言指导,有效提高模型性能 | github |
AudioGPT | Understanding and Generating Speech, Music, Sound, and Talking Head’ by AIGC-Audio | github |
text2image-prompt-generator | 基于 GPT-2 用 25 万条 Midjourney 的 promps 训练出来的小模型,可以生成高质量的 Midjourney prompt | link data |
汇总 6 个 Midjourney 以外的免费以文生图服务: | Bing Image Creator Playground AI DreamStudio Pixlr Leonardo AI Craiyon | |
BARK | 一个非常强大的 TTS(文字转语音)项目,这个项目的特点是,它可以在文字中加入提示词,比如“大笑”。这个提示词会变成笑的声音,然后合成到语音里去。它也可以混合“男声”,“女声”,这样再做就可以不用再做拼接操作了 | github |
whisper | 在语音转文字(STT,也称 ASR)方面,whisper 是我用过的最好的,最快的库。没想到,这么快的模型,还能 70x 的优化空间。我准备部署这个模型,并开放给大家使用,可以用来转录大的语音文件,和进行翻译。这个模型是多语言的,而且能自动识别是什么语言,真的非常强大 | github |
OFA-Chinese:中文多模态统一预训练模型 | transformers 结构的中文 OFA 模型 | github |
文生图开源模型试炼场 | 可根据输入文字同时用 stable-diffusion 1.5、stable-diffusion 2.1、DALL-E、kandinsky-2 等模型生成图像,方便测试比较 | link |
LLMScore | LLMScore 是一种全新的框架,能够提供具有多粒度组合性的评估分数。它使用大语言模型(LLM)来评估文本到图像生成模型。首先,将图像转化为图像级别和对象级别的视觉描述,然后将评估指令输入到 LLM 中,以衡量合成图像与文本的对齐程度,并最终生成一个评分和解释。我们的大量分析显示,LLMScore 在众多数据集上与人类判断的相关性最高,明显优于常用的文本 - 图像匹配度量指标 CLIP 和 BLIP。 | papergithub |
VisualGLM-6B | VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。 | github |
LLM 的数据集
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
歧义数据集 | 能否正确的消除歧义是衡量大语言模型的一个重要指标。不过一直没有一个标准化的衡量方法,这篇论文提出了一个包含 1,645 个具有不同种类歧义的数据集及对应的评估方法。 | github paper |
thu 指令训练数据 | 设计了一套流程来自动产生多样化高质量的多轮指令对话数据 UltraChat,并进行了细致的人工后处理。现已将英文数据全部开源,共计 150 余万条,是开源社区数量最多的高质量指令数据之一 | github |
多模态数据集 MMC4 | 5.8 亿图片,1 亿文档,400 亿 token | github |
EleutherAI 数据 | 800g 的文本语料给你整合好了免费下载,不知道 trian 出来的 model 质量如何,打算试试: | pile data paper |
UltraChat | 大规模、信息丰富、多样化的多轮对话数据 | github |
ConvFinQA 金融数据问答 | github | |
The botbots dataset | 一个包含对话内容的数据集,对话内容来自于两个 ChatGPT 实例 (gpt-3.5-turbo),CLT 命令和对话提示来自 GPT-4,覆盖多种情境和任务,生成成本约为 35 美元,可用于研究和训练更小的对话模型 (如 Alpaca) | github |
alpaca_chinese_dataset - 人工精调的中文对话数据集 | github | |
CodeGPT-data | 提高编程能力的关键在于数据。CodeGPT 是通过 GPT 生成的用于 GPT 的代码对话数据集。现在公开了 32K 条中文数据,让模型更擅长编程 | github |
语料库
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
人名语料库 | wainshine/Chinese-Names-Corpus | |
Chinese-Word-Vectors | 各种中文词向量 | github repo |
中文聊天语料 | 该库搜集了包含豆瓣多轮, PTT 八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 | link |
中文谣言数据 | 该数据文件中,每一行为一条 json 格式的谣言数据 | github |
中文问答数据集 | 链接 提取码 2dva | |
微信公众号语料 | 3G 语料,包含部分网络抓取的微信公众号的文章,已经去除 HTML,只包含了纯文本。每行一篇,是 JSON 格式,name 是微信公众号名字,account 是微信公众号 ID,title 是题目,content 是正文 | github |
中文自然语言处理 语料、数据集 | github | |
任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以 Leaderboard 的形式给出了几个数据集上的 State-of-the-art 实验结果。 | github |
语音识别语料生成工具 | 从具有音频/字幕的在线视频创建自动语音识别 (ASR) 语料库 | github |
LitBankNLP 数据集 | 支持自然语言处理和计算人文学科任务的 100 部带标记英文小说语料 | github |
中文 ULMFiT | 情感分析 文本分类 语料及模型 | github |
省市区镇行政区划数据带拼音标注 | github | |
教育行业新闻 自动文摘 语料库 | github | |
中文自然语言处理数据集 | github | |
维基大规模平行文本语料 | 85 种语言、1620 种语言对、135M 对照句 | github |
古诗词库 | github repo 更全的古诗词库 | |
低内存加载维基百科数据 | 用新版 nlp 库加载 17GB+ 英文维基语料只占用 9MB 内存遍历速度 2-3 Gbit/s | github |
对联数据 | 700,000 couplets, 超过 70 万对对联 | github |
《配色辞典》数据集 | github | |
42GB 的 JD 客服对话数据 (CSDD) | github | |
70 万对联数据 | link | |
用户名黑名单列表 | github | |
依存句法分析语料 | 4 万句高质量标注数据 | Homepage |
人民日报语料处理工具集 | github | |
虚假新闻数据集 fake news corpus | github | |
诗歌质量评价/细粒度情感诗歌语料库 | github | |
中文自然语言处理相关的开放任务 | 数据集以及当前最佳结果 | github |
中文缩写数据集 | github | |
中文任务基准测评 | 代表性的数据集 - 基准 (预训练) 模型 - 语料库 -baseline- 工具包 - 排行榜 | github |
中文谣言数据库 | github | |
CLUEDatasetSearch | 中英文 NLP 数据集搜索所有中文 NLP 数据集,附常用英文 NLP 数据集 | github |
多文档摘要数据集 | github | |
让人人都变得“彬彬有礼”礼貌迁移任务 | 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含 139M + 实例的数据集 | paper and code |
粤语/英语会话双语语料库 | github | |
中文 NLP 数据集列表 | github | |
类人名/地名/组织机构名的命名体识别数据集 | github | |
中文语言理解测评基准 | 包括代表性的数据集&基准模型&语料库&排行榜 | github |
OpenCLaP 多领域开源中文预训练语言模型仓库 | 民事文书、刑事文书、百度百科 | github |
中文全词覆盖 BERT 及两份阅读理解数据 | DRCD 数据集:由中国台湾台达研究院发布,其形式与 SQuAD 相同,是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018 数据集: 哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与 SQuAD 相同。 | github |
Dakshina 数据集 | 十二种南亚语言的拉丁/本地文字平行数据集合 | github |
OPUS-100 | 以英文为中心的多语 (100 种) 平行语料 | github |
中文阅读理解数据集 | github | |
中文自然语言处理向量合集 | github | |
中文语言理解测评基准 | 包括代表性的数据集、基准 (预训练) 模型、语料库、排行榜 | github |
NLP 数据集/基准任务大列表 | github | |
LitBankNLP 数据集 | 支持自然语言处理和计算人文学科任务的 100 部带标记英文小说语料 | github |
70 万对联数据 | github | |
文言文(古文)- 现代文平行语料 | 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 | github |
COLDDateset,中文冒犯性语言检测数据集 | 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 | paper |
GAOKAO-bench:以中国高考题目作为数据集 | 以中国高考题目作为数据集,评估大语言模型的语言理解能力和逻辑推理能力的测评框架,包含 1781 道选择题、218 道填空题和 812 道解答题 | github |
zero to nlp - 中文 nlp 应用数据、模型、训练、推理 | github |
词库及词法工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
textfilter | 中英文敏感词过滤 | observerss/textfilter |
人名抽取功能 | 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文 →中文名字(李约翰)、成语词典 | cocoNLP |
中文缩写库 | 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国; 女网赛: 女子/n 网球/n 比赛/vn | github |
汉语拆字词典 | 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 | kfcd/chaizi |
词汇情感值 | 山泉水:0.400704566541 充沛: 0.37006739587 | rainarch/SentiBridge |
中文词库、停用词、敏感词 | dongxiexidian/Chinese | |
python-pinyin | 汉字转拼音 | mozillazg/python-pinyin |
zhtools | 中文繁简体互转 | skydark/nstools |
英文模拟中文发音引擎 | say wo i ni 说:我爱你 | tinyfool/ChineseWithEnglish |
chinese_dictionary | 同义词库、反义词库、否定词库 | guotong1988/chinese_dictionary |
wordninja | 无空格英文串分割、抽取单词 | wordninja |
汽车品牌、汽车零件相关词汇 | data | |
THU 整理的词库 | IT 词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 | link |
罪名法务名词及分类模型 | 包含 856 项罪名知识图谱, 基于 280 万罪名训练库的罪名预测,基于 20W 法务问答对的 13 类问题分类与法律资讯问答功能 | github |
分词语料库 + 代码 | 百度网盘链接 - 提取码 pea6 | |
基于 Bi-LSTM + CRF 的中文分词 + 词性标注 | keras 实现 | link |
基于 Universal Transformer + CRF 的中文分词和词性标注 | link | |
快速神经网络分词包 | java version | |
chinese-xinhua | 中华新华字典数据库及 api,包括常用歇后语、成语、词语和汉字 | github |
SpaCy 中文模型 | 包含 Parser, NER, 语法树等功能。有一些英文 package 使用 spacy 的英文模型的,如果要适配中文,可能需要使用 spacy 中文模型。 | github |
中文字符数据 | github | |
Synonyms 中文近义词工具包 | github | |
HarvestText | 领域自适应文本挖掘工具(新词发现 - 情感分析 - 实体链接等) | github |
word2word | 方便易用的多语言词 - 词对集 62 种语言/3,564 个多语言对 | github |
多音字词典数据及代码 | github | |
汉字、词语、成语查询接口 | github | |
103976 个英语单词库包 | (sql 版,csv 版,Excel 版) | github |
英文脏话大列表 | github | |
词语拼音数据 | github | |
186 种语言的数字叫法库 | github | |
世界各国大规模人名库 | github | |
汉字字符特征提取器 (featurizer) | 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 | github |
char_featurizer - 汉字字符特征提取工具 | github | |
中日韩分词库 mecab 的 Python 接口库 | github | |
g2pC 基于上下文的汉语读音自动标记模块 | github | |
ssc, Sound Shape Code | 音形码 - 基于“音形码”的中文字符串相似度计算方法 | version 1 version 2 blog/introduction |
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 | github | |
Tokenizer 快速、可定制的文本词条化库 | github | |
Tokenizers | 注重性能与多功能性的最先进分词器 | github |
通过同义词替换实现文本“变脸” | github | |
token2index 与 PyTorch/Tensorflow 兼容的强大轻量词条索引库 | github | |
繁简体转换 | github | |
粤语 NLP 工具 | github | |
领域词典库 | 涵盖 68 个领域、共计 916 万词的专业词典知识库 | github |
预训练语言模型&大模型
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
BMList | 大模型大列表 | github |
bert 论文中文翻译 | link | |
bert 原作者的 slides | link | |
文本分类实践 | github | |
bert tutorial 文本分类教程 | github | |
bert pytorch 实现 | github | |
bert pytorch 实现 | github | |
BERT 生成句向量,BERT 做文本分类、文本相似度计算 | github | |
bert、ELMO 的图解 | github | |
BERT Pre-trained models and downstream applications | github | |
语言/知识表示工具 BERT & ERNIE | github | |
Kashgari 中使用 gpt-2 语言模型 | github | |
Facebook LAMA | 用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析,提供 Transformer-XL/BERT/ELMo/GPT 预训练语言模型的统一访问接口 | github |
中文的 GPT2 训练代码 | github | |
XLMFacebook 的跨语言预训练语言模型 | github | |
海量中文预训练 ALBERT 模型 | github | |
Transformers 20 | 支持 TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型 (BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8 种架构/33 种预训练模型/102 种语言 | github |
8 篇论文梳理 BERT 相关模型进展与反思 | github | |
法文 RoBERTa 预训练语言模型 | 用 138GB 语料训练的法文 RoBERTa 预训练语言模型 | link |
中文预训练 ELECTREA 模型 | 基于对抗学习 pretrain Chinese Model | github |
albert-chinese-ner | 用预训练语言模型 ALBERT 做中文 NER | github |
开源预训练语言模型合集 | github | |
中文 ELECTRA 预训练模型 | github | |
用 Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta) 预测下一个词 (模型比较) | github | |
TensorFlow Hub | 40+ 种语言的新语言模型 (包括中文) | link |
UER | 基于不同语料、编码器、目标任务的中文预训练模型仓库(包括 BERT、GPT、ELMO 等) | github |
开源预训练语言模型合集 | github | |
多语言句向量包 | github | |
Language Model as a Service (LMaaS) | 语言模型即服务 | github |
开源语言模型 GPT-NeoX-20B | 200 亿参数,是目前最大的可公开访问的预训练通用自回归语言模型 | github |
中文科学文献数据集(CSL) | 包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多 NLP 任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。 | github |
大模型开发神器 | github |
抽取
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
时间抽取 | 已集成到 python package cocoNLP 中,欢迎试用 | java version python version |
神经网络关系抽取 pytorch | 暂不支持中文 | github |
基于 bert 的命名实体识别 pytorch | 暂不支持中文 | github |
关键词 (Keyphrase) 抽取包 pke | github | |
BLINK 最先进的实体链接库 | github | |
BERT/CRF 实现的命名实体识别 | github | |
支持批并行的 LatticeLSTM 中文命名实体识别 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于 python | github |
基于 TensorFlow 和 BERT 的管道式实体及关系抽取 | - Entity and Relation Extraction Based on TensorFlow and BERT 基于 TensorFlow 和 BERT 的管道式实体及关系抽取,2019 语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019 | github |
中文命名实体识别 NeuroNER vs BertNER | github | |
基于 BERT 的中文命名实体识别 | github | |
中文关键短语抽取工具 | github | |
bert | 用于中文命名实体识别 tensorflow 版本 | github |
bert-Kashgari | 基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型 | github |
cocoNLP | 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake 短语抽取算法。 | github |
Microsoft 多语言数字/单位/如日期时间识别包 | github | |
百度开源的基准信息抽取系统 | github | |
中文地址分词(地址元素识别与抽取),通过序列标注进行 NER | github | |
基于依存句法的开放域文本知识三元组抽取和知识库构建 | github | |
基于预训练模型的中文关键词抽取方法 | github | |
chinese_keyphrase_extractor (CKPE) | A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 | github |
简单的简历解析器,用来从简历中提取关键信息 | github | |
BERT-NER-Pytorch 三种不同模式的 BERT 中文 NER 实验 | github |
知识图谱
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
清华大学 XLORE 中英文跨语言百科知识图谱 | 百度、中文维基、英文维基 | link |
文档图谱自动生成 | github | |
基于医疗领域知识图谱的问答系统 | github 该 repo 参考了 github | |
中文人物关系知识图谱项目 | github | |
AmpliGraph 知识图谱表示学习 (Python) 库知识图谱概念链接预测 | github | |
中文知识图谱资料、数据及工具 | github | |
基于百度百科的中文知识图谱 | 抽取三元组信息,构建中文知识图谱 | github |
Zincbase 知识图谱构建工具包 | github | |
基于知识图谱的问答系统 | github | |
知识图谱深度学习相关资料整理 | github | |
东南大学《知识图谱》研究生课程 (资料) | github | |
知识图谱车音工作项目 | github | |
《海贼王》知识图谱 | github | |
132 个知识图谱的数据集 | 涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教 | link |
大规模、结构化、中英文双语的新冠知识图谱 (COKG-19) | link | |
基于依存句法与语义角色标注的事件三元组抽取 | github | |
抽象知识图谱 | 目前规模 50 万,支持名词性实体、状态性描述、事件性动作进行抽象 | github |
大规模中文知识图谱数据 14 亿实体 | github | |
Jiagu 自然语言处理工具 | 以 BiLSTM 等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 | github |
medical_NER - 中文医学知识图谱命名实体识别 | github | |
知识图谱相关学习资料/数据集/工具资源大列表 | github | |
LibKGE 面向可复现研究的知识图谱嵌入库 | github | |
基于 mongodb 存储的军事领域知识图谱问答项目 | 包括飞行器、太空装备等 8 大类,100 余小类,共计 5800 项的军事武器知识库,该项目不使用图数据库进行存储,通过 jieba 进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想 demo。 | github |
京东商品知识图谱 | github | |
基于远监督的中文关系抽取 | github | |
基于医药知识图谱的智能问答系统 | github | |
BLINK 最先进的实体链接库 | github | |
一个小型的证券知识图谱/知识库 | github | |
dstlr 非结构化文本可扩展知识图谱构建平台 | github | |
百度百科人物词条属性抽取 | 用基于 BERT 的微调和特征提取方法来进行知识图谱 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
DGL-KE 图嵌入表示学习算法 | github | |
因果关系图谱 | method data | |
基于多领域文本数据集的因果事件对 | link |
文本生成
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Texar | Toolkit for Text Generation and Beyond | github |
Ehud Reiter 教授的博客 | link 北大万小军教授强力推荐,该博客对 NLG 技术、评价与应用进行了深入的探讨与反思。 | |
文本生成相关资源大列表 | github | |
开放域对话生成及在微软小冰中的实践 | 自然语言生成让机器掌握自动创作的本领 | link |
文本生成控制 | github | |
自然语言生成相关资源大列表 | github | |
用 BLEURT 评价自然语言生成 | link | |
自动对联数据及机器人 | 代码 link 70万对联数据 | |
自动生成评论 | 用 Transformer 编解码模型实现的根据 Hacker News 文章标题生成评论 | github |
自然语言生成 SQL 语句(英文) | github | |
自然语言生成资源大全 | github | |
中文生成任务基准测评 | github | |
基于 GPT2 的特定主题文本生成/文本增广 | github | |
编码、标记和实现一种可控高效的文本生成方法 | github | |
TextFooler 针对文本分类/推理的对抗文本生成模块 | github | |
SimBERT | 基于 UniLM 思想、融检索与生成于一体的 BERT 模型 | github |
新词生成及造句 | 不存在的词用 GPT-2 变体从头生成新词及其定义、例句 | github |
由文本自动生成多项选择题 | github | |
合成数据生成基准 | github | |
文本摘要
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本摘要/关键词提取 | github | |
基于命名实体识别的简历自动摘要 | github | |
文本自动摘要库 TextTeaser | 仅支持英文 | github |
基于 BERT 等最新语言模型的抽取式摘要提取 | github | |
Python 利用深度学习进行文本摘要的综合指南 | link | |
(Colab) 抽象文本摘要实现集锦 (教程 | github |
智能问答
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文聊天机器人 | 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景 | github |
有趣的情趣 robot qingyun | qingyun 训练出来的中文聊天机器人 | github |
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据 | github | |
qa 对的机器人 | Amodel-for-Retrivalchatbot - 客服机器人,Chinese Retreival chatbot(中文检索式机器人) | git |
ConvLab 开源多域端到端对话系统平台 | github | |
基于最新版本 rasa 搭建的对话系统 | github | |
基于金融 - 司法领域 (兼有闲聊性质) 的聊天机器人 | github | |
端到端的封闭域对话系统 | github | |
MiningZhiDaoQACorpus | 580 万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过 580 万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘 | github |
用于中文闲聊的 GPT2 模型 GPT2-chitchat | github | |
基于检索聊天机器人多轮响应选择相关资源列表 (Leaderboards、Datasets、Papers) | github | |
微软对话机器人框架 | github | |
chatbot-list | 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍 | github |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含 110 万医学咨询,400 万条医患对话 | github |
大规模跨领域中文任务导向多轮对话数据集及模型 CrossWOZ | paper & data | |
开源对话式信息搜索平台 | github | |
情境互动多模态对话挑战 2020(DSTC9 2020) | github | |
用 Quora 问题对训练的 T5 问题意译 (Paraphrase) | github | |
Google 发布 Taskmaster-2 自然语言任务对话数据集 | github | |
Haystack 灵活、强大的可扩展问答 (QA) 框架 | github | |
端到端的封闭域对话系统 | github | |
Amazon 发布基于知识的人 - 人开放领域对话数据集 | github | |
基于百度 webqa 与 dureader 数据集训练的 Albert Large QA 模型 | github | |
CommonsenseQA 面向常识的英文 QA 挑战 | link | |
MedQuAD(英文) 医学问答数据集 | github | |
基于 Albert、Electra,用维基百科文本作为上下文的问答引擎 | github | |
基于 14W 歌曲知识库的问答尝试 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
文本纠错
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本纠错模块代码 | github | |
英文拼写检查库 | github | |
python 拼写检查库 | github | |
GitHub Typo Corpus 大规模 GitHub 多语言拼写错误/语法错误数据集 | github | |
BertPunc 基于 BERT 的最先进标点修复模型 | github | |
中文写作校对工具 | github | |
文本纠错文献列表 | Chinese Spell Checking (CSC) and Grammatical Error Correction (GEC) | github |
文本智能校对大赛冠军方案 | 已落地应用,来自苏州大学、达摩院团队 | link |
多模态
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文多模态数据集「悟空」 | 华为诺亚方舟实验室开源大型,包含 1 亿图文对 | github |
中文图文表征预训练模型 Chinese-CLIP | 中文版本 CLIP 预训练模型,开源多个模型规模,几行代码搞定中文图文表征提取 & 图文检索 | github |
语音处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
ASR 语音数据集 + 基于深度学习的中文语音识别系统 | github | |
清华大学 THCHS30 中文语音数据集 | data_thchs30tgz-OpenSLR国内镜像 data_thchs30tgz test-noisetgz-OpenSLR国内镜像test-noisetgz resourcetgz-OpenSLR国内镜像 resourcetgz Free ST Chinese Mandarin Corpus Free ST Chinese Mandarin Corpus AIShell-1 开源版数据集-OpenSLR国内镜像 AIShell-1 开源版数据集 Primewords Chinese Corpus Set 1-OpenSLR国内镜像 Primewords Chinese Corpus Set 1 | |
笑声检测器 | github | |
Common Voice 语音识别数据集新版 | 包括来自 42,000 名贡献者超过 1,400 小时的语音样本,涵 github | link |
speech-aligner | 从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具 | github |
ASR 语音大辞典/词典 | github | |
语音情感分析 | github | |
masr | 中文语音识别,提供预训练模型,高识别率 | github |
面向语音识别的中文文本规范化 | github | |
语音质量评价指标 (MOSNet, BSSEval, STOI, PESQ, SRMR) | github | |
面向语音识别的中文/英文发音辞典 | github | |
CoVoSTFacebook 发布的多语种语音 - 文本翻译语料库 | 包括 11 种语言 (法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文) 的语音、文字转录及英文译文 | github |
Parakeet 基于 PaddlePaddle 的文本 - 语音合成 | github | |
(Java) 准确的语音自然语言检测库 | github | |
CoVoSTFacebook 发布的多语种语音 - 文本翻译语料库 | github | |
TensorFlow 2 实现的文本语音合成 | github | |
Python 音频特征提取包 | github | |
ViSQOL 音频质量感知客观、完整参考指标,分音频、语音两种模式 | github | |
zhrtvc | 好用的中文语音克隆兼中文语音合成系统 | github |
aukit | 好用的语音处理工具箱,包含语音降噪、音频格式转换、特征频谱生成等模块 | github |
phkit | 好用的音素处理工具箱,包含中文音素、英文音素、文本转拼音、文本正则化等模块 | github |
zhvoice | 中文语音语料,语音更加清晰自然,包含 8 个开源数据集,3200 个说话人,900 小时语音,1300 万字 | github |
audio 面向语音行为检测 | 、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具 | github |
深度学习情感文本语音合成 | github | |
Python 音频数据增广库 | github | |
基于大规模音频数据集 Audioset 的音频增强 | github | |
语声迁移 | github |
文档处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LayoutLM-v3 文档理解模型 | github | |
PyLaia 面向手写文档分析的深度学习工具包 | github | |
单文档非监督的关键词抽取 | github | |
DocSearch 免费文档搜索引擎 | github | |
fdfgen | 能够自动创建 pdf 文档,并填写信息 | link |
pdfx | 自动抽取出引用参考文献,并下载对应的 pdf 文件 | link |
invoice2data | 发票 pdf 信息抽取 | invoice2data |
pdf 文档信息抽取 | github | |
PDFMiner | PDFMiner 能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个 PDF 转换器,可以将 PDF 文件转换成其他文本格式 (如 HTML)。还有一个可扩展的解析器 PDF,可以用于文本分析以外的其他用途。 | link |
PyPDF2 | PyPDF 2 是一个 python PDF 库,能够分割、合并、裁剪和转换 PDF 文件的页面。它还可以向 PDF 文件中添加自定义数据、查看选项和密码。它可以从 PDF 检索文本和元数据,还可以将整个文件合并在一起。 | link |
PyPDF2 | PyPDF 2 是一个 python PDF 库,能够分割、合并、裁剪和转换 PDF 文件的页面。它还可以向 PDF 文件中添加自定义数据、查看选项和密码。它可以从 PDF 检索文本和元数据,还可以将整个文件合并在一起。 | link |
ReportLab | ReportLab 能快速创建 PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的 PDF 文档和自定义矢量图形。它是免费的,开源的,用 Python 编写的。该软件包每月下载 5 万多次,是标准 Linux 发行版的一部分,嵌入到许多产品中,并被选中为 Wikipedia 的打印/导出功能提供动力。 | link |
SIMPdfPython 写的简单 PDF 文件文字编辑器 | github | |
pdf-diff | PDF 文件 diff 工具 可显示两个 pdf 文档的差别 | github |
表格处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
用 unet 实现对文档表格的自动检测,表格重建 | github | |
pdftabextract | 用于 OCR 识别后的表格信息解析,很强大 | link |
tabula-py | 直接将 pdf 中的表格信息转换为 pandas 的 dataframe,有 java 和 python 两种版本代码 | |
camelot | pdf 表格解析 | link |
pdfplumber | pdf 表格解析 | |
PubLayNet | 能够划分段落、识别表格、图片 | link |
从论文中提取表格数据 | github | |
用 BERT 在表格中寻找答案 | github | |
表格问答的系列文章 | 简介 模型 完结篇 | |
使用 GAN 生成表格数据(仅支持英文) | github | |
carefree-learn(PyTorch) | 表格数据集自动化机器学习 (AutoML) 包 | github |
封闭域微调表格检测 | github | |
PDF 表格数据提取工具 | github | |
TaBERT 理解表格数据查询的新模型 | paper | |
表格处理 | Awesome-Table-Recognition | github |
文本匹配
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
句子、QA 相似度匹配 MatchZoo | 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 | github |
中文问题句子相似度计算比赛及方案汇总 | github | |
similarity 相似度计算工具包 | java 编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算 | github |
中文词语相似度计算方法 | 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。 | gihtub |
Python 字符串相似性算法库 | github | |
基于 Siamese bilstm 模型的相似句子判定模型,提供训练数据集和测试数据集 | 提供了 10 万个训练样本 | github |
文本数据增强
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文 NLP 数据增强(EDA)工具 | github | |
英文 NLP 数据增强工具 | github | |
一键中文数据增强工具 | github | |
数据增强在机器翻译及其他 nlp 任务中的应用及效果 | link | |
NLP 数据增广资源集 | github |
常用正则表达式
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
抽取 email 的正则表达式 | 已集成到 python package cocoNLP 中,欢迎试用 | |
抽取 phone_number | 已集成到 python package cocoNLP 中,欢迎试用 | |
抽取身份证号的正则表达式 | IDCards_pattern = r’^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX]) IDs = re.findall(IDCards_pattern, text, flags=0) | |
IP 地址正则表达式 | (25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d) | |
腾讯 QQ 号正则表达式 | 1-9 | |
国内固话号码正则表达式 | [0-9-()()]{7,18} | |
用户名正则表达式 | [A-Za-z0-9_-\u4e00-\u9fa5]+ | |
国内电话号码正则匹配(三大运营商 + 虚拟等) | github | |
正则表达式教程 | github |
文本检索
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
高效模糊搜索工具 | github | |
面向各语种/任务的 BERT 模型大列表/搜索引擎 | link | |
Deepmatch 针对推荐、广告和搜索的深度匹配模型库 | github | |
wwsearch 是企业微信后台自研的全文检索引擎 | github | |
aili - the fastest in-memory index in the East 东半球最快并发索引 | github | |
高效的字符串匹配工具 RapidFuzz | a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy | github |
阅读理解
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
高效模糊搜索工具 | github | |
面向各语种/任务的 BERT 模型大列表/搜索引擎 | link | |
Deepmatch 针对推荐、广告和搜索的深度匹配模型库 | github | |
allennlp 阅读理解支持多种数据和模 | github |
情感分析
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
方面情感分析包 | github | |
awesome-nlp-sentiment-analysis | 情感分析、情绪原因识别、评价对象和评价词抽取 | github |
情感分析技术让智能客服更懂人类情感 | github |
事件抽取
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文事件抽取 | github | |
NLP 事件提取文献资源列表 | github | |
PyTorch 实现的 BERT 事件抽取 (ACE 2005 corpus) | github | |
新闻事件线索抽取 | github |
机器翻译
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
无道词典 | 有道词典的命令行版本,支持英汉互查和在线查询 | github |
NLLB | 支持 200+ 种语言任意互译的语言模型 NLLB | link |
Easy-Translate | 在本地翻译大文本文件的脚本,基于 Facebook/Meta AI 的 M2M100 模型和 NLLB200 模型,支持 200+ 种语言 | github |
数字转换
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
最好的汉字数字 (中文数字)- 阿拉伯数字转换工具 | github | |
快速转化「中文数字」和「阿拉伯数字」 | github | |
将自然语言数字串解析转换为整数和浮点数 | github |
指代消解
文本聚类
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
TextCluster 短文本聚类预处理模块 Short text cluster | github |
文本分类
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NeuralNLP-NeuralClassifier 腾讯开源深度学习文本分类工具 | github |
知识推理
可解释自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
文本机器学习模型最先进解释器库 | github |
文本攻击
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
TextAttack 自然语言处理模型对抗性攻击框架 | github | |
OpenBackdoor: 文本后门攻防工具包 | OpenBackdoor 基于 Python 和 PyTorch 开发,可用于复现、评估和开发文本后门攻防的相关算法 | github |
文本可视化
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Scattertext 文本可视化 (python) | github | |
whatlies 词向量交互可视化 | spacy工具 | |
PySS3 面向可解释 AI 的 SS3 文本分类器机器可视化工具 | github | |
用记事本渲染 3D 图像 | github | |
attnvisGPT2、BERT 等 transformer 语言模型注意力交互可视化 | github | |
Texthero 文本数据高效处理包 | 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 | github |
文本标注工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NLP 标注平台综述 | github | |
brat rapid annotation tool 序列标注工具 | link | |
Poplar 网页版自然语言标注工具 | github | |
LIDA 轻量交互式对话标注工具 | github | |
doccano 基于网页的开源协同多语言文本标注工具 | github | |
Datasaurai 在线数据标注工作流管理工具 | link |
语言检测
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
langid | 97 种语言检测 | https://github.com/saffsd/langid.py |
langdetect | 语言检测 | https://code.google.com/archive/p/language-detection/ |
综合工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
jieba | jieba | |
hanlp | hanlp | |
nlp4han | 中文自然语言处理工具集 (断句/分词/词性标注/组块/句法分析/语义分析/NER/N 元语法/HMM/代词消解/情感分析/拼写检 | github |
仇恨言论检测进展 | link | |
基于 Pytorch 的 Bert 应用 | 包括命名实体识别、情感分析、文本分类以及文本相似度等 | github |
nlp4han 中文自然语言处理工具集 | 断句/分词/词性标注/组块/句法分析/语义分析/NER/N 元语法/HMM/代词消解/情感分析/拼写检查 | github |
一些关于自然语言的基本模型 | github | |
用 BERT 进行序列标记和文本分类的模板代码 | github | |
jieba_fast 加速版的 jieba | github | |
StanfordNLP | 纯 Python 版自然语言处理包 | link |
Python 口语自然语言处理工具集 (英文) | github | |
PreNLP 自然语言预处理库 | github | |
nlp 相关的一些论文及代码 | 包括主题模型、词向量 (Word Embedding)、命名实体识别 (NER)、文本分类 (Text Classificatin)、文本生成 (Text Generation)、文本相似性 (Text Similarity) 计算等,涉及到各种与 nlp 相关的算法,基于 keras 和 tensorflow | github |
Python 文本挖掘/NLP 实战示例 | github | |
Forte 灵活强大的自然语言处理 pipeline 工具集 | github | |
stanza 斯坦福团队 NLP 工具 | 可处理六十多种语言 | github |
Fancy-NLP 用于建设商品画像的文本知识挖掘工具 | github | |
全面简便的中文 NLP 工具包 | github | |
工业界常用基于 DSSM 向量化召回 pipeline 复现 | github | |
Texthero 文本数据高效处理包 | 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 | github |
nlpgnn 图神经网络自然语言处理工具箱 | github | |
Macadam | 以 Tensorflow(Keras) 和 bert4keras 为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包 | github |
LineFlow 面向所有深度学习框架的 NLP 数据高效加载器 | github | |
Arabica:Python 文本数据探索性分析工具包 | github | |
Python 压力测试工具:SMSBoom | github |
有趣搞笑工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
汪峰歌词生成器 | phunterlau/wangfeng-rnn | |
女友 情感波动分析 | github | |
NLP 太难了系列 | github | |
变量命名神器 | github link | |
图片文字去除,可用于漫画翻译 | github | |
CoupletAI - 对联生成 | 基于 CNN+Bi-LSTM+Attention 的自动对对联系统 | github |
用神经网络符号推理求解复杂数学方程 | github | |
基于 14W 歌曲知识库的问答机器人 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
COPE - 格律诗编辑程序 | github | |
Paper2GUI | 一款面向普通人的 AI 桌面 APP 工具箱,免安装即开即用,已支持 18+AI 模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR 识别等领域 | github |
礼貌程度估算器(使用新浪微博数据训练) | github paper | |
草蟒(Python 中文版)入门指南 | 中文编程语言 | homepage gitee |
课程报告面试等
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
自然语言处理报告 | link | |
知识图谱报告 | link | |
数据挖掘报告 | link | |
自动驾驶报告 | link | |
机器翻译报告 | link | |
区块链报告 | link | |
机器人报告 | link | |
计算机图形学报告 | link | |
3D 打印报告 | link | |
人脸识别报告 | link | |
人工智能芯片报告 | link | |
cs224n 深度学习自然语言处理课程 | link 课程中模型的 pytorch 实现 link | |
面向深度学习研究人员的自然语言处理实例教程 | github | |
《Natural Language Processing》by Jacob Eisenstein | github | |
ML-NLP | 机器学习 (Machine Learning)、NLP 面试中常考到的知识点和代码实现 | github |
NLP 任务示例项目代码集 | github | |
2019 年 NLP 亮点回顾 | download | |
nlp-recipes 微软出品 — 自然语言处理最佳实践和范例 | github | |
面向深度学习研究人员的自然语言处理实例教程 | github | |
Transfer Learning in Natural Language Processing (NLP) | youtube | |
《机器学习系统》图书 | link github |
比赛
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NLPer-Arsenal | NLP 竞赛,含当前赛事信息、过往竞赛方案等,持续更新中 | github |
复盘所有 NLP 比赛的 TOP 方案 | github | |
2019 年百度的三元组抽取比赛,“科学空间队”源码 (第 7 名) | github |
金融自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
BDCI2019 金融负面信息判定 | github | |
开源的金融投资数据提取工具 | github | |
金融领域自然语言处理研究资源大列表 | github | |
基于金融 - 司法领域 (兼有闲聊性质) 的聊天机器人 | github | |
小型金融知识图谱构流程示范 | github |
医疗自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文医学 NLP 公开资源整理 | github | |
spaCy 医学文本挖掘与信息提取 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于 python | github |
基于医疗领域知识图谱的问答系统 | github 该 repo 参考了 github | |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含 110 万医学咨询,400 万条医患对话 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
法律自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Blackstone 面向非结构化法律文本的 spaCy pipeline 和 NLP 模型 | github | |
法务智能文献资源列表 | github | |
基于金融 - 司法领域 (兼有闲聊性质) 的聊天机器人 | github | |
罪名法务名词及分类模型 | 包含 856 项罪名知识图谱, 基于 280 万罪名训练库的罪名预测,基于 20W 法务问答对的 13 类问题分类与法律资讯问答功能 | github |
法律 NLP 相关资源大列表 | github |
文本生成图像
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Dalle-mini | 根据文本提示生成图片的迷你版 DALL·E | github |
其他
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
phone | 中国手机归属地查询 | ls0f/phone |
phone | 国际手机、电话归属地查询 | AfterShip/phone |
ngender | 根据名字判断性别 | observerss/ngender |
中文对比英文自然语言处理 NLP 的区别综述 | link | |
各大公司内部里大牛分享的技术文档 PDF 或者 PPT | github | |
comparxiv 用于比较 arXiv 上两提交版本差异的命令 | pypi | |
CHAMELEON 深度学习新闻推荐系统元架构 | github | |
简历自动筛选系统 | github | |
Python 实现的多种文本可读性评价指标 | github |