D1-领域AIGC
图像、音频、代码相关LLM洞察,包括以文生图、图像分割、视频等领域
# | Tags | Name | Company/Organization | Brief Introduction | Github WFS | HF Like | Contributors |
---|---|---|---|---|---|---|---|
1 | Stable Diffusion | Stability AI | Stable diffusion是一个基于Latent Diffusion Models(LDMs)的以文生图模型的实现,Latent Diffusion Models(LDMs)的论文是《High-Resolution Image Synthesis with Latent Diffusion Models》 | 501/8.7k/55.9k | 9.29k | 8 | |
2 | SDXL | Stability AI | 相对SD的特点:更擅长生成真实风格图片。该模型在图像生成功能方面取得了重大进步,提供了增强的图像合成和面部生成功能,从而产生令人惊叹的视觉效果和逼真的美感。 | - | 3.4k | - | |
3 | DALL E3 | openAI | ChatGPT 集成,还能生成更高质量的图像,更准确地反映提示内容。DALL・E 将文本 prompt 转换成图像。最新版本能更好地理解上下文,并且处理较长的 prompt 效果会更好。 | - | - | - | |
4 | Stable Diffusion web UI | Hugging Face | 一个链接gradio和Stable Diffusion模型的浏览器界面。通过自己下载,获得一个极其强大的模型,该模型能够模拟和重建几乎任何可以以视觉形式想象的概念。 | 917/21.7k/108k | - | 476 | |
5 | Segment Anything | Meta | 剪裁出图片中的目标 | - | - | - | |
6 | Audiocraft | Meta | AudioCraft是一个用于音频生成深度学习研究的PyTorch库,包含用于生成音频的两种最先进的AI生成模型的推理和训练代码:AudioGen和MusicGen,用于音频深度学习研究的PyTorch组件以及开发模型的训练管道 | 135/1.2k/13.6k | - | 22 | |
7 | FaceChain | 阿里 | FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身。支持在gradio的界面和脚本中使用模型训练和推理。 | 39/261/6.7k | - | 8 | |
8 | StableCode | Stability AI | StableCode-Instruct-Alpha-3B是一个仅包含 30 亿个参数的解码器指令调整代码模型,已在多种编程语言上进行了预训练,在 stackoverflow 开发人员调查中名列前茅。 | - | 273 | - | |
9 | CodeLlama | Meta | 支持多种编程语言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。Code Llama 稳定支持了最高 10 万 token 的上下文生成。参数量7B、13B、34B | 116/1k/10.9k | 170 | 11 | |
10 | whisper | openAI | Whisper是一种通用的语音识别模型,在包含各种音频的大型数据集上训练的,可以执行多语言语音识别、语音翻译和语言识别的多任务模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 | 422/5.5k/47.9k | 132 | 66 | |
11 | whisper-large-v3 | openAI | v3错误率减少了10%到20%,加入粤语,用Whisper收集的100万小时弱标记音频和400万小时伪标记音频进行训练,并且没有架构变化。 | 422/5.5k/47.9k | 288 | 66 | |
12 | QWen-Audio | openAI | Qwen的多模态版本,预训练的多任务音频理解模型,LLM初始化使用Qwen-7B,音频编码器初始化使用Whisper-large-v2,接受多种音频(人类语音、自然声音、音乐)和文本作为输入,输出文本。 | 16/10/249 | - | 2 | |
13 | LCM-LoRA | 清华大学交叉信息研究院 | LCM 将反向扩散过程视为增强概率流 ODE(PF-ODE)问题,可以将推理步骤的数量减少到仅2-8 个步骤,支持文本-图像,图像-图像。 | 55/94/2k | 96 | 12 | |
14 | Stable Video Diffusion | Stability AI | 是一种LDM模型,将静态图像作为条件帧,并从中生成视频。 | 47/344/3.6k | 133 | 12 | |
15 | SDXL-turbo | Stability AI | 在A100上,SDXL Turbo可在207毫秒内生成512x512图像(即时编码+单个去噪步骤+解码,fp16),其中单个UNet前向评估占用了67毫秒。 | - | 637 | - | |
16 | Kandinsky-3 | 俄罗斯研究团队 | 以文生图模型,使用了一个超大的text encoder,采用的是谷歌的Flan-UL2,autoencoder采用的是参数为270M的SBER-MoVQGAN,它是VQGAN的改进版本. | - | 47 | 7 | |
17 | pytorch-Segment Anything Fast | PyTorch团队 | pytorch团队重新Meta的Segment Anything,从而使代码比原始实现快8倍,并且没有损失准确率,所有这些都是使用原生PyTorch进行优化的。 | 14/45/891 | - | 5 | |
18 | Dreamoving | 阿里巴巴 | 一种基于扩散的可控视频生成框架,用于生成高质量的定制人类视频。 | 95/63/674 | - | - | |
19 | VideoPoet | 执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和修复,以及视频转音频。 | - | - | - |
D1-领域AIGC
图像、音频、代码相关AIGC模型工具、服务
# | Tags | Name | Company/Organization | Brief Introduction | Github WFS | HF Like | Contributors |
---|---|---|---|---|---|---|---|
1 | ComfyUI | ComfyUI | ComfyUI是一个开源的基于图形界面Workflow可视化引擎,用于Stable Diffusion,提供用户友好的图形界面,可将多个Stable Diffusion及其Hypernetwork组合成一个完整工作流,实现自动化的图像生成和优化。 | 184/1.5k/15.4k | - | 75 |
D1-开源LLM
开源LLM模型洞察,包括预训练LLM和微调LLM
# | Tag | Update Date | Name | Company/Organization | Brief Introduction | Param Level | Github WFS | HF Like | Contributors |
---|---|---|---|---|---|---|---|---|---|
1 | 2022/5/26 | Bloom | BigScience | BLOOM 是一种自回归大型语言模型,经过训练,可使用工业规模的计算资源根据大量文本数据的提示继续文本。因此,它能够以46种语言和13种编程语言输出连贯的文本,与人类编写的文本几乎没有区别。 | 176B | - | 4.1k | - | |
2 | 2023/2/24 | Llama | Stanford | Stanford Alpaca模型是根据 7B LLaMA 模型在 Self-Instruct论文中的技术生成的 52K 指令跟随数据上进行微调的。 | 7B | 278/3k/27.2k | - | 7 | |
3 | Alpaca | Stanford | Stanford Alpaca模型是根据 7B LLaMA 模型在 Self-Instruct论文中的技术生成的 52K 指令跟随数据上进行微调的。 | 7B | 278/3k/27.2k | - | 7 | ||
4 | Vicuna | 加州大学伯克利分校 | Vicuna-13B达到了OpenAI ChatGPT和Google Bard 90%以上质量,在90%以上的情况下超过了LLaMA和Stanford Alpaca等其他模型表现。 | 13B | 161 | - | |||
5 | ChatGLM | 清华 | ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于General Language Model(GLM) 架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署. | 6B | 358/4.8k/35.4k | 1.8k | 45 | ||
6 | Dolly | Databricks | Dolly 2.0 是一个 12B参数的语言模型,它基于开源 EleutherAI pythia 模型系列,根据 Databricks 员工众包的新的、高质量的人工生成指令跟随数据集进行了微调。 | 12B/3B | 108/779/10.6k | 1.89k | 13 | ||
7 | 2023/5/25 | Falcon | 阿联酋 | Falcon属于自回归解码器模型。它使用自定义工具构建,包含一个独特的数据管道,该管道从公开网络中提取训练数据。Falcon一共耗费两个月,在AWS的384个A100 40G GPU上训练而成 | 40B\7B\180B | - | 2.32k | - | |
8 | 2023/6/15 | Baichuan | 百川智能 | Baichuan-7B是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。 | 7B/13B | 66/537/5.4k | 793 | 7 | |
9 | 2023/6/22 | MPT | mosaicml | MPT-7B 是一种decoder-style transformer,在 1T 英语文本和代码标记上从头开始进行预训练。该模型由MosaicML训练。 | 7B | 1.09k | - | ||
10 | 2023/6/30 | OpenLlama | UC Berkeley | LLaMA模型的开源复现,在RedPajama数据集上训练,使用了与LLaMA相同的预处理步骤和超参数,模型结构,上下文长度,训练步骤,学习率调度和优化器。 | 7B/13B | 119/368/6.8k | 91 | 7 | |
11 | 2023/7/18 | Llama2 | Meta | 该架构与第一个 Llama 非常相似,在本文之后添加了Groupe Query Attention (GQA),相比于 Llama 1,Llama 2 的训练数据多了 40%,上下文长度也翻倍,并采用了分组查询注意力机制。 | 7B | 119/346/6.8k | 91 | 3 | |
12 | 2023/9/6 | Falcon-180B | 阿联酋 | Falcon属于自回归解码器模型。使用精选语料库增强的RefinedWeb的3,500Btoken上进行训练。将需要至少 400GB 内存才能使用 Falcon-180B 快速运行推理 | 40B\7B\180B | - | 896 | - | |
13 | 2023/9/20 | InternLM | 上海人工智能实验室 | InternLM-20B 在包含高质量英文、中文和代码数据的超过2.3T Token上进行了预训练。深度设置为60层,超越了使用 32 或 40 层的传统 7B 和 13B 型号。 | 20B | 35/285/3.6k | 63 | 40 | |
14 | Guanaco | CausalLM | 基于LLaMA 7B模型构建的高级指令跟踪语言模型。在Alpaca的初始52K数据集基础上新增534,530条,涵盖英语、中文、繁体中文各种语言和语法任务。丰富数据使guanaco在多语言环境中表现出色。 | 7B | 214 | - | |||
15 | phi-1_5 | Microsoft | phi-1.5在参数少于100亿的模型中表现出近乎最先进的性能,从训练中排除通用网络爬虫数据源,可防止直接暴露于潜在有害的在线内容,从而在无需RLHF的情况下增强模型的安全性. | 6B/34B | - | 1k | - | ||
16 | Mistral 7B | Mistral AI | 在所有基准测试中均优于 Llama 2 13B,接近 CodeLlama 7B 的代码性能,同时保持良好的英语任务表现;使用分组查询注意力 (GQA) 进行更快的推理;使用滑动窗口注意以较小的成本处理较长的序列 | 7B | - | 1.71k | - | ||
17 | Zephyr-7B | HuggingFace | 基于Mistral 7B进行微调的模型l;Zephyr-7B-β 是MT-Bench和AlpacaEval基准上排名最高的 7B 聊天模型 | 7B | - | 665 | - | ||
18 | 2023/10/13 | QWen | 阿里 | Qwen-7B是支持中、英等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型,已实现与人类认知对齐。 | 7B | 25/124/2k | 288 | 11 | |
19 | 2023/10/30 | SkyWork | 昆仑万维 | 模型在高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行预训练,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。 | 7B/13B | 14/52/716 | - | 4 | |
20 | 2023/11/5 | Yi | 01ai | 第一个公开版本包含两个双语(英语/中文)基础模型,两个模型都以 4K 序列长度进行训练,并且在推理期间可以扩展到 32K。 | 6B/34B | 49/116/2.4k | 578 | 6 | |
21 | phi-2 | Microsoft | Phi-2 是一个拥有27 亿个参数的 Transformer。它使用与Phi-1.5相同的数据源进行训练,并使用由各种 NLP 合成文本和过滤网站组成的新数据源进行了增强(出于安全性和教育价值)。 | 2.7B | - | 1.25k | - |
D1-LLM量化
LLM加速、量化部署、端侧部署
# | Tags | Name | Company/Organization | Brief Introduction | Github WFS | HF Like | Contributors |
---|---|---|---|---|---|---|---|
1 | GGML | ggml.ai | ggml是一个用于机器学习的张量库,可在商用硬件上启用大型模型和高性能,它被llama.cpp和 whisper.cpp使用。 | 100/711/7.6k | - | 83 | |
2 | llama.cpp | ggml.ai | 没有依赖项的普通 C/C++ 实现,目标是在 MacBook 上使用 4 位量化运行llama模型 | 268/3.4k/43.5k | - | 401 | |
3 | whisper.cpp | ggml.ai | OpenAI的Whisper自动语音识别(ASR)模型的高性能推理。支持平台:Mac 操作系统/(英特尔和 Arm)iOS /安卓/Linux/自由系统WebAssembly/Windows( MSVC和MinGW ]/树莓派 | 192/1.4k/24.7k | 324 | 178 | |
4 | lamma2.c | openAI/karpathy | 在 PyTorch 中训练一个 baby Llama2 模型,然后使用近 500 行纯 C、无任何依赖项的文件进行推理。并且,这个预训练模型能够在 M1 芯片的 MacBook Air上以fp32的浮点精度、18 tok/s的速度来生成故事。 | 33/134/12.8k | - | - | |
5 | fastllm | fastllm | fastllm是纯c++实现,无第三方依赖的高性能大模型推理库,支持glm, llama, moss基座,手机端流畅运行 | 21/159/2.4k | - | 26 | |
6 | ollama | ollama | ollama是一个开源项目,使开发者可以方便地在本地搭建和使用LLM。 | 130/994/18.7k | - | 76 | |
7 | PowerInfer | 上海交通大学 | 这是一种在配备单个消费级 GPU 的个人计算机 (PC) 上运行的高速大型语言模型 (LLM) 推理引擎。 | 130/994/18.7k | - | 76 |
D1-AGI通用人工智能
通用人工智能
# | Update Date | Name | Company/Organization | Brief Introduction | Github WFS | Contributors |
---|---|---|---|---|---|---|
1 | Auto-GPT | Significant Ggravitas | Auto-GPT可以不断的跟自己对话,然后找出最靠近目标的答案,只需为其提供一个AI名称、描述和五个目标,然后AutoGPT就可以自己完成项目。它可以读写文件、浏览网页、审查自己提示的结果,以及将其与所说的提示历史记录相结合。 | 1.5/36.1k/153k | 261 | |
2 | TaskMatrix | Microsoft | TaskMatrix连接 ChatGPT 和一系列 Visual Foundation 模型,以实现在聊天期间发送和接收图像。 | 316/3.4k/34.3k | 16 | |
3 | AgentGPT | Asim Shrestha | 自定义AI,让它开始任何你能想到的目标。它将试图通过思考要做的任务。 | 272/9k/27.5k | 19 | |
4 | babyagi | Yohei Nakajima | babyagi是一个智能任务管理和解决工具,它结合了OpenAI GPT-4和Pinecone向量搜索引擎的力量,以自动完成和管理一系列任务,从一个初始任务开始,babyagi使用GPT4生成解决方案和新任务,并将解决方案存储在Pinecone中以便进一步检索。 | 190/2.3k/17k | 38 | |
5 | Gemini | 从头开始构建的多模式,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。 | - | - |
D1-LLM训练
LLM分布式训练平台训练
# | Tags | Name | Company/Organization | Brief Introduction | Github WFS | Contributors |
---|---|---|---|---|---|---|
1 | DeepSpeed | Microsoft | DeepSpeed 是一款易于使用的深度学习优化软件套件,可为 DL 训练和推理提供前所未有的规模和速度。 | 253/2.5k/29.4k | 275 | |
2 | Colossal-AI | 潞晨科技 | 基于 PyTorch 的用于大规模并行训练的深度学习系统,提供了一系列的并行技术,张量并行、流水线并行、零冗余数据并行、异构计算等。 | 318/3.4k/35.2k | 158 | |
3 | Colab | 官方支持存储huggingface、Kaggle的Tokens,API Key,保密存储,仅自己可见 | - | - |
D1-LLM相关平台、工具链
LLM相关平台、工具链洞察,包括LLM API ,LLM 工具链
# | Tags | Name | Company/Organization | Brief Introduction | Github WFS | Contributors |
---|---|---|---|---|---|---|
1 | LangChain | LangChain-AI | LLMs接口框架,基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度 | 501/8.7k/55.9k | - | |
2 | TypeChat | Microsoft | TypeChat是使用AI在自然语言和应用程序和API之间建立桥梁,TypeChat replaces prompt engineering with schema engineering. | 66/313/7k | 20 | |
3 | text-generation-inference | huggingface | 用于文本生成推理的Rust、gRPC服务。在HuggingFace的生产中用于为 Hugging Chat、推理API和推理端点提供支持。通过简单的启动器提供最流行的大型语言模型,张量并行可在多个GPU上实现更快的推理,使用服务器发送事件 (SSE) 的令牌流。 | 87/618/5.8k | 63 | |
4 | FastChat | LMSYS | FastChat 是一个开放平台,用于训练、服务和评估基于大型语言模型的聊天机器人。 | 303/3.2k/28.9k | 186 | |
5 | OpenAssistant | LAION | Open Assistant 是一个旨在让每个人都能访问基于聊天的大型语言模型的项目。可以使用 Docker 设置运行Open-Assistant所需的整个堆栈 | 417/3.1k/35k | 312 | |
6 | Web-LLM | MLC.AI | 基于WebGPU,不需要服务器,直接部署LLM,主要流程是建立在 Apache TVM Unity 之上。 | 45/194/7.7k | 23 | |
7 | LLMLingua | microsoft | LLMLingua 利用紧凑、训练有素的语言模型(例如 GPT2-small、LLaMA-7B)来识别和删除提示中的非必要标记。这种方法可以利用LLM进行高效推理,以最小的性能损失实现高达20倍的压缩。 | 10/52/1.2k | 6 |
D1-LLM相关套件
LLM相关套件
# | Tags | Name | Company/Organization | Brief Introduction | Github WFS | Contributors |
---|---|---|---|---|---|---|
1 | Transformers | Hugging Face | Transformers 提供了数千个预训练模型来执行不同模式(例如文本、视觉和音频)的任务。Transformer 模型还可以组合执行多种模式的任务,例如表格问答、光学字符识别、从扫描文档中提取信息、视频分类和视觉问答。 | 1.1k/21.9k/115k | 2153 | |
2 | TRL - Transformer Reinforcement Learning | Hugging Face | trl是一个完整的堆栈库,提供了一组工具来通过强化学习训练 Transformer 语言模型,从监督微调步骤 (SFT)、奖励建模步骤 (RM) 到近端策略优化 (PPO) 步骤。 | 66/672/6.3k | 10 | |
3 | Lightning | Lightning-AI | 在 PyTorch 中以最小代码更改来高效扩展训练的一种方法是使用开源 Fabric 库,它可以看作是 PyTorch 的一个轻量级包装库 / 接口。通过 pip 安装。 | 237/3k/25.1k | 882 | |
4 | Prompt2Model | 卡内基梅隆 && 清华 | Prompt2Model被设计为一个自动化管道,从用户的Prompt中提取必要的任务信息,然后通过三个渠道(数据集检索、数据集生成、模型检索)自动收集和合成特定于任务的知识,最后实现模型评估与部署 | 21/136/1.6k | 14 |