StableLM:稳定性 AI 语言模型

StableLM

“一只随机鹦鹉,平面设计,矢量艺术” ——Stable Diffusion XL

该存储库包含 Stability AI 正在进行的 StableLM 系列语言模型开发,并将不断更新新的检查点。以下提供了所有当前可用模型的概述。更多即将推出。

消息

2023 年 4 月 28 日

2023 年 4 月 20 日

  • 发布了初始的 StableLM-alpha 模型集,具有 3B 和 7B 参数。15B 和 30B 型号正在开发中。基本模型在CC BY-SA-4.0下发布。

  • StableLM-Tuned-Alpha-7B尝试在Hugging Face Spaces上与我们的 7B 模特聊天。

楷模

稳定的小羊驼

StableVicuna 是Vicuna-13B v0的 RLHF 微调,它本身是LLaMA-13B的微调。这是我们创建开源 RLHF LLM Chatbot 的尝试。该模型由 StabilityAI 的 CarperAI 团队开发,Duy V. Phung领导了培训工作。

由于 LLaMA 的原始非商业许可,我们只能将模型的权重作为原始模型权重的增量发布。StableVicuna 的增量权重在 ( CC BY-NC-SA-4.0 )下发布。

请访问 HuggingFace 检查点,了解有关如何将我们的增量权重与原始模型相结合的更多信息。

模型 下载 网络演示
StableVicuna-13B 检查站 拥抱的脸

稳定的LM-Alpha

StableLM-Alpha 模型在基于The Pile构建的新数据集上进行训练,该数据集包含 1.5 万亿个令牌,大约是 The Pile 大小的 3 倍。这些模型将接受多达 1.5 万亿个代币的训练。这些模型的上下文长度为 4096 个标记。

即将发布的技术报告将记录模型规格和训练设置。

作为概念验证,我们还使用Stanford Alpaca的程序对模型进行了微调,结合了五个最近的会话代理数据集:Stanford 的Alpaca、Nomic-AI 的gpt4all、RyokoAI 的ShareGPT52K数据集、Databricks 实验室的Dolly和人择的HH。我们将以 StableLM-Tuned-Alpha 的形式发布这些模型。

尺寸 稳定的 LM-Base-Alpha 稳定的 LM-Tuned-Alpha 培训代币 参数 网络演示
3B 检查站 检查站 800B 3,638,525,952
7B 检查站 检查站 800B 7,869,358,080 拥抱的脸
15B (进行中) (待办的)
30B (进行中) (待办的)
65B (进行中) (待办的)
175B (计划)

快速开始

所有 StableLM 模型都托管在Hugging Face hub上。查看此笔记本以使用有限的 GPU 功能运行推理。

StableLM-Tuned-Alpha使用以下代码片段开始聊天:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList

tokenizer = AutoTokenizer.from_pretrained("stabilityai/stablelm-tuned-alpha-7b")
model = AutoModelForCausalLM.from_pretrained("stabilityai/stablelm-tuned-alpha-7b")
model.half().cuda()

class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        stop_ids = set([50278, 50279, 50277, 1, 0])
        return input_ids[0][-1] in stop_ids

system_prompt = """<|SYSTEM|># StableLM Tuned (Alpha version)
- StableLM is a helpful and harmless open-source AI language model developed by StabilityAI.
- StableLM is excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- StableLM is more than just an information source, StableLM is also able to write poetry, short stories, and make jokes.
- StableLM will refuse to participate in anything that could harm a human.
"""

prompt = f"{system_prompt}<|USER|>What's your mood today?<|ASSISTANT|>"

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
tokens = model.generate(
  **inputs,
  max_new_tokens=64,
  temperature=0.7,
  do_sample=True,
  stopping_criteria=StoppingCriteriaList([StopOnTokens()])
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))

StableLM Tuned 应与格式化为的提示一起使用<|SYSTEM|>...<|USER|>...<|ASSISTANT|>... 系统提示为

<|SYSTEM|># StableLM Tuned (Alpha version)
- StableLM is a helpful and harmless open-source AI language model developed by StabilityAI.
- StableLM is excited to be able to help the user, but will refuse to do anything that could be considered harmful to the user.
- StableLM is more than just an information source, StableLM is also able to write poetry, short stories, and make jokes.
- StableLM will refuse to participate in anything that could harm a human.

StableLM-Tuned-Alpha 的乐趣

本节包含一系列精选的有趣示例,说明您可以使用stablelm-tuned-alpha.

闲聊
正式写作
创意写作
编写代码

StableLM-Tuned-Alpha 的选定故障模式

本节包含 . 的选定故障模式的集合stablelm-tuned-alpha

Yann LeCun 齿轮(线性)
Yann LeCun 齿轮(圆形)

请求帮助

想参与吗?

潜在问题

对于没有额外微调和强化学习的任何预训练大型语言模型来说,这是典型的,用户得到的响应可能质量参差不齐,并且可能包含冒犯性的语言和观点。预计这将随着规模、更好的数据、社区反馈和优化而得到改善。

致谢

执照

  • 基本模型检查点 ( StableLM-Base-Alpha) 已根据知识共享许可 ( CC BY-SA-4.0 ) 获得许可。根据许可,您必须注明Stability AI,提供许可链接,并指明是否进行了更改。您可以以任何合理的方式这样做,但不得以任何表明 Stability AI 认可您或您的使用的方式。

  • Fine-tuned checkpoints ( StableLM-Tuned-Alpha) 根据非商业知识共享许可 ( CC BY-NC-SA-4.0 ) 获得许可,符合Stanford Alpaca指定的原始非商业许可。

  • 此存储库中的所有代码均根据 Apache License 2.0 许可证获得许可。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧