事情的起因是因为我在群里看到了这张图。有人把我一年之前翻到的dzmm翻出来了,这个b东西经常因为各种奇奇怪怪的角色卡破圈。
有一说一,包括像dzmm或者风月ai,或者是其他杂七杂八的ai角色扮演和涩涩网站,我很难评。有很多甚至是直接拿社区免费开源的东西拿去赚钱,蛮恶心的。(特别是dzmm冲的还是美刀,赠送金玩玩就算了,充钱真的一点必要没有)
开源项目的商业化实际上无可厚非,大多数开源协议通常是允许商业使用的。这类平台大多数都是贩卖的自身的服务,面向的是没有技术能力的萌新。最典型的例子就是
Mirror酱
。符合相应内容的开源协议即可。
那么有没有一种免费的角色扮演,ai涩涩的平台呢?有的兄弟,这种方法我有九种(划掉)!
“SillyTavern(简称 ST)是一个本地安装的用户界面,允许您与文本生成 LLM、图像生成引擎和 TTS 语音模型进行交互”——sillytavern。
简单来讲就是个前端
GitHub页面看不懂没关系,我们来打个比方:
把美少女拐到酒馆就可以聊天,灌醉以后就可以涩涩。
在技术上对应的是“破限”(Jailbreaking)。这通常涉及通过特定的提示词(prompts)、角色设定或模型参数调整,绕过LLM的安全过滤器(Safeguards)和内容审查机制,使其生成通常被限制的敏感或不当内容。
运营环境的搭建B站有现成的视频教程,在此附上链接:
下方是补丁,错误并不来源于网络……
这视频谁做的,怎么yaml使用
记事本
编辑,没高亮、没明显缩进、非等宽字体要把人眼看瞎的……这里推荐一下Visual Studio Code:Download Visual Studio Code - Mac, Linux, Windows
简单说,vscode 是微软开发的一款 跨平台代码编辑器(新手不用纠结术语,记住 “编辑器 = 写代码的工具” 即可),核心特点可以总结为 3 个关键词:
免费且开源:不用花钱,所有人都能免费下载使用,代码公开透明(安全性有保障);
跨平台:无论你用 Windows、Mac 还是 Linux 电脑,都能安装使用,界面和功能完全一致;
轻量但能 “变强大”:启动快不卡顿;但能通过「插件」扩展功能,比如支持 Python、Java、前端(HTML/CSS/JS)等所有编程语言,还能实现代码自动补全、语法检查、运行调试、代码高亮等。
对比其他编程工具,vscode 对小白相当友好,主要原因有 4 点:
- 零门槛上手:界面简洁,没有复杂的设置,但是多了编程必备的功能;
- 支持大部分编程语言:不管你修改配置文件(JSON、YAML、TOML等)、学编程,甚至是写 Markdown 笔记,只要装个对应插件,vscode 都能搞定,不用为不同语言装不同工具;
- 功能 “按需添加”,不臃肿:依据本文小白只需要安装yaml拓展即可;后期需要更复杂的功能(比如修改代码、做项目管理),再慢慢加插件,不会像某些工具一打开就有几十个看不懂的按钮;
- 社区支持强,问题好解决:因为用的人太多,遇到任何问题(比如 “怎么运行 Python 代码”“插件装不上”),必应 / 小红书 / B 站搜一下,都能找到新手能看懂的教程。
如果你找的是魔法下方的系统代理地址,然后填入,或者是7897(clash)或者10808(v2ray)的端口,会报错(见常见报错)。个人推荐用tun模式。
类似错误1
类似错误2
出现类似的错误,建议重复一次第二步就可以了(这里指的是https://gitee.com/LimeOnTop/sill-tavern的文档步骤)。
API是什么?让我们继续打个比方:
客人通过服务员给后厨传话,然后给你做菜,这就是API工作的原理。并且,因为你每点一道菜(调用次数),就得收点菜钱(调用费用)。
一般来说这里还有一些api提供商是按次数来计费的来着
这里分免费API和付费API分类讨论,具体模型名字是什么意思我依旧放在最后讲。(如无特殊说明,下方的所有网站都需要魔法)。
方法:
谷歌ai studio对于ip的判断很严格,推荐使用干净一些的魔法,且不要使用中国香港节点的魔法。
(注,deepseekAPI官网是收费的,这里利用的是阿里的魔搭社区渠道)
方法:
1.从电脑端(手机打不开)打开https://modelscope.cn,并且注册账号。
硅基流动也能够使用的
(注,Claude的官方API依旧是收费的,并且还是美刀,这里利用的是一个利用网页cookie取巧的办法)
这个取决于具体社区,建议详细阅读规则,这是对你也是对公益站站长负责。
例如Linuxdo社区里大部分公益站,其实是不支持sillytavern或沉浸式翻译这种高并发的应用的,有封号的风险。
(注,公益站就是字面意思,不收任何钱,可能接受爱发电或账号赞助,任何打着公益站或半公益站旗号收费让你交钱的,都是号贩子!都是号贩子!都是号贩子!)
(而且,这种号贩子甚至懒得买账号去做号池,而是利用公益站的API去盗刷,极其可恶)(如上图)
并不是只有这三种模型是免费的,而是因为只有这三种模型是社区比较火的——也就意味着新人更容易入门,以及社区支持和角色卡更多。
例如一些你可能听都没听说过的名字,Mistral AI 的 La Plateforme(法国的,算是欧洲独苗了),他们就提供mistral-medium-2505(对中文的支持很差)的免费API。
(这里仅列出官网API充值渠道和最新模型价格,不做具体教程)
在使用付费API之前,我们还是拿饭店的例子去说明两个重要的概念——当你点菜给服务员(API)的时候,他是怎么知道还需要多少钱的?
可能有人就想到了,菜单上有价格嘛。但这个饭店可是什么都能做,我们不可能把所有的菜列成一个巨大的菜单,依次收费。
这时候就需要一个通用的标准,也就是token(类似游戏币)。
当我们把描述给服务员(API),服务员会先给厨房里的二厨(分词器),让他帮忙计算这句话的“含游戏币量”(输入token),随后转告给主厨。
主厨做好以后,你还需要支付给主厨一笔做菜的费用(输出token)。而我们最终吃到一道菜的价格,就取决于我们要求的多少,和主厨做菜的费用。
也就是(输入token+输出token)= 总价格。
(要求越多(输入token),价格越贵,就像你点一道家常小菜和红烧鱼眼清蒸鱼牙的区别)
一般来说,输出token的单价远大于输入token的单价。
知道了这个原理,就可以理解模型的收费标准了。
好的,这是补充了 Claude 3.5 Sonnet、Claude 3.5 Haiku、Claude 4.1 Opus 以及 Gemini 2.5 Pro 和 Flash 的信息:
API链接设置1
API链接设置2
API链接设置3
或者叫tun模式(魔法使用教程不在这里,演示页面为Clash V)。
原理:
打个比方——
实际上,第一个黄色方框里面的内容就是tun模式的工作原理。
它会在操作系统中创建一个虚拟网卡(或使用TUN设备)。所有原本应该直接发送到物理网卡的流量,都会被操作系统路由到这个虚拟网卡。虚拟网卡就像一个“阀门”,控制着数据的流向。
也就是水库内所有流过的水都会通过tun模式这个阀门。
配合上全局配置可以防止SillyTavern没挂上魔法,以至于出现下述报错。
报错1
报错2
插件导入1
插件导入2
十分甚至九分推荐进入社区,这里不仅有大量的角色卡,而且有足够的预设和大佬帮你解决问题。(下方大部分教程都是基于大佬开发的教程,如果不进入会麻烦很多)。
但在此之前你需要注册一个discord账号,如果没有的话请看下方账号注册的教程。
绝大多数插件,角色卡都必须要的前置。
文档和教程链接:https://n0vi028.github.io/JS-Slash-Runner-Doc/guide
(请保证你安装前,已安装酒馆助手)
原本这里想尝试用几样专门插件去写的(专门的RAG插件,专门的表格插件),但最终实践下来还是Amily2号最适合新人。
https://docs.google.com/document/u/0/d/11E7HIFg59up0afv-lV0cAF5G3jzJXCkZK8cBCOMZ9zo/mobilebasic#heading=h.xq53yl5o80i7 (Amily作者亲自编写的教程)
https://discord.com/channels/1291925535324110879/1406084681564160030 带轮询,宝宝辅食级别教程(统共三步安装,两步使用)。
转载文章因为内容审查的原因绕过了这一块,可以去查看原文内容:#宝宝辅食 - 幕布
如何在注册Google账号时跳过手机验证码这个步骤: https://b23.tv/79xTl6J (无效的话就按照指引注册吧……)
接码平台
闲鱼购买示例
https://sms-activate.io/ 这个是接码平台(但因为里面的号多少有点太“脏”了,所以不购买手机号接码注册,即使很便宜但100%注册失败)(图1)。
第二种就是闲鱼搜索“Gemini2.5pro学生验证”,会给你发一个pro的账号,附带一个谷歌账号(图2)。
如同NaOH一样,AI的命名也遵从某种准则。以最近很火的gemini 2.5 flash image preview为例,一个一个来拆分其命名准则:
即:谷歌的2.5代快速多模态模型预览版。 同理,Gemini 2.5 pro preview 0605意味着谷歌的第2.5代推理模型在5月6号发布的预览版。
我们前面把token比作游戏币,虽然很像,这其实是一个不严谨的说法(但如果看到游戏币的形容,依旧是指token)。这前面说到每个后厨里,除了真正炒菜的主厨(推理模型),还会有二厨存在一样,也就是分词器。二厨的工作就是把用户输入的文本切碎,就如同切菜一样分开,然后交给主厨处理。分开后的一些单个字,词,或短语(英文)被称为token。
我们会在大模型的价格页面上,偶尔会看到命中缓存和非命中缓存,这又是什么意思? 换个例子,假设你在图书馆里,我想要一本书的时候,会有两种情况:
当我们在调用API的时候,模型主要由以下几个参数限制:
(同样,你可以使用在美化教程内找到如何图片的输入输出方法,这里不做赘述)。
token额度是限额的。这个很好理解,毕竟模型公司不是做慈善的,依旧用先前的饭店例子。假设你有一张这家店的会员卡,那么:
同样,以谷歌的免费Gemini2.5pro为例子,它的输入方式为:图片/文本/音频/视频和PDF,输出方式为文本,也就是不支持生图。输入token最大为100万 token,输出token为65536 token。RAM为2,RPD为50,TPM为12.5万,RPM为300万。
(也就是说免费账户享受不了100万的输入token,而且只能玩50次)。
相关错误:429错误(Too Many Requests),即“过多请求”。会给你提示“RESOURCE_EXHAUSTED”这个报错。原因可能是上述四个限额你违反了一个,这时候就要切换其他API或者换个账号了。
在这里我得说一下有一些公益站提供的API,就是通过轮询超级多的apikey实现的,因为谷歌会给每个ai studio的apikey每天一定的额度,所以这样就能绕过限额了。(但这种方法很不稳定,而且很容易炸key
【10分钟,让你彻底理解Transformer-哔哩哔哩】https://b23.tv/3b89PXv (由于这部分内容实在和教程无关,相关内容请在B站自主搜寻)。
我们在上述的参数额度中讲过,对于最大输入token,模拟往往会有一定的参数标准(例如Gemini的最大输入token为100)。而这通常是一个硬指标,就连大模型公司也不能随意更改。
当然,没人能一次性输入一百万token,所以很大一部分,就被大模型自己“贪污”掉了。但请注意,这份贪污是必须的,因为大模型没有记忆力。但你可以看到它会根据你上一条消息继续回答。不是说大模型没有记忆吗?这又是为什么? 答:因为它会把你前文所有的问题,无论好坏一股脑的发送回去,直到达到最大输入token的上限(以Gemini为例,就是100万token)。
打个比方,AI的记忆就像是我们截长屏,图片会越来越长。又有时候,我们想去发送给好友自己截的长屏,但QQ往往会对长图片进行限制,甚至可能发送失败(429或超过最大输入token)。这时候,我们就必须删掉一部分图片。转换到AI里,便是AI直接“忘掉”了这一部分内容——这个忘掉遵从时间原则,先问的先删,后问的后删。
如果你理解了上述内容,恭喜你理解了AI短期记忆的机制——也就是将所有的上下文都发过去,超出的部分“忘掉”这其中,必然伴随着极其巨量的token消耗,所以必须对其进行优化。
为了让AI不止局限于那一百万的短期记忆中,同时也为了让token消耗的少一点,就必须让AI拥有自己的长期记忆——该怎样做?
依旧是截屏和QQ发消息的例子,我们可以发现长截屏就是比短截屏要糊,而且那么长一串谁看啊。而更可惜的是,长截屏里可能只有几个需要对方注意的地方。类比到AI里,就是AI分不清主次,以至于回答的风马牛不相及。解决办法也很简单,就是将长截屏的每个要点切成短截屏,标上先后顺序,存到相册里,再发给朋友。
类比回去,就理解了几个专业名词的意义:
这就是RAG,检索增强生成的全部原理。 视频版本:https://b23.tv/JOf2Zoq(来源于网络)。
额外资源1
额外资源2
这里原本其实写了有一大堆来着,但被我翻类脑的时候发现有教程总结了。为了防止造轮子的行为,这里直接附上discord的链接: https://discord.com/channels/1134557553011998840/1392379963239301221/1392379963239301221
文章转载自 #宝宝辅食 - 幕布 经由原作者 落尘
授权转载