侧边栏壁纸
博主头像
龍騰博客 博主等级

行动起来,活在当下

  • 累计撰写 153 篇文章
  • 累计创建 31 个标签
  • 累计收到 7 条评论

目 录CONTENT

文章目录

GLM-4-Voice实时语音对话机器人

管理员
2026-06-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

选择 USB 全向麦克风直连 SER8 是真正能把 GLM-4-Voice 端到端语音模型的“智商、语气、低延迟”发挥到极致的硬核路线。

既然你的底层系统是 fNOS(基于 Debian 12),我们的核心目标就是:让 fNOS 里的 Docker 容器,能够直接“看”到并控制插在 SER8 上的物理 USB 麦克风和音箱。

为了让你一次性成功,我们不走复杂的纯代码编译路线,直接使用目前社区最成熟的 Gradio Web-Audio / 纯本地硬件直通 双管齐下的标准步骤。

🏁准备工作:硬件连接与 fNOS 认卡

  1. 硬件物理连接:

    • 把你的 USB 全向麦克风(或麦克风扬声器一体机)插到 SER8 的后置或前置 USB 接口上。

    • 如果音箱和麦克风是分离的,确保音箱也插在 SER8 的 3.5mm 音频口或另一个 USB 口上。

  2. 确认 fNOS 已经识别到声卡:

    • 登录你 fNOS 的 Web 管理后台。

    • 只要是标准的免驱 USB 麦克风,fNOS 的底层 Linux(Debian 12 内核)会自动加载驱动,你可以暂时不用管它,接下来的 Docker 配置才是重头戏。

🏁 第一步:在 fNOS 文件管理器中准备模型

GLM-4-Voice-INT4 包含三个协同工作的组件(音频 Tokenizer、9B 主模型、流式音频解码器)。

  1. 打开 fNOS 的 “文件管理器”

  2. 在你的主存储空间(例如 Volume1/Docker)下,新建一个文件夹,命名为 glm4-voice

  3. glm4-voice 文件夹内部,再新建一个子文件夹,命名为 models

  4. 将你下载好的 glm-4-voice-9b-int4 完整模型权重文件夹,拷贝到这个 models 文件夹中。

🏁 第二步:在 fNOS 创建“特权级”Docker 容器

这一步非常关键!普通的 Docker 容器是没有权限访问 SER8 物理声卡的,我们必须在 fNOS 的高级设置里进行“物理设备直通”。

  1. 进入 fNOS 的 Docker 管理应用 $\rightarrow$ “镜像仓库”

  2. 搜索并下载社区最常用的集成镜像:singulariit/glm-4-voice(或带有 latest 标签的官方/社区 Gradio 版本)。

  3. 下载完成后,点击 “创建容器”,名称填 glm4-voice,勾选“开机自动启动”。

  4. 进入【高级设置】(核心修改点):

    • 网络模式: 切换为 host(主机模式),或者映射端口 7860:7860

    • 存储卷(挂载模型):

      • 添加一行:本地路径选择 /Volume1/Docker/glm4-voice/models $\rightarrow$ 映射到容器内路径填 /app/models

    • 设备直通(赋予声卡权限):

      • 在高级设置中寻找 “设备 (Devices)” 或者是 “添加设备” 选项。

      • 添加宿主机路径:/dev/snd $\rightarrow$ 容器内路径:/dev/snd

      • (注:/dev/snd 是整个 Linux 系统的音频核心设备树,直通它,容器就能随意使用 SER8 的输入输出声音)

    • 特权模式(强制放权):

      • 勾选 “以特权模式运行容器 (Privileged)”。如果不勾选这个,容器即使拿到了路径也会被安全策略拦截,导致无法录音。

  5. 点击 确定并启动容器

🏁 第三步:启动与对讲测试

  1. 启动容器后,观察容器的“日志(Logs)”。

  2. 当日志中出现 Running on local URL: [http://0.0.0.0:7860](http://0.0.0.0:7860) 时,说明智普语音大脑已经在你的 SER8 里完全苏醒了!

  3. 网页端实时对讲:

    • 在你书桌上的电脑浏览器里,输入 http://你的fNOS的IP:7860

    • 你会看到一个非常炫酷的语音交互界面。

    • ⚠️ 浏览器隐私避坑: 还记得我们之前提到的吗?由于浏览器安全限制,非 HTTPS 默认不能用麦克风。请在 Chrome 浏览器输入 chrome://flags/#unsafely-treat-insecure-origin-as-secure,把你 fNOS 的 IP 地址和 7860 端口 填进去并设置为 Enabled,重启浏览器。

  4. 点击网页上的 “开始录音/实时对讲” 按钮,对着你书桌上的全向麦克风说一句话(比如:“嘿,小管家,听到我说话了吗?”)。

  5. 稍等不到 1 秒钟,SER8 强大的 8845HS 算力就会让你的桌面音箱里直接传出带有呼吸感、情绪起伏的纯正中文语音回复!

👨‍💻 现在的通关任务交给你:

去 fNOS 建立文件夹、把模型放进去,并用“特权模式 + host网络 + 直通 /dev/snd”的方式把 glm4-voice 容器创建出来!

如果在直通设备或者拉取镜像时遇到任何界面选项对不上的地方,随时截图发给我,我们一步一步把它彻底调教好!

0

评论区