如何解决 Hermes QQ 机器人掉线问题

Hermes Agent 在接入 QQ 机器人时,常因长时间无业务流量触发 QQ 网关的 idle 超时机制(错误码 4009),导致即使心跳正常也会断线。由于 QQ C2C 场景天然低频,偶发的重连失败易使 Bot 进入“假死”状态。为解决此问题,采用 Hermes 内置的 Watch Dog 服务进行自动化监控:通过 cron job 每 5 分钟检查 Gateway 日志,若发现断连且未成功重连,则自动重启 Gateway。正常运行则静默处理。该方案无需 LLM 参与,零 Token 消耗。

发布于2026年5月14日 14:29
编辑零重力瓦力
评论0
阅读189

用 Hermes Agent 差不多 2 个月了。 一直被一个问题困扰,在接 QQ 机器人的时候,如果一段时间没发消息,bot 就会悄悄掉线。

查了一下 gateway 日志,每隔约 30 分钟就会出现一条:

WebSocket closed: code=4009 reason=Session timed out

4009 是 QQ 官方 WebSocket 网关的会话超时错误码。虽然 Hermes 内置了自动重连机制(断线后 2 秒重连),但偶发的重连失败会让 bot 进入"假死" 状态,也就是进程在跑,消息却收不到。

问题出在哪?其实就在 QQ 的 WebSocket 协议设计。

QQ 官方要求客户端在收到 Hello 事件后定期发心跳包,默认间隔约 41 秒。Hermes 按 80% 间隔(约 33 秒)发送心跳,理论上没问题。但 QQ 服务端还有另一层逻辑:长时间没有业务流量的会话会被判定为 idle,直接踢掉。

也就是说,即使心跳正常,"没人聊天" 一样会被踢掉。

这跟 Telegram 或 Discord 的 bot 不一样。Telegram 用长轮询(long polling),Discord 用的是高活跃度的 WebSocket(大型服务器每秒几十条消息),idle 超时极少触发。QQ 的 C2C(私聊)场景天然低频,而问题就出现在这。

在咨询了 Hermes 后,它给出了一个不错的方案,就是给 QQ 机器人加一个 Watch Dog 服务:每 5 分钟检查一次 gateway 日志,判断 qqbot 的连接状态。正常就静默退出,断连就自动重启 gateway。

Watch Dog 脚本用 Hermes 的 cron job 跑,采用 no_agent 模式的纯脚本,不需要 LLM,零 Token 消耗。

关键判断逻辑:

  1. 检查 gateway 服务是否在运行
  2. 查看最近日志里断连事件是否在重连事件之后
  3. 检查最近 5 分钟内有没有 Session timed out 但没有成功重连的情况

跑了一天,效果不错。之前隔三差五就要手动重启,现在全自动化了。

对了,如果 Watch Dog 脚本触发重启,它会通过 QQ 给我发一条通知。正常情况下则什么都不发。

Watch Dog

#!/bin/bash
# QQBot Watchdog - Check qqbot connection, restart gateway if disconnected
# Runs every 5 minutes via Hermes cron (no_agent mode)
set -euo pipefail

LOGFILE="$HOME/.hermes/logs/qqbot-watchdog.log"
MAX_LOG_LINES=200

log() {
    echo "[(date′+*" >> "$LOGFILE"
}

# Rotate log if too large
if [ -f "$LOGFILE" ]; then
    lines=(wc−l<"LOGFILE")
    if [ "lines"−gt"MAX_LOG_LINES" ]; then
        tail -n "MAXL​OGL​INES""LOGFILE" > "LOGFILE.tmp" && mv "LOGFILE.tmp" "$LOGFILE"
    fi
fi

# Check if gateway service is running
if ! systemctl --user is-active --quiet hermes-gateway.service 2>/dev/null; then
    log "WARN: Gateway service not running, starting it"
    hermes gateway start 2>&1 >> "$LOGFILE"
    echo "⚠️ QQBot 看门狗:Gateway 服务未运行,已尝试重启"
    exit 0
fi

# Check qqbot connection from recent gateway logs
GATEWAY_LOG="$HOME/.hermes/logs/gateway.log"

if [ ! -f "$GATEWAY_LOG" ]; then
    log "ERROR: Gateway log not found at $GATEWAY_LOG"
    echo "⚠️ QQBot 看门狗:找不到 gateway 日志文件"
    exit 0
fi

# Get the last 50 lines of gateway log for analysis
RECENT=(tail−50"GATEWAY_LOG")

# Find the most recent connection state events
LAST_DISCONNECT=(echo"RECENT" | grep -n 'WebSocket closed\|WebSocket error\|Reconnect failed\|Still not connected\|Disconnected' | tail -1)
LAST_CONNECTED=(echo"RECENT" | grep -n 'Ready\|Reconnected\|qqbot connected' | tail -1)

# Extract line numbers for comparison
DISCONNECT_LINE=""
CONNECT_LINE=""

if [ -n "$LAST_DISCONNECT" ]; then
    DISCONNECT_LINE=(echo"LAST_DISCONNECT" | cut -d: -f1)
fi
if [ -n "$LAST_CONNECTED" ]; then
    CONNECT_LINE=(echo"LAST_CONNECTED" | cut -d: -f1)
fi

# If last disconnect happened AFTER last connect, qqbot is likely disconnected
if [ -n "$DISCONNECT_LINE" ]; then
    if [ -z "CONNECTL​INE"]∣∣["DISCONNECT_LINE" -gt "$CONNECT_LINE" ]; then
        log "WARN: QQBot appears disconnected. Last disconnect (line DISCONNECTL​INE)afterlastconnect(lineCONNECT_LINE). Restarting gateway."
        hermes gateway restart 2>&1 >> "$LOGFILE" || true
        # Give it a moment, then verify
        sleep 5
        if systemctl --user is-active --quiet hermes-gateway.service; then
            echo "🔄 QQBot 看门狗:检测到断连,已重启 gateway"
        else
            echo "❌ QQBot 看门狗:重启后 gateway 仍未运行,请手动检查"
        fi
        exit 0
    fi
fi

# Also check: has there been any heartbeat timeout in the last 5 minutes WITHOUT reconnect?
LAST_5MIN=$(date -d '5 minutes ago' '+%Y-%m-%d %H:%M' 2>/dev/null || date -v-5M '+%Y-%m-%d %H:%M')
RECENT_5MIN=(tail−200"GATEWAY_LOG" | awk -v ts="LAST5​MIN"′0 >= ts')

TIMEOUT_IN_5MIN=(echo"RECENT_5MIN" | grep -c 'Session timed out' 2>/dev/null || echo "0")
RECONNECT_IN_5MIN=(echo"RECENT_5MIN" | grep -c 'Reconnected\|Ready' 2>/dev/null || echo "0")

if [ "TIMEOUT_IN_5MIN" -gt 0 ] && [ "RECONNECT_IN_5MIN" -eq 0 ]; then
    log "WARN: Session timeout detected without successful reconnect in last 5min. Restarting gateway."
    hermes gateway restart 2>&1 >> "$LOGFILE" || true
    sleep 5
    echo "🔄 QQBot 看门狗:检测到超时未重连,已重启 gateway"
    exit 0
fi

# All good - quiet exit (no output = no notification)
log "OK: QQBot connected and healthy"
exit 0

相关文章

Superpowers 6.0 把 AI 编程评审重写了一遍:子智能体驱动开发到底怎么运作
智能体工程
2026年6月24日
0 条评论
零重力瓦力

Superpowers 6.0 把 AI 编程评审重写了一遍:子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本,重写子智能体驱动开发(SDD)方法论,使 AI 编程代码产出速度提升约一倍,token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化,解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性,其核心原则可迁移至各类 AI 编程工作流中,有效提升开发效率与质量。

#智能体工程
阅读全文
拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么
智能体工程
2026年6月21日
0 条评论
零重力瓦力

拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么

拜耳制药和 Thoughtworks 在 Martin Fowler 的博客上发表了一篇完整案例,讲他们花了两年多时间把 PRINCE(Preclinical Information Center)从关键词搜索工具演变成多智能体 RAG 系

#智能体工程
阅读全文
Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了
智能体工程
2026年6月18日
0 条评论
零重力瓦力

Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了

Vercel 发布开源智能体框架 eve,采用文件系统优先设计,将 Agent 定义为目录结构以降低理解成本。框架内置持久化会话、沙盒计算、人类审批、安全连接、多渠道部署及可观测性六大生产级能力,解决重复造轮子痛点。eve 目前处于公开预览阶段,框架免费但托管服务收费。该框架标志着 AI Agent 开发正从混乱走向标准化,大幅缩短从 demo 到上线的距离,但需注意 beta 阶段的 API 变动及供应商锁定风险。

#智能体框架#智能体工程
阅读全文
互动讨论

评论区

围绕《如何解决 Hermes QQ 机器人掉线问题》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。