Skip to content

Deep Thought: 宏观 OSINT 自动化分析系统

项目命名来源:银河系漫游指南中的超级计算机"深思"——被设计来回答"生命、宇宙以及一切的终极问题"。我们的系统同样试图回答一个宏大问题:宏观叙事的真相是什么,市场在哪里定价错误?

文档索引

文档内容
系统架构总览本文档:愿景、六大引擎、数据源、实施路线
实现架构与工程设计代码/Agent/人三层分工、Prompt 设计、长期运行问题

技术规范 (specs/)

文档内容
00 - 规范总览specs 目录入口,文档索引与阅读路径
01 - 技术栈选型语言、框架、数据库、LLM 选型
02 - 核心数据模型所有实体的 Schema 定义
03 - 模块间接口规范引擎间通信协议与数据格式
04 - 六大引擎详细设计各引擎的算法逻辑与处理流程
05 - 开发与运行环境项目结构、依赖管理、测试策略
06 - 实现阶段与验收标准分阶段计划、交付物、验收标准

一、核心愿景

构建一个 AI Agent 驱动的通用叙事-数据对齐分析系统

核心模式:任何领域都存在"叙事层"(人们相信什么)与"数据层"(实际发生了什么)之间的落差,这个落差就是信号。

以宏观经济 regime 预测为起始领域,实现:

  1. 叙事发现:从新闻中自动识别新兴叙事,成为"先信资本",在市场共识形成前提前布局
  2. 错配检测:发现叙事演进与现实市场定价之间的套利空间
  3. Beta 识别:找到专家与公众看法一致的场景,识别充分定价的共识交易

可扩展领域:个股分析、技术趋势预测、地缘政治研判、任何叙事与数据存在落差的场景。

核心逻辑:叙事发现 → 数据校准 → 多视角解读 → 置信度加权 → 发现定价偏差

通用性:当前设计的六引擎架构是一个通用框架。宏观经济是第一个"域"(domain),未来可扩展到个股、技术趋势、地缘政治等领域——每个域只需配置不同的数据源、叙事源和 Persona。

二、系统架构

┌──────────────────────────────────────────────────────────────┐
│                                                              │
│   ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│   │ 叙事发现  │  │ 数据采集  │  │ 情绪引擎  │  │ 记忆系统  │   │
│   │ 引擎     │  │ 引擎     │  │          │  │          │   │
│   └────┬─────┘  └────┬─────┘  └────┬─────┘  └────┬─────┘   │
│        │              │             │              │         │
│        └──────────────┼─────────────┼──────────────┘         │
│                       ▼             ▼                        │
│              ┌─────────────┐ ┌─────────────┐                 │
│              │ 智库引擎     │ │ 市场情绪     │                 │
│              │ (Persona    │ │ 快照        │                 │
│              │  Agents)    │ │             │                 │
│              └──────┬──────┘ └──────┬──────┘                 │
│                     │               │                        │
│                     └───────┬───────┘                        │
│                             ▼                                │
│                    ┌───────────────┐                         │
│                    │ 错配检测引擎   │                         │
│                    │               │                         │
│                    │ 智库 vs 情绪   │                         │
│                    │ → Alpha / Beta│                         │
│                    └───────┬───────┘                         │
│                            ▼                                 │
│                    ┌───────────────┐                         │
│                    │ 交易信号输出   │                         │
│                    └───────────────┘                         │
└──────────────────────────────────────────────────────────────┘

三、六大引擎

引擎 1:叙事发现引擎 (Narrative Discovery)

目标:从新闻中自动提取叙事主题,追踪演化,发现新兴叙事。

核心机制——新旧对比

  • 维护一个"叙事状态机"
  • 新闻片段 → LLM 提取叙事命题 → 与记忆中的活跃叙事做语义匹配
  • 匹配成功 → 更新现有叙事的强度/情绪/演化方向
  • 匹配失败 → 标记为"候选新叙事" → 多源交叉确认 → 注册为新叙事

数据源

  • RSS 新闻(央行声明、财经媒体、政策文件)
  • GDELT 全球事件数据库
  • ACLED 冲突事件数据库

输出结构

json
{
  "active_narratives": [
    {
      "theme": "Fed pivot expectation",
      "strength": 0.82,
      "sentiment": "dovish",
      "trend": "strengthening",
      "key_sources": ["WSJ Nick Timiraos", "Fed minutes"],
      "first_seen": "2024-01-15",
      "divergence_from_data": "narrative dovish, but CPI still sticky"
    }
  ]
}

引擎 2:数据采集引擎 (Data Collection)

目标:从多个 API 获取实时市场数据,计算宏观指标,标记异常。

数据架构:统一层 + 补丁层

采用 OpenBB 作为统一数据层,减少重复开发,IBKR/Longbridge/Binance 作为实时补丁:

OpenBB(统一主力层)             实时补丁层
──────────────────             ─────────────────────
✅ FRED 宏观指标                IBKR: 美债期货实时行情
✅ SEC/EDGAR 财报               Longbridge: 港股/A股/北向资金实时
✅ 外汇行情                     Binance: 永续合约资金费率/OI/清算
✅ 美股/全球股指
✅ 新闻聚合(Benzinga 等)
✅ 加密货币基础行情
✅ 经济日历
✅ 机构持仓(13F)
✅ 期权数据(部分)

覆盖度评估:OpenBB 覆盖约 60-70% 的数据需求(宏观指标、基本面、新闻聚合层),实时层和中国市场/加密永续合约仍需专用 API 补充。

三层数据频率

统一层:         OpenBB SDK     → 宏观指标、财报、新闻、外汇、股指、期权
实时层(秒级):  IBKR WebSocket → 美债期货、VIX、全球期货
                Binance WS     → 资金费率、持仓量、清算
                Longbridge WS  → 港股/A股逐笔成交、北向资金
日频层:         RSS + 爬虫     → 央行声明、政策文件、社交媒体情绪

数据源分工

来源角色覆盖范围
OpenBB统一主力层FRED 宏观指标、SEC 财报、外汇、股指、新闻聚合、经济日历、13F 持仓
IBKR实时补丁美债期货、VIX 期货、全球期货,覆盖 150+ 市场的实时 tick 数据
Longbridge中国市场A 股北向资金、港股、融资融券、期权,中国 macro regime 不可替代
Binance加密永续合约资金费率(每 8h 结算的多空情绪)、持仓量、清算数据(OpenBB 不覆盖永续合约特有数据)
TradingView分析验证Pine Script 自定义指标,回测和可视化

关键发现

  • OpenBB 统一了 FRED、SEC、新闻等多个数据源的访问接口,大幅降低数据采集引擎的开发复杂度
  • FRED 数据库是金矿:企业债利差 (BAMLC0A0CM)、高收益债利差 (BAMLH0A0HYM2) 是信贷恐慌的最佳公开代理指标
  • 加密市场是"宏观放大镜":7x24 交易、无涨跌停、杠杆率高,对宏观情绪变化的反应速度远快于传统市场

引擎 3:市场情绪引擎 (Market Sentiment)

目标:捕捉散户情绪、公众舆论、机构行为,作为智库引擎的对立场。

散户情绪信号

信号来源频率
恐贪指数alternative.me日度
Put/Call ratioIBKR / CBOE日度
融资融券余额Longbridge日度
社交媒体热度Reddit/Twitter/雪球实时
搜索趋势百度指数/Google Trends周度

公众舆论信号

信号来源处理方式
新闻标题情绪RSS → LLM 情绪打分实时
央行前瞻指引解读FOMC 声明 → 鸽鹰评分事件驱动
财经 KOL 观点Twitter/雪球/微博日度
评级机构行动Moody's/S&P/Fitch事件驱动

机构行为信号

信号来源含义
CFTC 持仓报告cftc.gov 每周五对冲基金净多/空头寸
基金现金水平BofA Fund Manager Survey机构风险偏好
ETF 资金流ETF.com / ETFdb机构配置方向
IPO/增发热度SEC filing 频率市场信心指标

引擎 4:智库引擎 (Think Tank / Persona Agents)

目标:基于知名投资人和经济学家的蒸馏 persona,以蒙特卡罗对抗辩论的形式输出理性分析。

Persona 设计要素

每个 Persona 包含:
├── 核心框架: 投资哲学和分析方法论
├── 分析偏好: 关注什么、忽略什么
├── 输出倾向: 判断风格(保守/激进/极端)
└── 历史准确率: 动态调整投票权重

初始 Persona 池(基于已有 skill 扩展):

Persona核心框架分析偏好
Soros反身性理论关注叙事的自我强化/否定循环,对拐点敏感
Buffett价值+护城河+长期关注盈利质量,忽略短期噪音
Dalio全景宏观机器去杠杆、大周期、empirical
Thorp概率+凯利公式下行不对称、edge 量化、尾部对冲
Simons纯数据驱动噪音中找信号、去人类偏见
周金涛康德拉季耶夫周期大宗商品和房地产周期,周期阶段定位

对抗辩论机制(蒙特卡罗)

Round 1: 每个 persona 独立分析 → 输出判断
Round 2: 每个 persona 看到其他 persona 的判断 → 交叉质疑
Round 3: 综合考虑反驳后,修正各自判断
Round 4: Ensemble 加权合成(权重由历史准确率决定)

关键:投票权重不是固定的,而是根据历史准确率动态调整——表现好的 persona 权重上升,表现差的下降,形成自我进化。

引擎 5:错配检测引擎 (Mismatch Detection)

目标:将智库引擎的理性分析与市场情绪进行对比,分类 Alpha 和 Beta 信号。

二维认知空间

                      智库引擎判断
                  看空 ◄─────────► 看多
                    │               │
           看空    │   Beta (-)    │  Alpha: 做多机会
        散         │   共识看空     │  专家看多但散户看空
        户         │   定价充分     │  → 叙事尚未传播
        /         │               │
        情         │               │
        绪         │               │
        引         │               │
        擎         │               │
           看多    │  Alpha: 做空机会 │  Beta (+)
                    │  专家看空但散户看多 │  共识看多
                    │  → 泡沫/过度拥挤  │  定价充分

四个象限策略含义

象限条件含义行动
Alpha 做多智库看多 + 情绪看空先信资本机会,叙事尚未传播早期建仓,等待叙事追赶数据
Alpha 做空智库看空 + 情绪看多泡沫/过度拥挤减仓/做空,等待叙事修正
Beta 多头智库看多 + 情绪看多共识看多,定价充分跟随但控制仓位
Beta 空头智库看空 + 情绪看空共识看空,定价充分避险或寻找极端超卖反弹

错配度量化

mismatch_score = persona_consensus - sentiment_consensus
  范围: [-1, +1]
  
  +1.0 = 最强先信机会(智库极度看多,市场极度看空)
   0.0 = 完全一致,beta 区间
  -1.0 = 最强反向信号

持续修正:
  sustained_mismatch = mismatch_score × duration
  错配持续时间越长,信号越强(但也可能说明智库错了)

引擎 6:记忆系统 (Memory System)

目标:为所有引擎提供持久化的状态管理和学习能力。

三层结构

Layer 1: 叙事图谱 (Narrative Graph)

  • 节点:叙事命题
  • 边:叙事之间的关系(支撑/矛盾/演化)
  • 属性:强度、情绪、首次出现时间、来源
  • 例:"Fed pivot" ─支撑→ "美股反弹" ─矛盾→ "通胀粘性"

Layer 2: 判断历史 (Judgment Ledger)

  • 每次 ensemble 输出的完整记录
  • 包含:时间戳、输入的叙事状态 + 数据快照、每个 persona 的独立判断、ensemble 合成结果
  • 事后验证:1 周/1 月后的实际走势

Layer 3: 元学习 (Meta-learning)

  • 哪些 persona 在什么类型的 regime 下表现好
  • 叙事-数据偏差的典型模式和后续走势
  • 系统自身的偏见记录(是否过度看多/看空某类资产)

四、关键设计洞察

1. 叙事与数据的四种关系

叙事 ↑  数据 ↑  → 共振,高置信度,趋势可能延续
叙事 ↑  数据 ↓  → 偏差!核心机会区间(先信资本入场点)
叙事 ↓  数据 ↑  → 数据领先,叙事可能追赶
叙事 ↓  数据 ↓  → 共识衰退,趋势可能结束

2. 来源可信度加权

不是所有叙事等同:

  • 央行/统计局官方 → 权重最高
  • 知名央行记者(Nick Timiraos, Hilsenrath)→ 高权重
  • 主流财经媒体 → 中等
  • 社交媒体/KOL → 低但可做情绪参考

3. 时态推理

Agent 需理解时间关系:

  • 叙事是几周前出现的?
  • 数据滞后叙事多久了?
  • 下一个关键数据发布是什么时候?

4. 加密市场作为宏观放大镜

加密市场(7x24、无涨跌停、全球定价、杠杆率高)对宏观情绪变化的反应速度远快于传统市场。2022 年 Fed 加息周期中,BTC 的下跌领先纳指约 2-3 周。加密市场数据可作为传统宏观的"先锋指标"。

五、与传统量化的本质区别

传统量化:数据 → 模型 → 信号 → 交易

Deep Thought:叙事 ←→ 数据 ←→ AI 推理 → 判断

关键差异在于:叙事和数据之间存在信息差。叙事领先数据 1-4 周,AI Agent 可以捕捉这个 gap。系统的核心价值不是预测数据,而是理解叙事何时正确、何时错误,以及市场何时会意识到这一点

六、实施路线

Phase 1: 记忆系统 + 叙事图谱
  没有记忆,其他所有层都站不住
  先搭好数据结构和持久化

Phase 2: 叙事发现引擎
  RSS 接入 → LLM 叙事提取 → 新旧对比 → 叙事状态机
  这是整个系统的"眼睛"

Phase 3: 数据采集引擎
  IBKR/Longbridge/Binance API → 指标计算
  这是系统的"校准器"

Phase 4: 情绪引擎
  散户情绪 + 公众舆论 + 机构行为数据接入

Phase 5: Persona Agent 池
  2-3 个 persona 先跑起来,验证 ensemble 和对抗辩论机制
  已有素材:zhou-jintao-perspective skill 可作为第一个 persona

Phase 6: 错配检测 + 合成层
  智库 vs 情绪 → Alpha/Beta 分类 → 信号输出

Phase 7: 自动化运行
  Cron 定时触发,每天/每半天运行一次
  重大事件触发即时分析

七、已具备的基础设施

组件角色状态
OpenBB统一数据主力层开源,需安装配置
IBKR 账户 + API实时补丁已有
Longbridge 账户 + API中国市场已有,已配置 MCP
TradingView 会员分析验证已有
Binance API加密永续合约免费,无需账号
FRED API已被 OpenBB 覆盖免费
RSS 数据源叙事采集免费
zhou-jintao-perspective skill首个 persona已安装
Claude Code 环境运行基座已就绪

文档创建时间:2026-05-24项目状态:架构设计阶段

基于 VitePress 构建