Deep Thought: 宏观 OSINT 自动化分析系统

项目命名来源：银河系漫游指南中的超级计算机"深思"——被设计来回答"生命、宇宙以及一切的终极问题"。我们的系统同样试图回答一个宏大问题：宏观叙事的真相是什么，市场在哪里定价错误？

文档索引

文档	内容
系统架构总览	本文档：愿景、六大引擎、数据源、实施路线
实现架构与工程设计	代码/Agent/人三层分工、Prompt 设计、长期运行问题

技术规范 (`specs/`)

文档	内容
00 - 规范总览	specs 目录入口，文档索引与阅读路径
01 - 技术栈选型	语言、框架、数据库、LLM 选型
02 - 核心数据模型	所有实体的 Schema 定义
03 - 模块间接口规范	引擎间通信协议与数据格式
04 - 六大引擎详细设计	各引擎的算法逻辑与处理流程
05 - 开发与运行环境	项目结构、依赖管理、测试策略
06 - 实现阶段与验收标准	分阶段计划、交付物、验收标准

一、核心愿景

构建一个 AI Agent 驱动的通用叙事-数据对齐分析系统。

核心模式：任何领域都存在"叙事层"（人们相信什么）与"数据层"（实际发生了什么）之间的落差，这个落差就是信号。

以宏观经济 regime 预测为起始领域，实现：

叙事发现：从新闻中自动识别新兴叙事，成为"先信资本"，在市场共识形成前提前布局
错配检测：发现叙事演进与现实市场定价之间的套利空间
Beta 识别：找到专家与公众看法一致的场景，识别充分定价的共识交易

可扩展领域：个股分析、技术趋势预测、地缘政治研判、任何叙事与数据存在落差的场景。

核心逻辑：叙事发现 → 数据校准 → 多视角解读 → 置信度加权 → 发现定价偏差

通用性：当前设计的六引擎架构是一个通用框架。宏观经济是第一个"域"（domain），未来可扩展到个股、技术趋势、地缘政治等领域——每个域只需配置不同的数据源、叙事源和 Persona。

二、系统架构

┌──────────────────────────────────────────────────────────────┐
│                                                              │
│   ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│   │ 叙事发现  │  │ 数据采集  │  │ 情绪引擎  │  │ 记忆系统  │   │
│   │ 引擎     │  │ 引擎     │  │          │  │          │   │
│   └────┬─────┘  └────┬─────┘  └────┬─────┘  └────┬─────┘   │
│        │              │             │              │         │
│        └──────────────┼─────────────┼──────────────┘         │
│                       ▼             ▼                        │
│              ┌─────────────┐ ┌─────────────┐                 │
│              │ 智库引擎     │ │ 市场情绪     │                 │
│              │ (Persona    │ │ 快照        │                 │
│              │  Agents)    │ │             │                 │
│              └──────┬──────┘ └──────┬──────┘                 │
│                     │               │                        │
│                     └───────┬───────┘                        │
│                             ▼                                │
│                    ┌───────────────┐                         │
│                    │ 错配检测引擎   │                         │
│                    │               │                         │
│                    │ 智库 vs 情绪   │                         │
│                    │ → Alpha / Beta│                         │
│                    └───────┬───────┘                         │
│                            ▼                                 │
│                    ┌───────────────┐                         │
│                    │ 交易信号输出   │                         │
│                    └───────────────┘                         │
└──────────────────────────────────────────────────────────────┘

三、六大引擎

引擎 1：叙事发现引擎 (Narrative Discovery)

目标：从新闻中自动提取叙事主题，追踪演化，发现新兴叙事。

核心机制——新旧对比：

维护一个"叙事状态机"
新闻片段 → LLM 提取叙事命题 → 与记忆中的活跃叙事做语义匹配
匹配成功 → 更新现有叙事的强度/情绪/演化方向
匹配失败 → 标记为"候选新叙事" → 多源交叉确认 → 注册为新叙事

数据源：

RSS 新闻（央行声明、财经媒体、政策文件）
GDELT 全球事件数据库
ACLED 冲突事件数据库

输出结构：

json

{
  "active_narratives": [
    {
      "theme": "Fed pivot expectation",
      "strength": 0.82,
      "sentiment": "dovish",
      "trend": "strengthening",
      "key_sources": ["WSJ Nick Timiraos", "Fed minutes"],
      "first_seen": "2024-01-15",
      "divergence_from_data": "narrative dovish, but CPI still sticky"
    }
  ]
}

引擎 2：数据采集引擎 (Data Collection)

目标：从多个 API 获取实时市场数据，计算宏观指标，标记异常。

数据架构：统一层 + 补丁层

采用 OpenBB 作为统一数据层，减少重复开发，IBKR/Longbridge/Binance 作为实时补丁：

OpenBB（统一主力层）             实时补丁层
──────────────────             ─────────────────────
✅ FRED 宏观指标                IBKR: 美债期货实时行情
✅ SEC/EDGAR 财报               Longbridge: 港股/A股/北向资金实时
✅ 外汇行情                     Binance: 永续合约资金费率/OI/清算
✅ 美股/全球股指
✅ 新闻聚合（Benzinga 等）
✅ 加密货币基础行情
✅ 经济日历
✅ 机构持仓（13F）
✅ 期权数据（部分）

覆盖度评估：OpenBB 覆盖约 60-70% 的数据需求（宏观指标、基本面、新闻聚合层），实时层和中国市场/加密永续合约仍需专用 API 补充。

三层数据频率：

统一层:         OpenBB SDK     → 宏观指标、财报、新闻、外汇、股指、期权
实时层（秒级）:  IBKR WebSocket → 美债期货、VIX、全球期货
                Binance WS     → 资金费率、持仓量、清算
                Longbridge WS  → 港股/A股逐笔成交、北向资金
日频层:         RSS + 爬虫     → 央行声明、政策文件、社交媒体情绪

数据源分工：

来源	角色	覆盖范围
OpenBB	统一主力层	FRED 宏观指标、SEC 财报、外汇、股指、新闻聚合、经济日历、13F 持仓
IBKR	实时补丁	美债期货、VIX 期货、全球期货，覆盖 150+ 市场的实时 tick 数据
Longbridge	中国市场	A 股北向资金、港股、融资融券、期权，中国 macro regime 不可替代
Binance	加密永续合约	资金费率（每 8h 结算的多空情绪）、持仓量、清算数据（OpenBB 不覆盖永续合约特有数据）
TradingView	分析验证	Pine Script 自定义指标，回测和可视化

关键发现：

OpenBB 统一了 FRED、SEC、新闻等多个数据源的访问接口，大幅降低数据采集引擎的开发复杂度
FRED 数据库是金矿：企业债利差 (BAMLC0A0CM)、高收益债利差 (BAMLH0A0HYM2) 是信贷恐慌的最佳公开代理指标
加密市场是"宏观放大镜"：7x24 交易、无涨跌停、杠杆率高，对宏观情绪变化的反应速度远快于传统市场

引擎 3：市场情绪引擎 (Market Sentiment)

目标：捕捉散户情绪、公众舆论、机构行为，作为智库引擎的对立场。

散户情绪信号：

信号	来源	频率
恐贪指数	alternative.me	日度
Put/Call ratio	IBKR / CBOE	日度
融资融券余额	Longbridge	日度
社交媒体热度	Reddit/Twitter/雪球	实时
搜索趋势	百度指数/Google Trends	周度

公众舆论信号：

信号	来源	处理方式
新闻标题情绪	RSS → LLM 情绪打分	实时
央行前瞻指引解读	FOMC 声明 → 鸽鹰评分	事件驱动
财经 KOL 观点	Twitter/雪球/微博	日度
评级机构行动	Moody's/S&P/Fitch	事件驱动

机构行为信号：

信号	来源	含义
CFTC 持仓报告	cftc.gov 每周五	对冲基金净多/空头寸
基金现金水平	BofA Fund Manager Survey	机构风险偏好
ETF 资金流	ETF.com / ETFdb	机构配置方向
IPO/增发热度	SEC filing 频率	市场信心指标

引擎 4：智库引擎 (Think Tank / Persona Agents)

目标：基于知名投资人和经济学家的蒸馏 persona，以蒙特卡罗对抗辩论的形式输出理性分析。

Persona 设计要素：

每个 Persona 包含:
├── 核心框架: 投资哲学和分析方法论
├── 分析偏好: 关注什么、忽略什么
├── 输出倾向: 判断风格（保守/激进/极端）
└── 历史准确率: 动态调整投票权重

初始 Persona 池（基于已有 skill 扩展）：

Persona	核心框架	分析偏好
Soros	反身性理论	关注叙事的自我强化/否定循环，对拐点敏感
Buffett	价值+护城河+长期	关注盈利质量，忽略短期噪音
Dalio	全景宏观机器	去杠杆、大周期、empirical
Thorp	概率+凯利公式	下行不对称、edge 量化、尾部对冲
Simons	纯数据驱动	噪音中找信号、去人类偏见
周金涛	康德拉季耶夫周期	大宗商品和房地产周期，周期阶段定位

对抗辩论机制（蒙特卡罗）：

Round 1: 每个 persona 独立分析 → 输出判断
Round 2: 每个 persona 看到其他 persona 的判断 → 交叉质疑
Round 3: 综合考虑反驳后，修正各自判断
Round 4: Ensemble 加权合成（权重由历史准确率决定）

关键：投票权重不是固定的，而是根据历史准确率动态调整——表现好的 persona 权重上升，表现差的下降，形成自我进化。

引擎 5：错配检测引擎 (Mismatch Detection)

目标：将智库引擎的理性分析与市场情绪进行对比，分类 Alpha 和 Beta 信号。

二维认知空间：

                      智库引擎判断
                  看空 ◄─────────► 看多
                    │               │
           看空    │   Beta (-)    │  Alpha: 做多机会
        散         │   共识看空     │  专家看多但散户看空
        户         │   定价充分     │  → 叙事尚未传播
        /         │               │
        情         │               │
        绪         │               │
        引         │               │
        擎         │               │
           看多    │  Alpha: 做空机会 │  Beta (+)
                    │  专家看空但散户看多 │  共识看多
                    │  → 泡沫/过度拥挤  │  定价充分

四个象限策略含义：

象限	条件	含义	行动
Alpha 做多	智库看多 + 情绪看空	先信资本机会，叙事尚未传播	早期建仓，等待叙事追赶数据
Alpha 做空	智库看空 + 情绪看多	泡沫/过度拥挤	减仓/做空，等待叙事修正
Beta 多头	智库看多 + 情绪看多	共识看多，定价充分	跟随但控制仓位
Beta 空头	智库看空 + 情绪看空	共识看空，定价充分	避险或寻找极端超卖反弹

错配度量化：

mismatch_score = persona_consensus - sentiment_consensus
  范围: [-1, +1]
  
  +1.0 = 最强先信机会（智库极度看多，市场极度看空）
   0.0 = 完全一致，beta 区间
  -1.0 = 最强反向信号

持续修正:
  sustained_mismatch = mismatch_score × duration
  错配持续时间越长，信号越强（但也可能说明智库错了）

引擎 6：记忆系统 (Memory System)

目标：为所有引擎提供持久化的状态管理和学习能力。

三层结构：

Layer 1: 叙事图谱 (Narrative Graph)

节点：叙事命题
边：叙事之间的关系（支撑/矛盾/演化）
属性：强度、情绪、首次出现时间、来源
例："Fed pivot" ─支撑→ "美股反弹" ─矛盾→ "通胀粘性"

Layer 2: 判断历史 (Judgment Ledger)

每次 ensemble 输出的完整记录
包含：时间戳、输入的叙事状态 + 数据快照、每个 persona 的独立判断、ensemble 合成结果
事后验证：1 周/1 月后的实际走势

Layer 3: 元学习 (Meta-learning)

哪些 persona 在什么类型的 regime 下表现好
叙事-数据偏差的典型模式和后续走势
系统自身的偏见记录（是否过度看多/看空某类资产）

四、关键设计洞察

1. 叙事与数据的四种关系

叙事 ↑  数据 ↑  → 共振，高置信度，趋势可能延续
叙事 ↑  数据 ↓  → 偏差！核心机会区间（先信资本入场点）
叙事 ↓  数据 ↑  → 数据领先，叙事可能追赶
叙事 ↓  数据 ↓  → 共识衰退，趋势可能结束

2. 来源可信度加权

不是所有叙事等同：

央行/统计局官方 → 权重最高
知名央行记者（Nick Timiraos, Hilsenrath）→ 高权重
主流财经媒体 → 中等
社交媒体/KOL → 低但可做情绪参考

3. 时态推理

Agent 需理解时间关系：

叙事是几周前出现的？
数据滞后叙事多久了？
下一个关键数据发布是什么时候？

4. 加密市场作为宏观放大镜

加密市场（7x24、无涨跌停、全球定价、杠杆率高）对宏观情绪变化的反应速度远快于传统市场。2022 年 Fed 加息周期中，BTC 的下跌领先纳指约 2-3 周。加密市场数据可作为传统宏观的"先锋指标"。

五、与传统量化的本质区别

传统量化：数据 → 模型 → 信号 → 交易

Deep Thought：叙事 ←→ 数据 ←→ AI 推理 → 判断

关键差异在于：叙事和数据之间存在信息差。叙事领先数据 1-4 周，AI Agent 可以捕捉这个 gap。系统的核心价值不是预测数据，而是理解叙事何时正确、何时错误，以及市场何时会意识到这一点。

六、实施路线

Phase 1: 记忆系统 + 叙事图谱
  没有记忆，其他所有层都站不住
  先搭好数据结构和持久化

Phase 2: 叙事发现引擎
  RSS 接入 → LLM 叙事提取 → 新旧对比 → 叙事状态机
  这是整个系统的"眼睛"

Phase 3: 数据采集引擎
  IBKR/Longbridge/Binance API → 指标计算
  这是系统的"校准器"

Phase 4: 情绪引擎
  散户情绪 + 公众舆论 + 机构行为数据接入

Phase 5: Persona Agent 池
  2-3 个 persona 先跑起来，验证 ensemble 和对抗辩论机制
  已有素材：zhou-jintao-perspective skill 可作为第一个 persona

Phase 6: 错配检测 + 合成层
  智库 vs 情绪 → Alpha/Beta 分类 → 信号输出

Phase 7: 自动化运行
  Cron 定时触发，每天/每半天运行一次
  重大事件触发即时分析

七、已具备的基础设施

组件	角色	状态
OpenBB	统一数据主力层	开源，需安装配置
IBKR 账户 + API	实时补丁	已有
Longbridge 账户 + API	中国市场	已有，已配置 MCP
TradingView 会员	分析验证	已有
Binance API	加密永续合约	免费，无需账号
FRED API	已被 OpenBB 覆盖	免费
RSS 数据源	叙事采集	免费
zhou-jintao-perspective skill	首个 persona	已安装
Claude Code 环境	运行基座	已就绪

文档创建时间：2026-05-24项目状态：架构设计阶段

Deep Thought: 宏观 OSINT 自动化分析系统 ​

文档索引 ​

技术规范 (specs/) ​

一、核心愿景 ​

二、系统架构 ​

三、六大引擎 ​

引擎 1：叙事发现引擎 (Narrative Discovery) ​

引擎 2：数据采集引擎 (Data Collection) ​

引擎 3：市场情绪引擎 (Market Sentiment) ​

引擎 4：智库引擎 (Think Tank / Persona Agents) ​

引擎 5：错配检测引擎 (Mismatch Detection) ​

引擎 6：记忆系统 (Memory System) ​

四、关键设计洞察 ​

1. 叙事与数据的四种关系 ​

2. 来源可信度加权 ​

3. 时态推理 ​

4. 加密市场作为宏观放大镜 ​

五、与传统量化的本质区别 ​

六、实施路线 ​

七、已具备的基础设施 ​