OracleBlog

关于cloudflare故障的一些思考

Jimmy He — Fri, 21 Nov 2025 04:11:40 +0000

关于cloudflare在2025 年 11 月 18 日发生的故障，其原因是：

他们的查询sql是：

SELECT name, typeFROM system.columnsWHERE table = 'http_requests_features';

因为是clickhouse，这是分布式的列存数据库。
default库里面放的是引擎为distributed的表，注，default库也是分布式的，在多个分片上。
r0数据库放的是引擎是replicatedmergetree本地表。注，r0库也是分布式的，在多个分片上。
system.columns中的system也是一个数据库，他是clickhouse系统自己的库。这个库里面有个columns表。

之前的用户权限，查询system.columns表出来的结果，是default库的http_requests_features表的name, type两个字段，
修改用户权限之后，查询system.columns表出来的结果，是【default库 + r0库】的 http_requests_features表的name, type两个字段。 —— 对bot management来说，feature翻倍了。并且加上其他信息，超过了200个feature的硬编码限制。

给我们的警示：
1. 要熟悉数据库的物理结构和逻辑结构，不能只局限在逻辑的查询上。一定要熟悉其文件结构和进程结构。
2. 要熟悉数据库的数据字典，比如system.columns表中，带database字段，这肯定不是无缘无故有这个字段的。查询的时候要带上这个字段。比如我们在给数据团队或者安全审计团队开账号的时候，也要当心这个问题。留意多个库，多个schema、同义词指向等等。

参考：
https://news.qq.com/rain/a/20251119A029CT00
https://tonybai.com/2025/11/19/cloudflare-18-november-2025-outage/

Oracle AI Database 26ai 新特性小结

Jimmy He — Thu, 23 Oct 2025 12:10:51 +0000

1. 核心思路：将AI算法带到数据所在之处，减少数据移动。
—— 记得pg数据库利用colBERT来进行重排序（文章《多向量 | 提升召回相关性》），而不是让重排序的模型（如BERT，BGE ReRanker，Cohere ReRanker）来做，也是为了减少data moving。在RAG中减少数据移动，在可控可信的范围内，还是比较重要的。

2. 根本优势：控制现代数据栈的总拥有成本（TCO），无需安装多种类型的数据库。原生支持多种数据模型，有效防止了数据碎片化。支持“统一混合向量搜索”（Unified Hybrid Vector Search），允许在单条SQL查询中，将基于语义的向量搜索与传统的结构化、文本、JSON、图和空间数据搜索相结合的检索。
—— 对于别的数据库来说，确实需要每个功能一种数据库。但是对oracle来说，全包。

3. 数据库内嵌AI代理(In-Database AI Agents)，将一个多步骤、涉及数据转换和处理的复杂任务，完全封装在数据库内部，通过一条或一组SQL/PLSQL语句完成，并接受数据库核心引擎的全面治理。如在数据库内处理PDF文档并生成向量嵌入。他与其他数据库调用外部AI模型，核心区别在于，Oracle 26ai的Select AI Agent 框架允许代理的定义、运行和治理都发生在数据库内部。这使得代理能够以更高的安全性和效率直接访问数据，并继承数据库的事务、安全和高可用性等企业级特性。
—— 原来复杂的工作量，多个组件的引入，多个模型的使用，都可以在一个oracle数据库中，用SQL来实现了。

4. 开放的AI数据湖仓 (Autonomous AI Lakehouse) 通过原生支持开放的在oss对象存储上的Apache Iceberg表格式。
—— 以一个统一的对象存储表格式，打通各个云的对象存储上的表。方便进行数据湖服务。可能，在Costdown云费用统计时，再也不用：CUR -> S3 -> Glue中的data catalog 下的 database -> Athena取这个database的数据，以SQL的方式做报表统计。
（注：CUR，全称cost and usage report，现在改名叫data export，在billing and cost management的菜单下，非常轻量，几乎不算一个服务，算billing 功能的一个feature）

5. 数据注解 (Data Annotations)，不同于数据库的comment，为AI工具、代理和代码生成器提供机器可读的语义上下文、特征和约束。
—— 我们之前探索过让mcp来通过自然语言来给我们统计报表，告诉我们结果，但是如果不能让ai知道表定义，字段的含义，表的关联约束关系，ai不太容易生成每次都对的报表。而让ai“懂得”表含义，要么利用comment，要么在提示词中告诉ai相关定义，现在有了annotation，一切问题迎刃而解了。

6. Oracle 26ai支持广泛的部署选项：包括Oracle自家的OCI，以及通过Oracle Database@Azure, @AWS, @Google Cloud等服务部署在其他主流云平台上，以及如 Exadata 和 Oracle Database Appliance – ODA的本地部署。
—— 之前有同事提到过，他买了Oracle服务器，但是能和azure打通，之前还不太明白，为什么明明买的是oracle cloud上的云服务器，能连微软的网络。现在我开始明白了，可能是Oracle Database@Azure的战略了，oracle的云主机、oracle的数据库部署在azure上。

pg和oracle分区的一些心得

Jimmy He — Wed, 22 Oct 2025 10:01:35 +0000

1、oracle和pg都支持两层分区，但是pg可以支持理论上更多层级的子分区，三层、四层甚至更多…… 但是oracle只是支持两层。

2、oracle把表作为一个整体来看待，分区和子分区是属于这个表的逻辑部分，是属于表的各个存储段segment。而pg把表、分区、子分区作为独立的relfilenode来看待，每个分区和子分区可以作为一个单独表来看待，只是他们之间有继承（inherit）关系。

3、基于上述不同的设计，在oracle中查询分区或者子分区，可以select count(*) from tab partition xx subpartition yy来进行，而在pg中可以select count(*) from zzzzz(子分区名)

4、基于oracle是把分区表作为一个逻辑整体来对待，所以在oracle中有global index和local index，唯一索引可以依赖global index实现全局唯一，但是在pg中只有local index，无法保证全局唯一性，需要在应用层进行保证。

5、oracle的表在分析之后，可以即精确到表级，也可以精确到分区和子分区级别，pg的需要analyze到子分区才能获得精确的统计信息。

6、oracle的很多分区操作，都强调表整体的一致性，如exchange partition，split partition，Heat Map等等特性，pg没有exchange语法（注，polardb pg有exchange partition，参考此链接）

7、元数据的数据字典：
oracle： DBA_TAB_PARTITIONS, DBA_TAB_SUBPARTITIONS
pg：pg_inherits, pg_class

8、当没有任何能触发分区裁剪的谓词时，优化器在生成聚合路径时会把父表展开成“全部子分区”，导致wrong result。
即pg中执行select count(*) from files partition file_del，查询记录出错，看执行计划，同时扫描了2个父分区。要通过select count(*) from file_del的方式来绕过。

valkey学习笔记

Jimmy He — Wed, 22 Oct 2025 09:53:33 +0000

之前，我写过《Redis学习笔记》和《多云用户，应该尽快切换到Valkey的使用》。随着aws 2025年1月31日过期Redis 4.0和5.0的版本，是时候切换到使用valkey了。

有了AI，学习valkey也比当年学习Redis轻松了一些。利用Deep Research功能，输入合适的提示词，

请阅读valkey的官方文档： 
（1）https://github.com/valkey-io/valkey 
（2）https://valkey.io/commands/ 
（3）https://valkey.io/topics/ 
（4）https://valkey.io/commands/ 
（5）https://aws.amazon.com/cn/elasticache/what-is-valkey/ 
（6）https://valkey.io/blog/ 
以及检索网上其他的正式性的关于valkey的论坛、博客、社区。 

给我一个关于valkey入门的详细手册。内容包括但不限于： 
1. Concept 相关专门的术语、概念 ；
2. New feature 新特性，特别是相比redis 7.2的新特性； 
3. Installation guide 安装指导，如何在自建虚拟机上安装valkey，如何docker安装，如何搭建高可用架构的valkey； 
4. Administration guide 管理指导，有哪些重要指标需要监控。如何判断是否运行正常；
5. Backup& Recovery 备份恢复； 
6. Performance tuning 性能优化；
7. Migration& Upgrade迁移升级； 
8. Reference和Utility 操作命令和相关客户端工具；

Chatgpt Deepsearch问题补充：
为了确保我为你准备的 Valkey 入门手册覆盖到你最关心的内容，能否请你补充以下几点：
你打算在哪种操作系统上安装 Valkey（如 Ubuntu、CentOS、macOS 等）？
你是否对 Docker 和 Kubernetes 环境都有兴趣，还是只希望了解其中一种？
你更倾向于哪种高可用架构：Sentinel 模式、Cluster 模式、还是依赖第三方工具（如 Keepalived）？
是否已有 Redis 经验？是否希望重点突出与 Redis 的异同？
是否希望包含具体使用语言的客户端工具（如 Python、Java、Node.js 等）？如果有，请告知语言偏好。
提供这些信息后，我会启动详细研究任务并为你编写全面的入门手册。

回答：
1、 centos 
2、都感兴趣 
3、两种模式都需要了解：
（3.1）主从模式，需要利用Keepalived，（另外，主从模式是否可以通过Sentinel来实现自动的主从切换？如果可以，也请介绍），
（3.2）分片模式，需要利用cluster模式 
4、有，希望突出 
5、shell下的valkey-cli，以及Python、Java等等。

就能帮我检索了。下面是学习笔记：
chatgpt-5 thinking Research completed in 17m· 26 个源· 31 个搜索
Valkey Beginner’s Guide.pdf
Valkey Beginner’s Guide.docx

Gemini 2.5 pro 检索了6、70个网站，耗时12分钟。
Valkey 入门详细手册生成.pdf
Valkey 入门详细手册生成.docx

虽然节省了网页搜索、信息收集的时间，但是里面的内容，还是需要慢慢细心的阅读。不然学习的收获还是等于0。

另外，在测试的时候发现：
1. aws redis 5可以直接升级到valkey 7。点击右上角migrate to valkey即可。不需要升级多次（从redis 5到redis 6，再从redis 6到redis 7，再从redis 7到valkey 7）。

2. aws redis的multi-az，创建过程，aws给默认值是2个replica，虽然我们平时在创建是修改成了一个replica。
但是当从备份恢复出来一个实例，用这个实例转valkey，在恢复时，其默认的replica值是2，这个需要注意一下。如果要严格对齐，需要在恢复的时候改成replica个数为1。
只有这样，恢复出来的redis是一主一从，转成了valkey也是一主一从。

DTS故障处理流程

Jimmy He — Thu, 28 Aug 2025 10:12:32 +0000

在阿里云的dts同步中断的时候，可以按照这个流程来决策下一步的行动。

PDF下载：dts故障决策流程

学习笔记：One API系统架构与实现笔记

Jimmy He — Wed, 30 Apr 2025 03:15:19 +0000

# One API系统架构与实现笔记

## 一、系统概述

One API是一个大模型API管理与分发系统，通过统一的OpenAI API格式来访问不同类型的大语言模型。它具有以下特点：

1. **基础架构**:
– 依赖MySQL作为核心数据库（2c4g配置下QPS上限约1000）
– 未来计划集成Redis以提高性能
– 存储向量信息但不进行向量计算，主要存储用户相关信息

2. **请求处理**:
– 每次请求涉及约6次select操作和2次update操作
– 已开启批量update配置以优化性能

3. **模型支持**:
– 支持多种模型类型：embedding、LLM、代码生成等
– 所有模型请求均需通过One API进行转发
– 大模型一般最高支持100 RPS (每秒请求数)

## 二、系统架构

### 分层结构

系统采用多层次的组织结构：
用户(User) --> 分组(Group) --> 渠道(Channel) --> 模型(Model)

### 渠道定义

渠道(Channel)是One API系统中的关键概念：

1. **功能定位**：
– 作为不同模型服务的接入点
– 连接分组和模型，直接与模型关联
– 是模型调用的直接管理者

2. **配置灵活性**：
– 一个渠道可以配置多个模型，实现模型服务的灵活组合
– 渠道可以通过分组机制控制用户访问权限

3. **实现示例**：
不同模型提供商的渠道配置：
– 火山引擎：支持一个订阅
– 阿里云：支持一个订阅
– Azure：较复杂，按订阅做限流，一个应用对应一个订阅
– 支持多区域部署，有些区域访问可能不稳定
– 支持global endpoint，但稳定性也有挑战

## 三、系统部署架构

One API典型部署架构示例：

## 四、管理与监控

1. **监控能力**：
– 提供One API耗时分析
– 支持渠道调整，如FastGPT售后咨询场景(主要使用ChatGPT模型)

2. **性能与效果评估**：
– 支持模型准确率统计
– 可区分性能问题和效果问题

## 五、技术实现原理

One API的核心功能是统一接入不同大模型API，主要通过以下方式实现：

1. **API一致性**：
– 采用OpenAI API格式作为标准接口
– 对非OpenAI格式的API进行转换适配

2. **多渠道支持**：
– 支持20+主流大模型，包括OpenAI、Azure、Claude、Google Gemini等
– 对各种模型API的差异进行统一处理

3. **高可用设计**：
– 通过令牌池管理多账号资源
– 实现失败自动重试
– 支持多机部署

## 六、常见使用场景

1. **API密钥管理**：
– 集中管理多渠道的API密钥
– 通过令牌系统控制访问权限和使用量

2. **渠道负载均衡**：
– 在多个相同模型的渠道间分发请求
– 自动切换到可用渠道，提高稳定性

3. **限流与计费**：
– 对用户请求进行限流控制
– 支持不同计费模式和倍率设置

4. **模型映射与重定向**：
– 支持将用户请求从一个模型重定向到另一个模型
– 实现模型能力的灵活调配

## 七、高级功能

1. **批量操作**：
– 支持批量创建渠道
– 支持批量生成和导出兑换码

2. **分组管理**：
– 用户分组和渠道分组管理
– 为不同分组设置不同的倍率

3. **监控与告警**：
– 查看额度明细
– 配合第三方监控系统实现告警

学习笔记：分布式训练模型

Jimmy He — Wed, 16 Apr 2025 03:27:23 +0000

分布式训练模型（Distributed Training）

分布式训练是一种将深度学习模型的训练过程分布在多个设备（如GPU）上的技术，用于提升训练速度、处理更大的模型和数据集。

分布式训练的四种主要方式

1. Data Parallelism（DP） – 数据并行

原理：将数据切分为多个子集，每个GPU处理一部分数据，模型副本相同。
优点：实现简单，适用于大多数模型。
缺点：每个GPU都保留模型完整副本，内存开销大。
适用场景：中小规模模型或多GPU的训练。

2. Tensor Parallelism（TP） – 张量并行

原理：将模型的单个层（如矩阵乘法）中的张量进行切分，并行计算。
优点：减少每张卡的内存压力。
缺点：实现复杂，通信频繁。
粒度：粒度较大，按张量维度切分。

3. Pipeline Parallelism（PP） – 流水线并行

原理：将模型按层分成多个阶段，每个GPU处理一部分层，输入数据通过流水线方式依次流过。
优点：适用于超大模型训练，显存需求平均分配。
缺点：需要微批次处理，存在流水线启动延迟。
粒度：比TP更小，按模型层级切分。

4. Expert Parallelism（EP） – 专家并行

原理：用于 MoE（Mixture of Experts）模型，将不同“专家模块”部署在不同设备。
优点：显著减少计算量，提升扩展性。
缺点：路由机制复杂，需要动态激活专家模块。

分布式训练常用技术

DeepSpeed ZeRO (Zero Redundancy Optimizer)

结合了数据并行 + 张量并行的优势
按照粒度分为：
- ZeRO-1：优化器状态分布式
- ZeRO-2：+梯度分布式
- ZeRO-3：+参数分布式
目的：最大化模型训练的可扩展性，降低内存使用

DDP（Distributed Data Parallel）

PyTorch 提供的分布式训练接口
每个GPU运行一个进程，模型参数同步
通常基于 NCCL 通信库实现

分布式训练中的通信方式

NCCL（NVIDIA Collective Communications Library）

NVIDIA 提供的高性能通信库
支持 AllReduce、Broadcast、AllGather 等通信操作
专为GPU间通信优化，常用于DDP、ZeRO等方案中

训练中的重要术语

epoch：训练数据完整遍历一次
梯度传输：模型在多个设备中训练时，需要同步参数梯度。 —— 负的梯度越大，约接近正确值。它是损失函数的“斜率”——也就是数学中常说的导数。梯度告诉你，这个“点”往哪个方向走，损失会下降得最快，越接近争取值。梯度就是“损失函数在当前位置的变化方向”，它告诉我们：如果你朝某个方向调整模型的参数，损失就会变小。
优化器状态：如动量、学习率等，也可能需要在多卡中同步。—— 优化器（Optimizer）就是一个“帮你调整模型参数的方法”，让你慢慢走到最佳点（也就是最小误差的位置）。

GPU 监控

查看GPU状态命令：

可查看 GPU 占用率、显存使用、进程信息等。

Prefill / Decode 分离（PD分离）

P（Prefill）阶段：处理输入 Prompt 的阶段，通常计算密集。
D（Decode）阶段：处理生成 Token 的阶段，依赖性强但计算量小。
分离原因：Prefill 与 Decode 特性差异大，将两者调度到不同GPU或不同时间资源利用更高。

其他相关概念

双向注意力（Bidirectional Attention）

常用于 Embedding 模型（如BERT），即对上下文的所有方向都进行建模。
与 GPT 的单向注意力（只考虑左侧Token）不同。

学习笔记：AI模型能力评估

Jimmy He — Tue, 08 Apr 2025 13:17:36 +0000

AI能力评估方法调研报告

引言：AI能力评估的关键作用

随着人工智能模型能力的不断增强及其在各个领域的广泛应用，对这些模型进行稳健且可靠的评估变得至关重要。评估在通用人工智能开发过程的每个阶段都至关重要，包括模型选择、提示工程和模型定制。理解不同AI模型的优势和劣势对于在各种应用中做出明智的决策至关重要。AI评估有助于识别需要改进的领域、潜在的偏见以及与预期目标的偏差。对AI进行系统评估需要一个全面的框架，涵盖工作和生活中所需的各种人类技能。本报告将深入探讨当前常用的、先进的和流行的AI评估方法，分析它们的优缺点、提出者以及不同类型的AI大语言模型在这些评估中的表现和原因。

关键AI能力评估基准的深入分析

MMLU（大规模多任务语言理解）
- 评估范围和题型
  - MMLU是一个通用基准，旨在评估模型在不同主题上的表现。
  - 它测试AI系统在57个不同学科上的能力，范围从数学、科学到人文和社会科学以及专业领域。
  - 该基准涵盖人文科学、STEM领域、社会科学和专业学科等主题。
  - 它评估知识的广度和推理能力。
  - MMLU采用四选一的多项选择题形式。
  - 问题的难度级别从本科生到专家级不等。
  - 它同时测试一般的世界知识和解决问题的能力。
  - 评估模型在零样本和少样本设置下的多任务准确性。
  - 分析 1： MMLU广泛涵盖众多学术和专业领域，使其成为评估通用智能的全面测试，也是衡量实际应用潜力的良好指标。
  - 分析 2： MMLU的题型设计旨在评估模型在不同领域之间的知识迁移能力，这对于反映真实世界中需要跨领域理解和应用知识的场景至关重要。
- 难度级别和创建者
  - MMLU的创建旨在比2020年9月发布时现有的基准更具挑战性。
  - 在其发布时，大多数模型的表现接近随机水平（25%）。
  - 创建者估计人类领域专家的准确率约为89.8%。
  - MMLU由Dan Hendrycks和一组研究人员发布。
  - 更新的版本，如MMLU-Pro，集成了更具挑战性、更侧重于推理的问题，并将答案选项增加到十个。
  - MMLU-Pro旨在解决原始MMLU中的数据质量和数据污染问题。
  - 分析 3： 从MMLU到MMLU-Pro难度的增加反映了AI模型的进步以及对更具挑战性的基准的需求，以便区分它们的能力。
  - 分析 4： MMLU的难度设计旨在确保只有具备广泛知识和强大推理能力的模型才能取得高分，从而推动AI模型向更高的智能水平发展。
- 不同大语言模型的性能及原因
  - GPT-4在MMLU上取得了令人印象深刻的准确率，处于领先地位。
  - 其他表现优异的模型包括Llama 3.1、Gemini Ultra和Claude 3 Sonnet。
  - 模型在不同学科上的表现各不相同，通常在逻辑和数学方面得分较高。
  - GPT-4o在MMLU上达到了87%的准确率。
  - Llama 3.1 (405B)达到了86.6%。
  - Gemini Ultra达到了83.7%。
  - Claude 3 Sonnet达到了79%。
  - Grok-3达到了92.7%。
  - GPT-4的准确率稳定在88%左右。
  - 模型性能可能对提示技巧很敏感。
  - GPT-4的强大性能归功于其先进的推理能力、指令遵循能力和大型上下文窗口。
  - 即使在同一领域内，模型也可能因任务的细微差别而表现不同。
  - 分析 5： LLM在MMLU上的性能是衡量其一般知识和推理能力的关键指标，但它并非衡量其整体智能或是否适合特定任务的唯一标准。
  - 分析 6： 不同模型在MMLU上的性能差异反映了它们在训练数据、模型架构和推理机制上的不同特点，这有助于研究人员理解哪些方法能够更好地提升模型的通用知识和推理能力。
MATH
- 评估范围和题型
  - MATH是一个包含具有挑战性的竞赛数学问题的数据库。
  - 它包含来自高中数学竞赛的12,500道问题。
  - 问题涵盖代数、几何、概率、微积分和数论等各个分支。
  - 每个问题都有完整的逐步解决方案。
  - 它评估模型解决高中数学竞赛文字题的能力。
  - 分析 7： MATH作为一个严格的基准，用于评估AI模型的数学推理和解决问题的能力，要求提供逐步推导过程，而不仅仅是最终答案。
  - 分析 8： MATH的题型设计侧重于考察模型对数学概念的深层理解和应用能力，这与实际数学研究和解决复杂问题的过程更为贴近。
- 难度级别和创建者
  - MATH被设计成具有挑战性的，问题来源于AMC和AIME等竞赛。
  - 一个没有很强数学背景的博士生在MATH上得了40分，而一个三届IMO金牌得主得了90分。
  - 该数据集首次推出时，即使是最好的LLM也只达到了6.9%。
  - MATH数据集由Dan Hendrycks等人推出。
  - 随着当前模型在MATH上接近饱和，已经引入了更新、更具挑战性的数学基准，如FrontierMath。
  - FrontierMath包含未发表的专家级问题，专家需要花费数小时才能解决。
  - 分析 9： MATH的高难度，尤其是与最初LLM的表现相比，突显了数学推理的复杂性以及AI在该领域取得的进展。更难基准的出现表明人们不断追求更具挑战性的评估。
  - 分析 10： MATH的难度级别旨在区分不同AI模型在数学推理方面的能力，并推动模型向着解决更高级别数学问题的方向发展。
- 不同大语言模型的性能及原因
  - Grok-3在MATH上领先，得分为93.3%。
  - Gemini 2.5达到了92.0%。
  - GPT-o3 mini得分为87.3%。
  - Claude 3.7 Sonnet达到了80.0%。
  - 在与其他模型的比较中，GPT-4o在MATH任务上得分最高。
  - OpenAI o3-mini在MATH上达到了87.3%。
  - MATH上的性能需要强大的数学推理和解决问题的能力。
  - 推理模型往往在这些任务上表现最佳。
  - 分析 11： 不同模型在MATH上的不同表现突显了AI架构和训练方法在解决复杂数学问题方面的多样化优势。具有专门推理能力的模型通常表现更优异。
  - 分析 12： Grok-3和Gemini 2.5在MATH上的成功表明，链式思维推理和对大规模计算资源的访问对于在具有挑战性的数学基准上取得优异性能至关重要。
AIME（美国邀请数学考试）
- AI评估范围和题型
  - AIME是一项选拔性的、具有挑战性的数学竞赛，面向在AMC考试中表现优异的高中生。
  - 这是一项3小时的考试，包含15道自由回答题，每题的答案都必须是000到999之间的整数。
  - 涵盖代数、几何、数论、概率和组合数学等主题。
  - 问题比AMC 10和AMC 12中的问题难得多。
  - 得分最高的参与者有资格参加USAMO或USAJMO。
  - 分析 13： AIME具有挑战性的自由回答形式以及对高级高中数学的覆盖，使其成为评估AI在数学领域中深度理解和解决问题能力的严格测试。
  - 分析 14： AIME的题型设计旨在考察模型是否能够灵活运用各种数学知识和技巧来解决问题，这对于评估模型是否具备真正的数学智能至关重要。
- AI评估难度和创建者
  - AIME被认为极具挑战性，人类考生的中位数得分在15题中仅为4到6题。
  - 它由美国数学协会（MAA）管理。
  - AIME始于1983年，每年举办两次。
  - 难度级别与AI数学奥林匹克进步奖竞赛中约50%的问题相当。
  - 它比MATH等基准测试的难度更高。
  - 分析 15： AIME持续较低的人类中位数得分突显了其难度，使其成为评估AI解决超出标准高中课程范围的真正具有挑战性的数学问题能力的重要基准。
  - 分析 16： AIME的难度级别旨在确保只有具备顶尖数学能力的模型才能在该基准上取得显著成绩，从而推动AI在高级数学推理方面的发展。
- AI评估中不同模型的性能及原因
  - o3 Mini在AIME上取得了最高的准确率，为86.5%。
  - DeepSeek R1得分为74.0%。
  - o1得分为71.5%。
  - Grok 3 Mini Fast Beta High Reasoning也表现良好。
  - 推理模型通常表现最佳。
  - 与较新的2025年问题相比，模型在较旧的2024年版本上表现更好，这引起了人们对数据污染的担忧。
  - o1-mini在被告知使用更多tokens时往往能获得更好的结果。
  - OpenAI o1在AIME中位列美国排名前500名学生。
  - 分析 17： 虽然AI模型在AIME上取得了令人印象深刻的分数，但由于问题公开可用而存在数据污染的可能性，在解释这些结果时需要谨慎。在旧问题上表现更好支持了这种担忧。
  - 分析 18： 不同模型在AIME上的性能差异可能受到它们在训练数据中接触到的竞赛数学问题的数量和类型的影响，以及它们采用的特定推理和问题解决策略的影响。
GSM8K（八千年级小学数学）
- 评估范围和题型
  - GSM8K是一个高质量、语言多样的八千道小学数学应用题数据集。
  - 包含由人类问题编写者创建的8,500道问题。
  - 侧重于需要多步推理的基本数学问题。
  - 问题涉及基本的算术运算（+、-、×、÷）。
  - 解决方案通常需要2到8个步骤。
  - 分析 19： GSM8K提供了一个评估AI理解和解决需要通过多个步骤进行逻辑推理的简单数学文字题能力的基准。
  - 分析 20： GSM8K的题型设计旨在考察模型是否能够将自然语言描述的数学问题转化为一系列可执行的算术运算，并最终得到正确的答案。
- 难度级别和创建者
  - 问题概念简单，但由于多样性高，对于最先进的语言模型来说可能具有挑战性。
  - 一个聪明的初中生应该能够解决每一个问题。
  - 该数据集由OpenAI和Surge AI创建。
  - 相关论文的作者包括Karl Cobbe等人。
  - 分析 21： 尽管数学水平是小学水平，但GSM8K的语言多样性和需要多步推理使其成为AI的一个不简单的基准，突显了弥合自然语言理解与数学问题解决之间差距的挑战。
  - 分析 22： GSM8K的难度级别适中，既能考察模型的基本数学能力，又能检验其进行多步推理和解决实际问题的能力。
- 不同大语言模型的性能及原因
  - Anthropic Claude 3达到了95%的准确率。
  - Google Gemini Ultra得分为94.4%。
  - OpenAI GPT-4达到了92%。
  - Grok-3达到了90%。
  - Claude 3.5 Sonnet (HPT)达到了97.72%。
  - DUP prompt upon GPT-4达到了97.1%。
  - 性能随着时间的推移显着提高，顶级模型接近饱和。
  - 链式思维提示是一种常用的实现高性能的技术。
  - 验证技术也显着提高了性能。
  - 分析 23： 顶级模型在GSM8K上取得的高准确率表明AI在解决数学文字题方面取得了显着进展。链式思维推理和验证等技术在其中发挥着关键作用。然而，接近饱和的状态表明需要更具挑战性的基准。
  - 分析 24： 不同模型在GSM8K上的性能差异可能与它们在训练过程中学习到的解决数学问题的方法和策略有关，以及它们在执行多步推理时的能力有关。
PIQA（物理交互：问题回答）
- 评估范围和题型
  - PIQA是一个多项选择题数据集，测试模型在自然语言中推理物理常识的能力。
  - 侧重于涉及物理知识的日常场景，偏好非典型的解决方案。
  - 每个问题都有一个目标和两个可能的解决方案，一个是正确的，一个是错误的。
  - 灵感来源于instructables.com，该网站提供关于如何使用日常材料制作、手工制作或操作物品的说明。
  - 分析 25： PIQA评估了一般智能的一个关键方面——理解物理世界和日常物体的交互方式，这通常需要超越常见或典型的用途进行推理。
  - 分析 26： PIQA的题型设计旨在考察模型是否具备将自然语言描述的物理场景转化为对物体属性、功能和相互作用的理解的能力。
- 难度级别和创建者
  - 人类认为该数据集很容易（约95%的准确率），但大型预训练模型却难以应对（约75%）。
  - 该数据集由Yonatan Bisk等人创建。
  - 它包含大约20,000个问答对。
  - 分析 27： 人类和AI在PIQA上表现的显着差距突显了AI在仅从文本中获取和应用物理常识知识方面面临的挑战。
  - 分析 28： PIQA的难度级别旨在区分模型是否具备对物理世界的基本理解，以及是否能够基于这种理解进行推理和选择合适的解决方案。
- 不同大语言模型的性能及原因
  - Unicorn 11B取得了最高的准确率，为90.1%。
  - LLaMA3 8B+MoSLoRA达到了89.7%。
  - CompassMTL 567M with Tailor达到了88.3%。
  - 性能需要理解物体属性、功能和因果关系。
  - 模型难以处理需要对世界进行稳健的直观物理模型进行推理的问题。
  - 分析 29： 像Unicorn 11B这样的模型的性能表明，具有专门训练或架构的较大模型可能更适合处理PIQA的物理推理需求。
  - 分析 30： Unicorn 11B在PIQA上的成功可能归因于其专注于通用常识推理的训练，这使其能够更好地理解和回答关于物理交互的问题。
ARC（AI2推理挑战）
- 评估范围和题型（Easy vs. Challenge）
  - ARC是一个包含小学科学问题的问答数据集。
  - 侧重于3到9年级的科学考试题。
  - 分为Easy和Challenge两个子集，Challenge包含需要推理的更困难的问题。
  - Challenge子集包含检索式算法和词共现算法都无法正确回答的问题。
  - ARC-AGI（通用人工智能抽象和推理语料库）是另一个基准，侧重于视觉推理和在新的任务上快速学习技能的效率。
  - ARC-AGI任务涉及基于网格的视觉推理问题。
  - 分析 31： ARC分为Easy和Challenge两个子集，可以评估不同层次的推理能力，Challenge子集专门针对需要更高级推理的问题。另一方面，ARC-AGI测试的是与抽象推理和从少量示例中快速学习相关的另一种智能。
  - 分析 32： ARC-AGI的题型设计旨在考察模型是否具备人类在面对全新问题时所展现出的抽象、推理和泛化能力。
- 难度级别和创建者
  - ARC Challenge对于LLM来说比ARC Easy更难。
  - ARC由艾伦人工智能研究所（AI2）创建。
  - ARC-AGI由François Chollet推出。
  - ARC-AGI被设计成对人类来说容易，但对AI来说很难。
  - ARC-AGI侧重于流体智力，只需要基本的常识知识。
  - 分析 33： ARC-AGI（“人类容易，AI困难”）的设计原则使其成为一个独特的基准，用于识别人类智能和人工智能之间根本的区别，尤其是在抽象推理和泛化方面。
  - 分析 34： ARC-AGI的难度级别旨在考察模型是否具备人类在解决全新问题时所展现出的灵活性、创造性和高效性。
- 不同模型的性能及原因
  - GPT-4o在ARC上取得了高准确率。
  - ST-MoE-32B在ARC Easy上表现良好。
  - GPT-4在ARC Challenge上表现良好。
  - 由于评估设置，LLM通常难以应对ARC Challenge。
  - OpenAI o3在ARC-AGI上取得了突破性进展。
  - 纯LLM在ARC-AGI-2上得分为0。
  - o3在ARC-AGI上的性能归功于其程序合成能力。
  - ARC-AGI的性能随着模型规模的增大而提高。
  - 分析 35： 像o3这样的模型在ARC-AGI上的显着进步表明AI处理抽象推理任务的能力有所提高，但ARC-AGI-2持续存在的挑战表明，真正的通用智能仍然遥远。
  - 分析 36： 模型在ARC上的性能差异可能反映了它们在理解科学概念、进行逻辑推理以及处理多项选择题方面的不同能力。
CLUE（中文语言理解评估）
- 评估范围和任务
  - CLUE是一个中文语言理解评估基准。
  - 它包括多个任务，涵盖单句/句对分类和机器阅读理解。
  - 任务包括主题分类、语义相似度评分和自然语言推理。
  - 还包括长文本分类和机器阅读理解等任务。
  - CLUE旨在评估LLM在中文临床任务中的实际应用能力。
  - 分析 37： CLUE提供了一个全面的基准，用于评估中文语言理解的细微之处，涵盖了与实际应用相关的各种语言任务。
  - 分析 38： CLUE的任务设计旨在考察模型在不同层次的中文语言理解能力，包括词汇、语法、语义和篇章理解。
- 创建者和评估指标
  - CLUE是一个开放的、社区驱动的项目。
  - 它由一个NLP研究团队创建。
  - 临床语言理解评估（CLUE）基准包含六项任务，用于测试在医疗保健领域的实际应用。
  - 评估指标因任务而异，包括分类任务的准确率。
  - 分析 39： CLUE的社区驱动性质以及临床CLUE等专门版本的开发突显了为满足特定语言和领域需求而定制基准的重要性。
  - 分析 40： CLUE的评估指标设计旨在全面衡量模型在不同中文语言理解任务中的表现，从而为模型开发者提供有针对性的反馈。
- 不同模型的性能及原因
  - GLM-130B在多个CLUE任务中表现出色。
  - ERNIE和其他预训练的中文模型也表现良好。
  - CLUE的性能反映了模型理解和处理中文的能力。
  - 通用模型通常在临床CLUE任务上优于生物医学模型。
  - 分析 41： 不同模型在CLUE上的表现表明中文语言理解取得了进展，某些模型在特定任务中表现出色。通用模型有时在临床任务中优于专门的生物医学模型，这引发了人们对当前生物医学微调方法有效性的质疑。
  - 分析 42： 模型在CLUE上的性能差异可能与它们在训练过程中接触到的中文语料库的规模和质量有关，以及它们处理不同类型中文语言理解任务的能力有关。

探索AI模型比较评估方法

“角斗场”（Arena）
- 工作原理和用户参与
  - 像Chatbot Arena这样的Arena平台允许用户并排比较两个匿名AI聊天机器人。
  - 用户通过提问与聊天机器人互动，然后投票选出更好的回复。
  - 该平台使用Elo评分系统根据用户投票对模型进行排名。
  - 用户可以进行多轮对话来评估模型的连贯性。
  - 像Search Arena这样的新平台根据用户对真实用户查询的偏好评估搜索增强的LLM系统。
  - Agent Arena允许用户根据任务、LLM提供商、框架和工具比较和评估代理工作流程。
  - Open WebUI内置了一个评估功能，允许团队对模型响应进行评分，并在个性化排行榜上跟踪性能。
  - 分析 43： Arena式评估利用用户的集体智慧来提供更真实的AI模型性能评估，尤其是在主观质量（如帮助性和对话能力）方面。
  - 分析 44： Arena评估的工作原理类似于盲测，通过匿名比较不同模型的响应，消除了用户对特定模型先入为主的偏见，从而更客观地反映了模型的实际性能。
- 评估指标、优点和缺点
  - 评估指标主要是基于成对比较的Elo评分。
  - 优点包括难以轻易作弊和捕捉聊天机器人“好”的细微之处。
  - 基于真实用户互动提供动态和持续的评估。
  - 提供用户对不同模型偏好的见解。
  - 缺点包括人类偏好的主观性和潜在的偏见。
  - 可能与涉及长输入上下文或复杂推理的任务的性能相关性不高。
  - 可能受到某些LLM的用户讨好行为的影响。
  - 分析 45： 虽然Arena评估提供了关于用户偏好的宝贵见解，但其对人类判断的依赖引入了主观性和潜在的偏见。它们也可能无法完全捕捉更复杂或专门任务的性能。
  - 分析 46： Arena评估的优势在于能够快速收集大量用户反馈，并利用Elo评分系统进行动态排名，但其缺点在于结果可能受到参与用户群体的偏好和使用场景的限制。
基于排行榜的评估
- 排行榜的特点和示例
  - LLM排行榜根据模型在各种任务和基准上的性能对其进行排名。
  - 示例包括Open LLM排行榜、Chatbot Arena排行榜、MTEB排行榜和特定领域的排行榜。
  - 排行榜使用各种评估指标，如准确率、F1分数、困惑度、BLEU和ROUGE。
  - 一些排行榜包含人类偏好评估，如Chatbot Arena。
  - 排行榜有助于跟踪进展、比较模型并识别优势和劣势。
  - 分析 47： 排行榜提供了一个有价值的AI模型在标准化基准上的性能概览，方便进行比较和跟踪该领域的进展。包含多样化的基准和指标可以对模型能力进行多方面的评估。
  - 分析 48： 排行榜通过提供一个集中化的平台，展示了各种AI模型在不同任务上的性能，从而简化了模型选择的过程，并促进了社区对AI进展的理解。
- 适用性和局限性
  - 适用于模型选择、识别改进领域和跟踪随时间推移的进展。
  - 局限性包括可能过度拟合基准、数据污染以及对特定任务的狭隘关注。
  - 可能无法完全反映真实世界的性能或用户体验。
  - 可能很脆弱，对评估设置的微小变化很敏感。
  - 可能无法充分涵盖所有相关能力或伦理考量。
  - 分析 49： 虽然排行榜对于高层次的比较很有用，但它们在真实世界适用性、过度拟合的可能性以及对所有相关方面的覆盖方面的局限性，使得在解释它们时需要采取谨慎的态度。它们应与针对特定用例的评估相结合。
  - 分析 50： 排行榜的局限性在于它们可能无法捕捉到模型在特定应用场景中的实际表现，而且由于模型开发者可能会针对排行榜进行优化，因此排行榜上的高分并不一定意味着模型在所有任务上都表现出色。
- 其他比较评估方法
  - 成对比较法
    - 涉及直接比较两个模型或输出，以确定哪个更好，基于特定标准。
    - 可以使用LLM作为裁判来自动化评估过程。
    - 适用于比较模型、提示或配置。
    - 对于主观评估可能更可靠。
    - 基于LLM的成对评估比人工评估更快更便宜。
    - 分析 51： 成对比较提供了一种直接评估AI模型相对优势的方法，尤其是在主观质量方面。使用LLM作为裁判可以自动化此过程，使其更具可扩展性和成本效益。
    - 分析 52： 成对比较法通过直接比较两个模型的输出，能够更清晰地揭示它们在特定方面的优劣，这对于优化模型和选择最适合特定任务的模型非常有帮助。
  - 人工评估
    - 涉及人工评估员根据预定义的标准评估AI输出。
    - 被认为是主观和细致评估的黄金标准。
    - 可以评估连贯性、相关性、事实正确性和伦理考虑等质量。
    - 挑战包括成本高、耗时以及主观性和偏见的可能性。
    - 通常与自动化指标结合使用以进行全面评估。
    - 分析 53： 人工评估对于捕捉AI性能的定性方面并确保与人类价值观和期望保持一致仍然至关重要，尤其是在自动化指标不足的领域。然而，其资源密集型特性需要探索结合人工和自动化方法的混合方法。
    - 分析 54： 人工评估的价值在于其能够提供对模型输出质量、相关性和适用性的深入理解，但其缺点是难以规模化，并且可能受到评估者个人偏见的影响。

结论：AI能力评估的趋势和未来方向

该领域正朝着更全面、更细致的评估方法发展，这些方法超越了简单的准确性指标。越来越关注评估推理、泛化和伦理考虑。社区驱动的评估平台和使用LLM作为裁判的方法正在兴起。随着AI能力的进步，需要保持挑战性的基准。将评估方法与特定的用例和实际应用相结合非常重要。未来的方向可能涉及更动态和自适应的基准，以及改进人机协作评估的方法。

1. 表：关键AI能力评估基准概述

基准名称	主要评估范围	题型	创建者	主要关注点
MMLU	一般知识	多项选择	Dan Hendrycks等人	知识广度
MATH	数学推理	自由回答	Dan Hendrycks等人	推理深度
AIME	高级数学	自由回答	美国数学协会	复杂问题解决
GSM8K	小学数学	文字题	OpenAI和Surge AI	多步推理
PIQA	物理常识	多项选择	Yonatan Bisk等人	物理交互理解
ARC	科学推理/抽象推理	多项选择/视觉谜题	艾伦人工智能研究所/François Chollet	推理能力/技能习得效率
CLUE	中文语言理解	分类/阅读理解等	CLUE团队	语言理解的广度和深度

2. 表：顶级LLM在关键基准上的性能比较

模型名称	MMLU (%)	MATH (%)	AIME (%)	GSM8K (%)	PIQA (%)	ARC (Challenge) (%)
GPT-4	86.4	–	–	92	–	96.3
Claude 3.5 Sonnet	79	80	–	97.72	–	–
Grok-3	92.7	93.3	–	90	–	–
Gemini Ultra	83.7	–	–	94.4	–	–
o3 Mini	–	87.3	86.5	–	–	–
DeepSeek R1	–	–	74	–	–	–

3. 表：AI模型比较评估方法比较

评估方法	工作原理	主要评估指标	优点	缺点
“角斗场”（Arena）	用户匿名比较两个模型并投票	Elo评分	难以作弊，捕捉细微差别，动态评估	主观性，可能存在偏见，不一定适用于复杂任务
基于排行榜的评估	根据模型在标准化基准上的性能进行排名	准确率、F1分数、困惑度等	易于比较，跟踪进展	可能过度拟合基准，数据污染，关注点狭隘
成对比较法	直接比较两个模型或输出	偏好选择	适用于主观评估，自动化潜力	需要比较多个对，可能存在偏见
人工评估	人工评估员根据预定义标准评估输出	连贯性、相关性、正确性等	捕捉细微差别，考虑伦理	成本高，耗时，可能存在主观性和偏见

4. 表：不同评估方法因测试重点不同而偏向特定模型：

评估方法	测试重点	优势模型	原因
MMLU	广泛知识	GPT-4等大型LLM	大型模型因训练数据广泛，能覆盖多学科知识。
MATH	数学推理	数学专项模型	微调后的模型在竞赛级数学任务中表现更佳。
AIME	高级数学	Gemini 2.0 Flash	优化数学推理的模型在高难度任务中占优。
GSM8K	基础数学	Claude 3.5 Sonnet	大多数大型模型能轻松解决，微调模型更高效。
PIQA	物理常识	Unicorn 11B	具备常识训练的模型在日常场景中表现更好。
ARC	科学推理	科学微调LLM	科学数据训练的模型在科学问题中更准确。
CLUE	中文理解	ERNIE	中文专用模型因数据优化而表现优异。
Chatbot Arena	对话偏好	Claude	优化对话的模型在用户体验中排名靠前。

MCP简介

Jimmy He — Sun, 06 Apr 2025 18:03:01 +0000

PDF文件（高清）：MCP简介_update_20250417_pdf
XMind文件（源文件）：MCP简介_update_20250417_xmind

~~PDF文件（高清）：MCP简介~~
~~XMind文件（源文件）：MCP简介.xmind~~

pg中drop function报错不存在

Jimmy He — Tue, 21 Jan 2025 07:52:55 +0000

在pg中drop function会报错不存在，或者报错语法错误：

mydb01=>drop function getcpumem;
ERROR:Syntax error ator near";"
LINE 1: drop function getcpumem;

mydb01=>drop function getcpumem(integer,integer,integer,integer);
ERROR:function getcpumem(integer，integer，integer，integer) does not exist
mydb01=>

在这里需要注意一下，drop function的时候，需要带上function中定义的各个变量的类型。语法是：
DROP FUNCTION [ IF EXISTS ] name [ ( [ [ argmode ] [ argname ] argtype [, ...] ] ) ] [, ...] [ CASCADE | RESTRICT ]
在pg中，我们可以通过pg_proc看有哪些funcition，但是pg_proc中的变量类型，虽然在proargtypes中有记录，但是它是一个数字编码，需要通过::regtype[]来转换一下成可识别的类型。
所以，你要先找出这个function的各个变量的类型，可以用下面的语句查找：

SELECT proname, proargtypes::regtype[], nspname
FROM pg_proc
JOIN pg_namespace ON pg_proc.pronamespace = pg_namespace.oid
WHERE proname = 'getcpumem';

此时运行

drop function getcpumem(integer,numeric,numeric,varchar,integer,numeric,numeric);

就可以正常删除了。

阿里云rds主备切换和跨可用区迁移断联测试

Jimmy He — Mon, 06 Jan 2025 08:04:13 +0000

高清PDF：阿里云主备切换和跨可用区迁移示意图
高清VISIO：阿里云主备切换和跨可用区迁移示意图

先说结论：阿里云说的发生切换时（不管是主备切换还是跨可用区切换），影响时间是30秒内，这个是基本成立的。

测试是每种场景测试4~5次，观察其平均效果。

	主备库切换	迁移可用区
MySQL	只读：1秒	只读：10~20秒
PostgreSQL	断联：1秒只读：8~9秒正常读写：5~30秒断联：1秒只读：8~9秒汇总：影响20秒左右	只读：8~9秒断联：1秒正常读写：5秒断联：1秒只读：15秒~30秒汇总：影响约30秒
MongoDB（非分片）	只读：25秒断联：12秒汇总：影响37秒	有条件的只读（需要执行rs.slaveOk()才能只读）：16~26秒断联：2秒有条件的只读（需要执行rs.slaveOk()才能只读）：4~11秒汇总：影响40秒内

（一）MySQL：
1. 运行压测语句：

while true
do
RUN_FLAG=`ps -ef |grep sysbench |grep run |grep -v grep |wc -l`
if [ ${RUN_FLAG} -lt 1 ]; then
    sysbench oltp_read_write --mysql-host=xxxxxxxxxx.rds.aliyuncs.com --mysql-port=3306 --mysql-user=myuser --mysql-password=mypassword --mysql-db=testdb --tables=32 --table-size=10000000 --threads=32 --time=6000 --report-interval=1 run
    echo "====== `date` ======The sysbench process is STOP."
else
    echo "====== `date` ======The sysbench process is RUNNING."
fi
sleep 1
done

2. 运行查询语句：

while true
do 
mysql -hxxxxxxxxxx.rds.aliyuncs.com -umyuser -Dtestdb -pmypassword -e"select count(*) from orasup_test1"
echo "========***************==========`date`========*************====="
sleep 0.5
done

3. 运行dml语句：

while true
do 
mysql -hxxxxxxxxxx.rds.aliyuncs.com -myuser -Dtestdb -pmypassword -e"update orasup_test1 set b=now() where a=1"
echo "========***************==========`date`========*************====="
sleep 0.5
done

观测在有压力的情况下，mysql进行主备切换，和跨可用区切换，受影响的时间范围。

（二）PostgreSQL
1. 运行压测语句：

while true
do
RUN_FLAG=`ps -ef |grep pgbench |grep -v grep |wc -l`
if [ ${RUN_FLAG} -lt 1 ]; then
    echo "====== `date` ======The sysbench process is STOP."
    nohup pgbench -c 32 -j 2  -T 6000 -h xxxxxxxxxx.rds.aliyuncs.com -U myuser testdb &
else
    echo "====== `date` ======The sysbench process is RUNNING."
fi
sleep 1
done

2. 运行查询语句：

while true
do 
psql -h xxxxxxxxxx.rds.aliyuncs.com -U myuser -d testdb -c "select count(*) from orasup_test1"
echo "========***************==========`date`========*************====="
sleep 0.5
done

3. 运行dml语句：

while true
do 
psql -h xxxxxxxxxx.rds.aliyuncs.com -U app_rw -d myuser -c "update orasup_test1 set b=now() where a=1"
echo "========***************==========`date`========*************====="
sleep 0.5
done

观测在有压力的情况下，pg进行主备切换，和跨可用区切换，受影响的时间范围。

（三）MongoDB
1. 运行压测语句：

while true
do 
echo "========***************==========`date`========*************====="
/data/mongodb/4.2.0/bin/mongo --host xxxxxxxxxx.rds.aliyuncs.com --port 3717 testdb --username myuser --password 'mypassword' --authenticationDatabase "admin" --quiet --eval  'db.myNewCollection.updateMany({ name: "User_J" }, { $set: { mytime: new Date() } })'
echo "========***************========== BIG TRX ========*************====="
sleep 0.5
done

2. 运行查询语句：

while true
do 
echo "========***************==========`date`========*************====="
dig xxxxxxxxxx.rds.aliyuncs.com |grep "IN A"
/data/mongodb/4.2.0/bin/mongo --host xxxxxxxxxx.rds.aliyuncs.com --port 3717 testdb --username myuser --password 'mypassword' --authenticationDatabase "admin" --quiet --eval  'db.myCollection.find({name:"Bob"})'
sleep 1
done

3. 运行dml语句：

while true
do 
echo "========***************==========`date`========*************====="
dig xxxxxxxxxx.rds.aliyuncs.com |grep "IN A"
/data/mongodb/4.2.0/bin/mongo --host xxxxxxxxxx.rds.aliyuncs.com --port 3717 testdb --username myuser --password 'mypassword' --authenticationDatabase "admin" --quiet --eval  'db.myCollection.updateOne({ name: "Bob" }, { $set: { mytime: new Date() } })'
sleep 1
done

观测在有压力的情况下，mongodb进行主备切换，和跨可用区切换，受影响的时间范围。

这里为什么rds pg做主备切换的时候，会断联两次，且中间有可读写的情况。经过向阿里云同学的请教得知：
rds pg，首先ha切换分为两种场景，一种是被动HA切换，另一种是主动HA切换：

对于被动HA切换的场景：
1. 当探测到主节点不可用时，把slb后端ip切换为从节点ip
2. 对老主节点进行 demote（demote 会重启实例，保证所有存量连接断开）
3. 对老从节点进行 promote
所以被动HA切换的情况下是一次断连。

对于主动HA切换的场景：
1. 检查主备复制延迟，由于主动HA切换属于运维动作，需要保证主备0延迟从而避免数据丢失
2. 当检查到主备复制有延迟的情况下，对主节点设置只读并kill session（第一次断连）并等待30s
3. 当主备延迟为0之后把主节点关闭只读并下发HA切换
4. 把slb后端ip切换为从节点ip
5. 对老主节点进行 demote（demote 会重启实例，保证所有存量连接断开，第二次断连）
6. 对老从节点进行 promote
所以主动HA切换且主备有延迟的情况下，会有两次断连，目前是避免数据丢失同时保证切换的成功率，避免有一点延迟的情况下HA始终无法切换导致影响用户的运维动作。

因此，我的测试场景中：

oracle无感知修改应用用户密码

Jimmy He — Mon, 30 Dec 2024 03:51:56 +0000

几百个微服务的用户，都用了同一个用户user1来连接数据库。如果要修改user1的用户，会导致几百个微服务都要在同一时间内重启，业务不太接受这种方式，业务希望用灰度的方式逐步切换。

因此可以采用代理用户的方式来修改密码。

大致步骤：
（1）假如平时用的用户叫user1，创建代理用户 create user proxy_user1 identified by PASSWORD;
（2）alter user uese1 grant connect throgh proxy_user1
（3）应用【逐个切换】切换到代理代理用户proxy_user1，需要注意的地方，是连接方式修改了。本来是 conn user1/passwd_of_user1，现在是要 conn proxy_user1[user1]/passwd_of_proxy_user1. 需要应用逐个修改连接方式。用代理用户的密码来登录。
（4）全部应用的连接，切到代理用户之后，修改原来的user1的密码。
（5）修改user1为新密码
（6）应用逐个切回user1

检查当前的连接，是否有使用代理用户（在v$session是看不到代理用户，只能看到被代理的用户，需要配合v$session_connect_info 看）。

select s.sid, s.serial#, s.username, s.osuser, sci.authentication_type
from   v$session s,
       v$session_connect_info sci
where  s.sid = sci.sid
and    s.serial# = sci.serial#
and    sci.authentication_type = 'PROXY';

不得不说，oracle还是挺强大，在别的数据库好像没这个功能。

OracleBlog

关于cloudflare故障的一些思考

Oracle AI Database 26ai 新特性小结

pg和oracle分区的一些心得

valkey学习笔记

DTS故障处理流程

学习笔记：One API系统架构与实现笔记

学习笔记：分布式训练模型

分布式训练模型（Distributed Training）

分布式训练的四种主要方式

1. Data Parallelism（DP） – 数据并行

2. Tensor Parallelism（TP） – 张量并行

3. Pipeline Parallelism（PP） – 流水线并行

4. Expert Parallelism（EP） – 专家并行

分布式训练常用技术

DeepSpeed ZeRO (Zero Redundancy Optimizer)

DDP（Distributed Data Parallel）

分布式训练中的通信方式

NCCL（NVIDIA Collective Communications Library）

训练中的重要术语

GPU 监控

Prefill / Decode 分离（PD分离）

其他相关概念

双向注意力（Bidirectional Attention）

学习笔记：AI模型能力评估

MCP简介

pg中drop function报错不存在

阿里云rds主备切换和跨可用区迁移断联测试

MySQL

只读：1秒

只读：10~20秒

PostgreSQL

断联：1秒

只读：8~9秒

正常读写：5~30秒

断联：1秒

只读：8~9秒

汇总：影响20秒左右

只读：8~9秒

断联：1秒

正常读写：5秒

断联：1秒

只读：15秒~30秒

汇总：影响约30秒

MongoDB（非分片）

只读：25秒

断联：12秒

汇总：影响37秒

有条件的只读（需要执行rs.slaveOk()才能只读）：16~26秒

断联：2秒

有条件的只读（需要执行rs.slaveOk()才能只读）：4~11秒

汇总：影响40秒内

oracle无感知修改应用用户密码