Bohr-L Bohr-L
首页
技术
常见面试题
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

刘博

I'm a slow walker, But I never walk backwards.
首页
技术
常见面试题
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 数据处理与存储类

    • 海量 QQ 号去重【腾讯】
    • 百万级别数据的 Excel 如何快速导入到数据库中
    • 从 MySQL 千万条数据中搜索到指定数据
    • 为什么复杂的架构一定要做分层设计?
    • 什么是网络四元组
  • Spring 生态类

  • 缓存问题类

  • 多线程类

  • JVM 类

  • MySQL 类

  • Java 8 + 特性类

  • 其他技术类

  • 常见面试题
  • 数据处理与存储类
刘博
2025-12-28

海量 QQ 号去重【腾讯】

QQ 号是 6-13 位数字,可通过以下高效方案去重:

  • 方案 1:哈希表 / HashSet:将 QQ 号作为 Key 存入 HashSet(或 Redis 的 Set 结构),利用哈希表的去重特性,插入时自动过滤重复值。适用于内存可容纳数据的场景,时间复杂度 O (n),空间复杂度 O (n)。
  • 方案 2:布隆过滤器(Bloom Filter):若数据量远超内存(如 10 亿级),先通过布隆过滤器初步过滤,存在的 QQ 号再进一步验证(如查数据库),不存在的直接排除。需容忍极低的误判率(可通过调整哈希函数数量和位数组大小控制),空间效率远超哈希表。
  • 方案 3:外部排序去重:若数据存储在文件中,采用归并排序(如多路归并)对文件分块排序,排序过程中相邻去重,最终合并结果。适用于超大规模离线数据,时间复杂度 O (n log n),依赖磁盘 IO 但内存占用低。

上次更新: 12/30/2025
百万级别数据的 Excel 如何快速导入到数据库中

百万级别数据的 Excel 如何快速导入到数据库中→

最近更新
01
CPU 使用率较高排查和解决
12-29
02
JVM OOM 问题如何排查和解决
12-29
03
接口防刷怎么实现?
12-29
更多文章>
Theme by Vdoing | Copyright © 2025-2026 Bohr-L's note
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式