LevelDB 设计介绍与源码分析

<h2>LevelDB 设计介绍与源码分析</h2><p></p><p>LevelDB 是一个由 Google 开发的高性能键值（Key-Value）存储库。它采用日志结构化合并树（Log-Structured Merge-Tree, LSM-Tree）作为其核心数据结构，旨在为写密集型应用提供高吞吐量。本文将深入介绍 LevelDB 的设计理念，并结合源码对其核心功能进行分析。</p><p></p><h3>一、LevelDB 核心设计理念</h3><p></p><p>LevelDB 的设计哲学可以概括为以下几点：</p><ul><li><p><b>LSM-Tree 架构</b>: 这是 LevelDB 的基石。LSM-Tree 的核心思想是将离散的、随机的写操作转化为批量的、顺序的写操作，从而极大地提升写入性能。这对于机械硬盘（HDD）和固态硬盘（SSD）都非常友好。</p></li><li><p><b>顺序 I/O 优先</b>: LevelDB 尽力将磁盘 I/O 操作转换为顺序读写。无论是日志写入、MemTable 到 SSTable 的持久化，还是后台的 Compaction 过程，都以顺序 I/O 为主，有效避免了昂贵的随机寻道。</p></li><li><p><b>多层次数据存储</b>: 数据在 LevelDB 中并非存储在单一位置，而是分布在内存中的 MemTable、不可变 MemTable 以及磁盘上多层次的 SSTable 文件中。这种分层结构使得数据可以根据其新旧程度进行有效的组织和管理。</p></li><li><p><b>后台自动合并 (Compaction)</b>: 为了解决 LSM-Tree 读取性能下降和空间放大的问题，LevelDB 在后台通过专门的线程进行 Compaction 操作。该操作会合并不同层次的 SSTable 文件，清除冗余和已删除的数据，并保持数据有序。</p></li><li><p><b>数据压缩</b>: LevelDB 支持对 SSTable 中的数据块进行压缩（默认为 Snappy），有效减少磁盘占用空间，并在一定程度上提升 I/O 性能。</p></li><li><p><b>快照与前缀压缩</b>: LevelDB 支持创建数据快照，提供特定时间点的一致性视图。同时，在 SSTable 内部，通过对相邻的 Key 进行前缀压缩，进一步减小了存储空间。</p></li></ul><p></p><h3>二、LevelDB 整体架构</h3><p></p><p>LevelDB 的整体架构主要由以下几个组件构成：</p><div class="horizontal-scroll-wrapper"><div class="table-block-component"><response-element class="" ng-version="0.0.0-PLACEHOLDER">
组件 | 位置 | 描述
-- | -- | --
Log (Write-Ahead Log) | 磁盘 | 预写日志文件（.log 文件）。任何写操作在写入 MemTable 之前，都会先以顺序追加的方式写入 Log 文件，确保了数据的持久性和崩溃恢复能力。
MemTable | 内存 | 一个可变的、内存中的数据结构，底层采用 SkipList（跳表）实现，用于保存最近的写操作。所有读写请求都会首先经过 MemTable。
Immutable MemTable | 内存 | 当 MemTable 的大小达到预设阈值（默认为 4MB）时，会转变为一个只读的 Immutable MemTable。后台线程会将其内容持久化到磁盘上的 SSTable 文件中。
SSTable (Sorted String Table) | 磁盘 | 有序字符串表文件（.ldb 文件），是 LevelDB 在磁盘上的主要数据存储形式。SSTable 内部的数据按 Key 有序排列，并且是不可变的。SSTable 分为多个层级（Level 0 到 Level N）。
MANIFEST | 磁盘 | 清单文件。记录了数据库的所有元数据信息，例如各个 SSTable 文件所属的层级、Key 的范围等。数据库每次状态变更（如 Compaction 完成）都会生成新的 MANIFEST 文件。
CURRENT | 磁盘 | 一个简单的文本文件，内容指向当前最新的 MANIFEST 文件的文件名。
后台线程 |   | 主要负责执行 Compaction 操作，将 Immutable MemTable 刷写到 Level 0，以及将上层 SSTable 合并到下层。

</div><div _ngcontent-ng-c3917933265="" hide-from-message-actions="" class="table-footer hide-from-message-actions ng-star-inserted"><button _ngcontent-ng-c3917933265="" mat-button="" class="mdc-button mat-mdc-button-base mat-mdc-button mat-unthemed" mat-ripple-loader-uninitialized="" mat-ripple-loader-class-name="mat-mdc-button-ripple" jslog="184701;track:generic_click,impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,null,null,null,null,null,1,null,null,null,0]]"><span class="mat-mdc-button-persistent-ripple mdc-button__ripple"></span><span class="mdc-button__label"><span _ngcontent-ng-c3917933265="" class="export-sheets-button"><span _ngcontent-ng-c3917933265="" class="export-sheets-icon"><mat-icon _ngcontent-ng-c3917933265="" role="img" fonticon="drive_spreadsheet" class="mat-icon notranslate google-symbols mat-ligature-font mat-icon-no-color" aria-hidden="true" data-mat-icon-type="font" data-mat-icon-name="drive_spreadsheet"></mat-icon></span><span _ngcontent-ng-c3917933265="">导出到 Google 表格</span></span></span><span class="mat-focus-indicator"></span><span class="mat-mdc-button-touch-target"></span></button></div></div></table-block></response-element></div></div><p></p><h3>三、源码分析：核心流程</h3><p></p><p></p><h4>1. 写操作 (Put) 流程</h4><p></p><p>当用户调用 <code>db-&gt;Put(write_options, key, value)</code> 时，其内部执行流程如下：</p><ol start="1"><li><p><b>构造 <code>WriteBatch</code></b>: <code>Put</code> 操作首先会被封装成一个 <code>WriteBatch</code> 对象。<code>WriteBatch</code> 可以包含一个或多个写操作（Put 或 Delete），保证了这些操作的原子性。</p></li><li><p><b>写入 WAL (Log)</b>: 为了保证数据不丢失，<code>WriteBatch</code> 的内容会被序列化并以顺序追加的方式写入到当前的 <code>log</code> 文件中。这部分的核心实现在 <code>DBImpl::Write()</code> 中，它会调用 <code>log_-&gt;AddRecord()</code>。</p><response-element class="" ng-version="0.0.0-PLACEHOLDER"><code-block _nghost-ng-c3802010639="" class="ng-tns-c3802010639-80 ng-star-inserted" style=""><div _ngcontent-ng-c3802010639="" class="code-block ng-tns-c3802010639-80 ng-animate-disabled ng-trigger ng-trigger-codeBlockRevealAnimation" jslog="223238;track:impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]]" style="display: block;"><div _ngcontent-ng-c3802010639="" class="code-block-decoration header-formatted gds-title-s ng-tns-c3802010639-80 ng-star-inserted" style=""><span _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-80">C++</span><div _ngcontent-ng-c3802010639="" class="buttons ng-tns-c3802010639-80 ng-star-inserted"><button _ngcontent-ng-c3802010639="" aria-label="复制代码" mat-icon-button="" mattooltip="复制代码" class="mdc-icon-button mat-mdc-icon-button mat-mdc-button-base mat-mdc-tooltip-trigger copy-button ng-tns-c3802010639-80 mat-unthemed ng-star-inserted" mat-ripple-loader-uninitialized="" mat-ripple-loader-class-name="mat-mdc-button-ripple" mat-ripple-loader-centered="" jslog="179062;track:generic_click,impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]];mutable:true"><span class="mat-mdc-button-persistent-ripple mdc-icon-button__ripple"></span><mat-icon _ngcontent-ng-c3802010639="" role="img" fonticon="content_copy" class="mat-icon notranslate google-symbols mat-ligature-font mat-icon-no-color" aria-hidden="true" data-mat-icon-type="font" data-mat-icon-name="content_copy"></mat-icon><span class="mat-focus-indicator"></span><span class="mat-mdc-button-touch-target"></span></button></div></div><div _ngcontent-ng-c3802010639="" class="formatted-code-block-internal-container ng-tns-c3802010639-80"><div _ngcontent-ng-c3802010639="" class="animated-opacity ng-tns-c3802010639-80"><pre _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-80"><code _ngcontent-ng-c3802010639="" role="text" data-test-id="code-content" class="code-container formatted ng-tns-c3802010639-80"><span class="hljs-comment">// db/db_impl.cc</span>
<span class="hljs-function">Status <span class="hljs-title">DBImpl::Write</span><span class="hljs-params">(<span class="hljs-keyword">const</span> WriteOptions&amp; options, WriteBatch* my_batch)</span> </span>{
  <span class="hljs-comment">// ...</span>
  <span class="hljs-comment">// 1. Add to the Write-Ahead Log</span>
  <span class="hljs-keyword">if</span> (options.sync) {
    <span class="hljs-comment">// ...</span>
  }
  status = log_-&gt;AddRecord(WriteBatchInternal::Contents(my_batch));
  <span class="hljs-comment">// ...</span>
}
</code></pre></div></div></div></code-block></response-element></li><li><p><b>写入 MemTable</b>: 在成功写入 WAL 之后，<code>WriteBatch</code> 的内容会被应用到内存中的 <code>MemTable</code>。<code>MemTable</code> 的底层是一个 <code>SkipList</code>，可以高效地支持插入和查找。</p><response-element class="" ng-version="0.0.0-PLACEHOLDER"><code-block _nghost-ng-c3802010639="" class="ng-tns-c3802010639-81 ng-star-inserted" style=""><div _ngcontent-ng-c3802010639="" class="code-block ng-tns-c3802010639-81 ng-animate-disabled ng-trigger ng-trigger-codeBlockRevealAnimation" jslog="223238;track:impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]]" style="display: block;"><div _ngcontent-ng-c3802010639="" class="code-block-decoration header-formatted gds-title-s ng-tns-c3802010639-81 ng-star-inserted" style=""><span _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-81">C++</span><div _ngcontent-ng-c3802010639="" class="buttons ng-tns-c3802010639-81 ng-star-inserted"><button _ngcontent-ng-c3802010639="" aria-label="复制代码" mat-icon-button="" mattooltip="复制代码" class="mdc-icon-button mat-mdc-icon-button mat-mdc-button-base mat-mdc-tooltip-trigger copy-button ng-tns-c3802010639-81 mat-unthemed ng-star-inserted" mat-ripple-loader-uninitialized="" mat-ripple-loader-class-name="mat-mdc-button-ripple" mat-ripple-loader-centered="" jslog="179062;track:generic_click,impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]];mutable:true"><span class="mat-mdc-button-persistent-ripple mdc-icon-button__ripple"></span><mat-icon _ngcontent-ng-c3802010639="" role="img" fonticon="content_copy" class="mat-icon notranslate google-symbols mat-ligature-font mat-icon-no-color" aria-hidden="true" data-mat-icon-type="font" data-mat-icon-name="content_copy"></mat-icon><span class="mat-focus-indicator"></span><span class="mat-mdc-button-touch-target"></span></button></div></div><div _ngcontent-ng-c3802010639="" class="formatted-code-block-internal-container ng-tns-c3802010639-81"><div _ngcontent-ng-c3802010639="" class="animated-opacity ng-tns-c3802010639-81"><pre _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-81"><code _ngcontent-ng-c3802010639="" role="text" data-test-id="code-content" class="code-container formatted ng-tns-c3802010639-81"><span class="hljs-comment">// db/db_impl.cc -&gt; Write()</span>
<span class="hljs-comment">// 2. Insert into the MemTable</span>
<span class="hljs-keyword">if</span> (status.ok() &amp;&amp; my_batch != <span class="hljs-literal">nullptr</span>) {
  status = WriteBatchInternal::InsertInto(my_batch, mem_);
}
</code></pre></div></div></div></code-block></response-element><p><code>WriteBatchInternal::InsertInto</code> 会遍历 <code>WriteBatch</code> 中的所有操作，并调用 <code>mem_-&gt;Add()</code> 将键值对插入到底层的跳表中。</p></li><li><p><b>MemTable 切换</b>: 当 <code>mem_</code> 的大小超过 <code>options.write_buffer_size</code>（默认为 4MB）时，会触发切换：</p><ul><li><p>当前的 <code>mem_</code> 变为 <code>imm_</code> (Immutable MemTable)。</p></li><li><p>创建一个新的 <code>log</code> 文件和一个新的 <code>mem_</code>。</p></li><li><p>后台 Compaction 线程被唤醒，将 <code>imm_</code> 的内容刷写到磁盘的 SSTable 文件中（Level 0）。这个过程被称为 Minor Compaction。</p></li></ul></li></ol><p></p><h4>2. 读操作 (Get) 流程</h4><p></p><p>当用户调用 <code>db-&gt;Get(read_options, key, &amp;value)</code> 时，查找过程遵循一个明确的顺序，以保证能读到最新的数据：</p><ol start="1"><li><p><b>查询 <code>MemTable</code></b>: 首先在当前可写的 <code>mem_</code> 中查找 <code>key</code>。由于 <code>MemTable</code> 中保存的是最新的数据，如果找到，则直接返回结果。</p></li><li><p><b>查询 <code>Immutable MemTable</code></b>: 如果在 <code>mem_</code> 中未找到，则接着在 <code>imm_</code> 中查找。<code>imm_</code> 是一个只读的 MemTable，正在等待被持久化。</p></li><li><p><b>查询 SSTable</b>: 如果内存中都未找到，则需要从磁盘上的 SSTable 文件中查找。这个过程是分层进行的：</p><ul><li><p><b>Level 0</b>: 首先查找 Level 0 的所有 SSTable 文件。Level 0 的特殊之处在于，它的 SSTable 文件之间可能存在 Key 的重叠（因为它们是直接由 MemTable dump 产生的）。因此，需要依次查找 Level 0 的所有文件。</p></li><li><p><b>Level 1 及更高层级</b>: 对于 Level 1 及以上的层级，其内部的 SSTable 文件保证了 Key 的范围互不重叠。因此，可以通过二分查找快速定位到 <code>key</code> 可能所在的那个 SSTable 文件。</p></li><li><p><b>在 SSTable 内部查找</b>: 定位到具体的 SSTable 文件后，会首先利用文件末尾的索引块（Index Block）快速定位到 <code>key</code> 可能所在的 数据块（Data Block）。然后将该数据块加载到内存中，在数据块内部进行查找。为了加速这个过程，LevelDB 还会使用布隆过滤器（Bloom Filter）来快速判断一个 SSTable 或一个 Data Block 中是否<b>可能</b>存在某个 <code>key</code>，从而避免不必要的磁盘读取。</p></li></ul><p>整个查找过程在 <code>DBImpl::Get()</code> 中实现，其核心是调用 <code>version_-&gt;Get()</code>，这里的 <code>version_</code> 对象封装了当前所有 SSTable 文件的元数据信息。</p><response-element class="" ng-version="0.0.0-PLACEHOLDER"><code-block _nghost-ng-c3802010639="" class="ng-tns-c3802010639-82 ng-star-inserted" style=""><div _ngcontent-ng-c3802010639="" class="code-block ng-tns-c3802010639-82 ng-animate-disabled ng-trigger ng-trigger-codeBlockRevealAnimation" jslog="223238;track:impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]]" style="display: block;"><div _ngcontent-ng-c3802010639="" class="code-block-decoration header-formatted gds-title-s ng-tns-c3802010639-82 ng-star-inserted" style=""><span _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-82">C++</span><div _ngcontent-ng-c3802010639="" class="buttons ng-tns-c3802010639-82 ng-star-inserted"><button _ngcontent-ng-c3802010639="" aria-label="复制代码" mat-icon-button="" mattooltip="复制代码" class="mdc-icon-button mat-mdc-icon-button mat-mdc-button-base mat-mdc-tooltip-trigger copy-button ng-tns-c3802010639-82 mat-unthemed ng-star-inserted" mat-ripple-loader-uninitialized="" mat-ripple-loader-class-name="mat-mdc-button-ripple" mat-ripple-loader-centered="" jslog="179062;track:generic_click,impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]];mutable:true"><span class="mat-mdc-button-persistent-ripple mdc-icon-button__ripple"></span><mat-icon _ngcontent-ng-c3802010639="" role="img" fonticon="content_copy" class="mat-icon notranslate google-symbols mat-ligature-font mat-icon-no-color" aria-hidden="true" data-mat-icon-type="font" data-mat-icon-name="content_copy"></mat-icon><span class="mat-focus-indicator"></span><span class="mat-mdc-button-touch-target"></span></button></div></div><div _ngcontent-ng-c3802010639="" class="formatted-code-block-internal-container ng-tns-c3802010639-82"><div _ngcontent-ng-c3802010639="" class="animated-opacity ng-tns-c3802010639-82"><pre _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-82"><code _ngcontent-ng-c3802010639="" role="text" data-test-id="code-content" class="code-container formatted ng-tns-c3802010639-82"><span class="hljs-comment">// db/version_set.cc</span>
<span class="hljs-function"><span class="hljs-keyword">void</span> <span class="hljs-title">Version::Get</span><span class="hljs-params">(<span class="hljs-keyword">const</span> ReadOptions&amp; options, <span class="hljs-keyword">const</span> LookupKey&amp; k, <span class="hljs-built_in">std</span>::<span class="hljs-built_in">string</span>* value, Status* s)</span> </span>{
  <span class="hljs-comment">// ...</span>
  <span class="hljs-comment">// Search sequence: memtable, immutable memtable, then files in level 0, then files in levels &gt; 0.</span>
  <span class="hljs-comment">// ...</span>
  <span class="hljs-keyword">for</span> (<span class="hljs-keyword">int</span> level = <span class="hljs-number">0</span>; level &lt; config::kNumLevels; level++) {
    <span class="hljs-comment">// ... search files in 'level' ...</span>
  }
}
</code></pre></div></div></div></code-block></response-element></li></ol><p></p><h4>3. Compaction 过程</h4><p></p><p>Compaction 是 LevelDB 的灵魂，它负责垃圾回收、减少读放大和空间放大。Compaction 分为两种：</p><ul><li><p><b>Minor Compaction</b>: 将 Immutable MemTable dump 成 Level 0 的 SSTable 文件。</p></li><li><p><b>Major Compaction</b>: 合并上下两层 SSTable 文件的过程。</p></li></ul><p><b>触发时机</b>:</p><ul><li><p>当 Level 0 的文件数量超过某个阈值（<code>kL0_CompactionTrigger</code>，通常是 4）。</p></li><li><p>当某个非 Level 0 的层级（Level L）的总大小超过其预设目标大小（<code>10^L</code> MB）。</p></li></ul><p><b>执行流程</b>:</p><ol start="1"><li><p><b>选择 Compaction 文件</b>:</p><ul><li><p>对于从 Level 0 开始的 Compaction，会选择 Level 0 中所有与 Level 1 有重叠 Key 范围的 SSTable 文件。</p></li><li><p>对于从 Level L (L &gt; 0) 开始的 Compaction，会从 Level L 中选择一个文件，并找出所有在 Level L+1 中与它有 Key 范围重叠的文件。</p></li></ul></li><li><p><b>执行合并</b>:</p><ul><li><p>后台线程会创建一个迭代器（<code>MergingIterator</code>），该迭代器可以同时遍历所有被选中的 SSTable 文件，并按 Key 的顺序逐个返回键值对。</p></li><li><p>遍历 <code>MergingIterator</code>，将有效的（未被更高层或更新的 Key 覆盖或删除的）键值对写入到新的 SSTable 文件中（位于 Level L+1）。</p></li><li><p>在这个过程中，被删除的键（带有删除标记）和旧版本的键值对会被自然地丢弃。</p></li></ul></li><li><p><b>安装新版本</b>:</p><ul><li><p>当新的 SSTable 文件生成后，LevelDB 会创建一个新的 <code>Version</code>。这个 <code>Version</code> 会记录：</p><ul><li><p>删除了哪些旧的 SSTable 文件。</p></li><li><p>添加了哪些新的 SSTable 文件。</p></li></ul></li><li><p>这个变更会被记录到新的 <code>MANIFEST</code> 文件中。</p></li><li><p>最后，原子地将 <code>CURRENT</code> 文件指向新的 <code>MANIFEST</code> 文件。一旦 <code>CURRENT</code> 文件更新成功，所有新的读操作都将使用这个新的 <code>Version</code>。</p></li></ul><p>Compaction 的核心逻辑在 <code>DBImpl::BackgroundCompaction()</code> 中，它会构建一个 <code>Compaction</code> 对象来封装单次合并的所有信息。</p><response-element class="" ng-version="0.0.0-PLACEHOLDER"><code-block _nghost-ng-c3802010639="" class="ng-tns-c3802010639-83 ng-star-inserted" style=""><div _ngcontent-ng-c3802010639="" class="code-block ng-tns-c3802010639-83 ng-animate-disabled ng-trigger ng-trigger-codeBlockRevealAnimation" jslog="223238;track:impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]]" style="display: block;"><div _ngcontent-ng-c3802010639="" class="code-block-decoration header-formatted gds-title-s ng-tns-c3802010639-83 ng-star-inserted" style=""><span _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-83">C++</span><div _ngcontent-ng-c3802010639="" class="buttons ng-tns-c3802010639-83 ng-star-inserted"><button _ngcontent-ng-c3802010639="" aria-label="复制代码" mat-icon-button="" mattooltip="复制代码" class="mdc-icon-button mat-mdc-icon-button mat-mdc-button-base mat-mdc-tooltip-trigger copy-button ng-tns-c3802010639-83 mat-unthemed ng-star-inserted" mat-ripple-loader-uninitialized="" mat-ripple-loader-class-name="mat-mdc-button-ripple" mat-ripple-loader-centered="" jslog="179062;track:generic_click,impression;BardVeMetadataKey:[[&quot;r_e1889c09be59cd0e&quot;,&quot;c_4d66005295f1ec21&quot;,null,&quot;rc_87e275df97f9f986&quot;,null,null,&quot;zh&quot;,null,1,null,null,1,0]];mutable:true"><span class="mat-mdc-button-persistent-ripple mdc-icon-button__ripple"></span><mat-icon _ngcontent-ng-c3802010639="" role="img" fonticon="content_copy" class="mat-icon notranslate google-symbols mat-ligature-font mat-icon-no-color" aria-hidden="true" data-mat-icon-type="font" data-mat-icon-name="content_copy"></mat-icon><span class="mat-focus-indicator"></span><span class="mat-mdc-button-touch-target"></span></button></div></div><div _ngcontent-ng-c3802010639="" class="formatted-code-block-internal-container ng-tns-c3802010639-83"><div _ngcontent-ng-c3802010639="" class="animated-opacity ng-tns-c3802010639-83"><pre _ngcontent-ng-c3802010639="" class="ng-tns-c3802010639-83"><code _ngcontent-ng-c3802010639="" role="text" data-test-id="code-content" class="code-container formatted ng-tns-c3802010639-83"><span class="hljs-comment">// db/db_impl.cc</span>
<span class="hljs-function"><span class="hljs-keyword">void</span> <span class="hljs-title">DBImpl::BackgroundCompaction</span><span class="hljs-params">()</span> </span>{
  <span class="hljs-comment">// ...</span>
  Compaction* c = versions_-&gt;PickCompaction();
  <span class="hljs-comment">// ...</span>
  <span class="hljs-keyword">if</span> (c != <span class="hljs-literal">nullptr</span>) {
    Status s = DoCompactionWork(c);
    <span class="hljs-comment">// ...</span>
    CleanupCompaction(c);
    versions_-&gt;LogAndApply(c-&gt;edit());
    <span class="hljs-comment">// ...</span>
  }
}
</code></pre></div></div></div></code-block></response-element></li></ol><p></p><h3>四、SSTable 文件结构</h3><p></p><p>SSTable 文件是 LevelDB 持久化存储的核心。其内部结构经过精心设计，以支持高效的查找。一个 SSTable 文件（<code>.ldb</code> 文件）通常包含以下几个部分：</p><ul><li><p><b>Data Blocks</b>: 若干个数据块，是存储实际键值对的地方。块内部的 Key 是有序的，并且可能采用了前缀压缩。</p></li><li><p><b>Filter Block</b>: 存储了所有 Data Block 的布隆过滤器数据，用于快速排除不含目标 Key 的 Data Block。</p></li><li><p><b>Meta Index Block</b>: 索引块的索引，用于定位 Filter Block 等元数据块。</p></li><li><p><b>Index Block</b>: 数据块的索引。它的每一条记录格式为 <code>&lt;lastKey, BlockHandle&gt;</code>，其中 <code>lastKey</code> 是对应 Data Block 中最大的 Key，<code>BlockHandle</code> 则包含了该 Data Block 在文件中的偏移量和大小。</p></li><li><p><b>Footer</b>: 文件末尾的定长区域，包含了 Meta Index Block 和 Index Block 的 <code>BlockHandle</code>，是读取 SSTable 的入口点。</p></li></ul><p></p><h3>总结</h3><p></p><p>LevelDB 通过其精巧的 LSM-Tree 设计，成功地将随机写转换为顺序写，提供了卓越的写入性能。其分层存储、后台自动合并、以及优化的 SSTable 文件格式，共同构成了一个高效、可靠的键值存储引擎。虽然其读操作可能需要查询多个文件，但通过布隆过滤器、多级索引和操作系统的文件缓存，LevelDB 在大多数场景下也能提供良好的读取性能。对 LevelDB 设计与源码的理解，不仅有助于更好地使用它，也为我们学习和构建其他存储系统提供了宝贵的经验。</p>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LevelDB 设计介绍与源码分析 #13