每个 git commit 的树对象内容存储哪些信息

2024-04-25

每个 Git 提交对象都指向一个树对象。每个提交树对象是否都存储其所有条目，还是仅添加新条目并且仅包含来自提交父级的增量？

例如Linux 源代码有 1M 提交和数千个对象（master 有 70,000 个）。如果每个提交对象都包含所有对象的条目，从长远来看将占用巨大的空间。即使提交/推送一行更改，也会进行大量处理和传输。

我理解 Git 的理念是存储快照而不是文件的增量，但在这种情况下，只存储更改的文件。

在下面的示例中，70951b429e0e1191a8c1d9e34248cd76453ef544 包含（或显示为 containsig）所有 5 个文件，即使只添加了一个文件。

[test]$ls
a.txt  b.txt  c.txt  d.txt
[test]$echo r5 > e.txt
[test]$git add -A && git commit -m "r5"
[master 51f6941] r5
[test]$git cat-file -p 51f6941
tree 70951b429e0e1191a8c1d9e34248cd76453ef544
[test]$git cat-file -p 70951b429e0e1191a8c1d9e34248cd76453ef544
100644 blob 9a6c8d12dea8859b821b2ba705f7efd6cc914aa5    a.txt
100644 blob 9a6c8d12dea8859b821b2ba705f7efd6cc914aa5    b.txt
100644 blob b6693b64f528de38cde5533acd781fde743bc3df    c.txt
100644 blob 91174caefafdc81d34e302874c86c6e4d5212075    d.txt
100644 blob 29f4cfc46ba3a0bde55bce8f44ac3590e2108da4    e.txt

无论如何，每个提交都保存（从逻辑上讲）每个文件（好吧，提交中的每个文件）的完整快照。

如果您选择一个提交（例如通过其哈希 ID），然后运行git checkout在该提交中，您的工作树将由该提交中的文件填充。也就是说，您的工作树采用该快照。从该提交切换到其他某个提交，例如少三个文件的提交，Git 会删除这三个文件（并根据需要更新其余文件）。

如果每个提交对象都包含所有对象的条目，从长远来看将占用巨大的空间。

但……事实并非如此。其中涉及到两项令人惊奇（或者不是那么令人惊奇）的聪明才智。

第一个出现在这里：

[test]$git cat-file -p 70951b429e0e1191a8c1d9e34248cd76453ef544
100644 blob 9a6c8d12dea8859b821b2ba705f7efd6cc914aa5    a.txt
100644 blob 9a6c8d12dea8859b821b2ba705f7efd6cc914aa5    b.txt
100644 blob b6693b64f528de38cde5533acd781fde743bc3df    c.txt
100644 blob 91174caefafdc81d34e302874c86c6e4d5212075    d.txt
100644 blob 29f4cfc46ba3a0bde55bce8f44ac3590e2108da4    e.txt

请注意 blob 哈希 ID9a6c8d12dea8859b821b2ba705f7efd6cc914aa5出现两次：一次为a.txt一次b.txt.

只有one copy两者的内容a.txt and b.txt。由此我们可以得出结论，无论是in a.txt, and in b.txt，内容相同。

因此，如果您提交 100 个文件，然后进行一次新提交，其中 99 个文件与前一个提交的 99 个文件相同，您只需re-used99 个斑点对象。它们不必再次存储。

Git 通过这种方式自动删除重复的文件内容。

第二个小聪明发生了later。最初，所有对象都存储为 zlib 压缩文件（位于.git/objects/，尽管你不应该指望这一点）。如果您更改文件中的几个字节并使用git add并且新的 blob 对象与某些已存在的 blob 对象并非 100% 完全匹配，您将获得这些对象中的一个新对象。这些被称为loose对象，内部。

当周围有足够多的松散对象时，或者如果需要的话，Git 会更早packs将松散的物体放入打包文件。此时，可以有利地进行增量压缩的对象通常都是这样。这种压缩是真正聪明的代码。

当你使用git fetch or git push，Git会找出哪些对象需要通过网络传输并构建一个所谓的薄包装。这是你看到的地方counting and compressing objects消息。然后 Git 通过网络发送精简包；另一端的 Git 修复瘦包，使其成为常规（胖）包。当包文件太多时，Git 会repack包文件，带你从许多*.pack and *.idx文件再次减少到只有几个（或一个）。

（这里偶尔会出现一些错误。最近有一个修复程序可以处理大量包文件。有几个较旧的错误，其中留下了太多松散的对象。偶尔的手册git gc有时有助于解决这些错误，但使用git gc太频繁可能会适得其反。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

git

每个 git commit 的树对象内容存储哪些信息的相关文章

“本地存储库已过时”....我没有分支如何解决这个问题

当我们将代码推送到远程服务器时 Xcode 显示以下警告另请参阅随附的屏幕截图本地存储库已过时我没有分支或任何其他工作副本我有同样的问题我是这样解决的首先进入终端中的项目目录 git init git add git stash
我如何自动接受 git rebase --interactive 呈现给我的内容？

我正在使用一个小脚本来修复过去的提交该脚本假设已暂存对损坏的提交的修复工作目录是干净的并且损坏的提交是在命令行上传递的这是脚本的原始 Python 核心 usr bin env python import os import sys
樱桃选择问题：还应用了之前提交的更改

在我的项目中我几个月前发布了一个版本在该版本发布之后我在 master 分支上做了很多更改如果我遇到上一个版本中存在的一些错误我会在主分支上修复它们然后将它们挑选到我在上一个版本中创建的分支然后我可以提供一个仅包含错误修复的新
无法通过 HTTPS 克隆私有 Github 存储库

我在通过 HTTPS 克隆私有 GitHub 存储库时遇到问题如果我尝试使用以下方式克隆我的存储库 git clone https github com username repository 我收到错误 fatal remote err
将 WordPress 保持在版本控制中 - 主题的单独存储库

我的 WordPress 项目位于 Git 下并将 WordPress 作为子模块我想将主题开发保留在单独的子模块中但在当前设置内将主题设置为子模块时遇到一些困难这是我的文件系统 git master repo index php
使用 GitHub 时防止将大文本文件添加到提交

我们想要防止非常大的文本文件每个文件 gt 50MB 被提交到git代替git lfs 因为它们夸大了 git 历史问题是其中 99 大小差异的原因这些是 YAML 文件它们支持通过 Base64 编码进行二进制序列化我们无法
如何删除“致命：松散物体”？

我的一个克隆存储库是从 git fsck 获取的致命松散对象 40bda4e3b79c3d7bf598df31d9e68470f97a3f79 存储在 git objects 40 bda4e3b79c3d7bf598df31d9e68
即使给出了公钥，Gitosis 也需要密码

我在 Archlinux 上尝试配置 gitosis 时遇到了一些问题 http wiki archlinux org index php Setting Up Git ACL Using gitosis http wiki archlin
在 git 中编辑分支？

我在 github 网站上创建了一个分支该分支不在我的本地存储库中如何将该分支带到我的本地计算机对其进行编辑然后将其推送回我的 github 帐户在本地工作目录中输入 git fetch origin newbranch git
如何仅对暂存内容运行 git 预提交检查？

Suppose git status给出这个 On branch X Changes to be committed use git reset HEAD
有什么方法可以有效地应用大型 git 补丁吗？

我们收到了一个大补丁修改了大约 17000 个文件其大小为5 2G 应用补丁时git apply 3 12个小时后还没有完成我们将每个文件的补丁分成更小的补丁然后一一应用它们这样至少我们可以看到进度再次卡在一个文件补丁上仍然有
在 github 上查找强制推送的提交者

在我们的项目托管在 GitHub 上中每隔一段时间就会有人意外强制推送 master 没有人知道是否这样做我想找出是谁干的以及背后有什么样的错误配置的工具或坏习惯那么问题来了如何识别进行强制推送的用户呢当我拉动时我看到这样
从历史记录中删除不需要的文件，包括带有过滤分支的所有引用

我最近克隆了一个 SVN 存储库其中曾经有一些二进制文件但不再需要了不幸的是我已经将它和包含的二进制文件推送到了 Github 我现在想使用 git filter branch 删除它们但在标签和分支方面我遇到了一些问题基本上
使用子模块克隆存储库：覆盖凭据

我必须automate克隆存储库并获取它的所有子模块存储库子模块的 url 指定于 gitmodules 如果我要使用默认值我就会这样做 git clone recursive https username email protecte
为什么每次合并分支后我的 git log graph 都会多增长一行？

我习惯使用git log oneline graph decorate all作为别名git ll在终端中查看提交图表但是当我每次合并我的时一个问题让我感到困惑develop to master 上面命令的输出可能是这样的 0d1bf7
如何使用 Github Pages 分支正确提交到存储库中

我有一个问题情况基于gh pages https pages github com 我的项目使用预处理器和其他困难的人员因此我的项目结构如下所示主分支 src node modules public js css etc index
git-daemon 的日志保存在哪里？（Windows 上的 Git 使用 Cygwin）

我正在将 git daemon 作为 Windows 服务运行使用创建进程服务中使用的命令是 git daemon reuseaddr base path data test work export all verbose enable
git 无法暂存文件，将所有文件显示为重复，但字符大小写不是问题

就我而言我对我的文件之一进行了简单的一项更改并想提交我的更改但注意到 commit am 没有添加提交该文件发出 git 后ls files stage 我看到项目中的所有文件可能都显示为重复项这是其中一个文件的示例 10064
在 PowerShell 错误消息中使用 touch 命令创建新文件

我的桌面上有一个使用 PowerShell 创建的目录现在我尝试在其中创建一个文本文件我确实将目录更改为新目录然后输入touch textfile txt 这是我收到的错误消息 touch The term touch is not
为什么某些 Git 分支名称中包含斜杠？

我正在阅读本教程https www atlassian com git tutorials syncing git fetch https www atlassian com git tutorials syncing git fetch

随机推荐

Python-将字符串转换为数组

如何使用 Python 将以下字符串转换为数组该字符串可能有无限数量的项目 Foo Bar Baz Woo 这绝对也是一个字符串表示形式 type gave
R中的withCallingHandlers抛出错误时如何继续函数

我正在为 R 函数编写一个测试用例用于测试函数中的某个点是否抛出错误并正确捕获错误当在 withCallingHandlers 执行期间抛出错误时我在继续测试时遇到了一些问题我正在使用这种方法 counter lt 0 withCa
解析末尾带有值修饰符（'-'、'%'）的字符串

我尝试着去掌握解析我有一些数据来自de de格式在字符串末尾带有附加信息我设法使 de de 部分正确但我很难得到 and 解析正确我读了codecvt但我不明白这个话题这是我迄今为止所理解的反映以及我需要做的事情的示例 incl
错误仍然存在~“fullscreen_content_controls 无法解析或不是字段”

我是一名 Android 开发新手在尝试创建一个打开新布局的按钮时遇到了一些障碍当我这样做时我遇到了一些错误无论我如何尝试这些错误都不会消失作为回应我复制了大部分从原始结构更改的 xml 文件和 java 文件并将它们添加到
NestJS 初始化和传递请求上下文的最佳实践是什么

我有一个全局拦截器需要初始化我自己的请求上下文 DTO 并且我希望可以在处理当前请求的控制器中访问此 DTO 到目前为止我找到的解决方案是创建 Request 范围内的可注入 RequestContext 类 import Injecta
Google 地点自动完成 Vue.js

我正在尝试在 Vue js 中实现 Google Places Autocomplete The API 指出 https developers google com maps documentation javascript refere
C++ 线程处理时出错，std::invoke：

好吧这些是我的错误 std invoke 找不到匹配的重载函数和无法专门化函数模板 unknown type std invoke Callable Types noexcept 我真的需要你们的帮助我对 C 还很陌生所以我希望您
Visual Studio 远程调试器“对内存位置的访问无效”功能

这是解决所述问题的另一种尝试here https stackoverflow com questions 13878778 visual studio 2012 remote debugging 不幸的是该主题在没有找到足够解决方案的情况
Golang：我可以投射到 chan 接口吗{}

我正在尝试为订阅编写一个通用包装器例如 type Subscriber interface Subscribe addr string chan interface 假设有一个我想使用的库其中有一个 subscribe 方法但它使用c
如何在 Rails Devise 中自动生成密码？

我正在尝试 Devise 如何与我的一个项目一起进行用户身份验证有一个用户要求他们的管理员应该能够不时生成一批用户名和用户密码然后管理员将新的用户名和密码通过电子邮件发送给他的用户假设管理员具有 MySQL 数据库上的直接 SQL 知
constexpr double Point::* coords[3] 到底是如何工作的？ [复制]

这个问题在这里已经有答案了所以我一直在看一些东西并找到了这个线程以 C 方式对结构和数组进行别名 https stackoverflow com questions 48463521 aliasing struct and array t
实施 Facebook 广告时出现错误

无法找到提供商信息com facebook katana provider PlatformProvider 当我安装 Facebook 应用程序时不会发生此错误但会发生另一个错误 E NativeCrypto ssl 0x5ced13
使用 spring data jpa 更新单个字段

我正在使用 spring data 的存储库非常方便但我遇到了一个问题我可以轻松更新整个实体但我相信当我只需要更新单个字段时这是毫无意义的 Entity Table schema processors name ear attach
编译SCSS（Compass）+刷新浏览器的最快方法？

只是想知道您认为编译 SCSS 和刷新浏览器的最快方法是什么我目前正在使用LiveReload 但有时似乎有点慢可能需要1 3秒看起来不多但我觉得我正在失去适当的编码节奏你们都用什么 CodeKit 会更快吗或者也许是 Subl
html5 FileReader ， readAsDataUrl 函数返回什么样的数据？是url地址吗？还是数据本身？

function readURL input if input files input files 0 reader readAsDataURL input files 0 else document images 0 src input
Python Selenium：如何获取 cookie 并格式化它们以在 http 请求中使用

我想知道从 selenium webdriver 实例 chromedriver 获取 cookie 的最佳方法并将它们转换为可以作为 http 标头传递的 cookie 字符串这是我尝试过的方法获取 selenium 提供的每个 c
Django 在多个模型字段上组合唯一

假设我有一个社交网络帖子用户和点赞的模型 class Post models Model submitter models ForeignKey User null False default None content models Ch
如何在 Rselenium 中释放按键

我尝试使用以下命令成功按下控制键 rD lt rsDriver browser chrome chromever latest port 4445L chrome client lt rD client chrome client send
无法读取未定义的属性“长度” - Angular 7

试图获取该对象的图片链接这些对象位于数组中打字稿中的方法如下所示 getMealPicture orderLineMeal OrderLine string for let meal of this meals if meal id o
每个 git commit 的树对象内容存储哪些信息

每个 Git 提交对象都指向一个树对象每个提交树对象是否都存储其所有条目还是仅添加新条目并且仅包含来自提交父级的增量例如Linux 源代码有 1M 提交和数千个对象 master 有 70 000 个如果每个提交对象都包含所有对象的

每个 git commit 的树对象内容存储哪些信息

每个 git commit 的树对象内容存储哪些信息 的相关文章

随机推荐

热门标签

每个 git commit 的树对象内容存储哪些信息的相关文章