MongoDB文件大小限制及优化-猿码集

1. MongoDB文件大小限制

MongoDB的文档大小限制为16MB，在文档的设计与应用中需要注意这一限制，同时也需要注意MongoDB的集群环境下，每个副本集的数据大小不应超过2TB，每个shard的数据大小也不应超过2TB。当数据量达到这一限制时，需要进行分片（sharding）操作。

1.1 分片（Sharding）

分片是MongoDB中对数据进行水平切分的一种机制，可以将一个集合划分为多个小的子集合（shard）分布在不同的机器上。分片机制可以提高系统的扩展性与并发量，是MongoDB的高可用性和可伸缩性的重要保证。

当数据量大于单个节点或硬件存储容量时，可以使用MongoDB的分片机制将一个集合分为多个片（shard），每个片（shard）存储该集合的一个子集。分片后，MongoDB将在多个片（shard）中分别存储各自子集的数据，从而大大提高了数据处理的速度。

1.2 数据存储引擎(MMAPv1与WiredTiger)

MongoDB使用的默认存储引擎是MMAPv1，基于磁盘映射文件（mmap）实现了数据存储和访问机制。因此，对于大规模数据集和I/O密集型应用来说，使用MMAPv1存储引擎不太适合。

最新版本的MongoDB加入了WiredTiger存储引擎，它是一种高性能、高并发和支持事务的存储引擎，提供了更高的并发性、更小的磁盘占用等优势。在大规模数据集以及对事务操作有需求时，使用WiredTiger是一个不错的选择。

2. MongoDB文件大小优化

2.1 良好的文档设计

良好的文档设计是MongoDB优化的第一步，需要从文档的设计入手。首先需要确定文档中每个属性的数据类型与合理的长度，这样可以控制文档的大小。此外，对于数组元素、对象属性等需要合理设计，将可能重复的数据尽量拆分到单独的集合中，从而减少文档尺寸的大小。

当存储大量二进制数据的时候，需要注意使用GridFS来进行存储。使用GridFS存储大文件时，建议将文件按预期大小以分块方式存储在多个文档中，而不是为文件创建单个大的文档。这有助于避免单个文档超出16MB的限制，但需要对结果进行重新组装。


db.fs.files.aggregate( [
 { $match : { "length" : { $gt : 10*1024*1024 } } },
 { $sort : { "uploadDate" : 1 } },
 { $project: {parts: { $ceil: [ "$length", CHUNK_SIZE ] }, filename:1, length:1  } },
 { $group : { _id : "$filename", "totalParts": { $sum : "$parts" }, "length": {$first: "$length"} } },
 { $match : { "totalParts" : { $gt : 1 } } },
 { $sort: { "length": 1  } },
 { $limit: 100 }
])

2.2 数据库索引

在MongoDB中，索引作为性能优化的重要手段之一。为查询条件建立合适的索引，能够大大提升查询的效率。索引可以让查询更快，通过将索引存储在内存中，更快地访问数据。因此需要为可能经常用到的查询条件建立索引。

对于复合索引来说，则需要在考虑到查询的性能的同时，注意索引的大小问题。在创建复合索引时，需要注意索引尺寸的大小，对于需要创建的复合索引的所有字段，可以考虑将其分解成小的区域，并根据需要创建单独的索引，从而减小复合索引的大小。


db.sales.createIndex( { store: 1, day: 1, item: 1 } )
db.sales.createIndex( { customer: 1, store: 1, day: 1, item: 1 } )
db.sales.createIndex( { item: 1 } )
db.sales.find( { item: "apple" } ).explain()

2.3 空间数据处理

MongoDB对于空间数据有着很好的支持，支持点、多边形等空间数据类型。对于空间查询或者聚合数据分析的场景，需要使用特定的索引，例如2d、2dsphere、geoHaystack等。另外，对于空间数据的存储，可以考虑使用压缩算法对空间坐标进行压缩，以达到减小存储空间的目的。


// 2D索引
db.places.createIndex( { "location": "2d" } )
// 2DSphere索引
db.earthquakes.createIndex( { "location": "2dsphere" } )

2.4 数据按时间归档

对于需要保留历史数据，但对查询频率较低的数据，可以考虑将其按时间进行归档。按照时间归档的方式，可以将数据按照天、月、年等时间段进行归档。这样可以增加查询前缀的效率，并且可以将归档后的数据保存到较慢的存储介质中。

当需要访问归档数据时，可以使用合适的归档转换方式，将数据查询后返回给用户，这样可以避免查询归档的数据集时需要进行长时间的等待操作。

2.5 使用TTL索引

MongoDB提供了特殊的索引类型，用于过期数据的自动删除。这种索引叫做TTL索引。TTL索引保证了MongoDB内的文档在一定时间段后过期失效，如果设置这个时间段较短，就可以让不再有用的数据被及时清理掉，从而优化存储性能与查询效率。


db.logs.createIndex({"status_date": 1}, { expireAfterSeconds: 3600 })

3. 总结

对于MongoDB的文件大小限制和优化，需要从文档设计、索引、空间数据处理、TTL索引、按时间归档等方面进行考虑。良好的文档设计和合适的索引可以提高系统的处理效率，避免系统的瓶颈。按照时间归档转换，使用TTL索引等方法则可以保证数据库的及时清理，释放存储空间，避免系统运行效率下降。在使用MongoDB的过程中，在数据预处理与使堆优化上，也是极为重要的。

MongoDB文件大小限制及优化