谈谈Mongodb insertMany的一些坑
概述
Mongodb提供了多种方法向集合中插入数据
- 插入一条数据
db.collection.insertOne()
- 插入多个文档
db.collection.insertMany()
- 更新集合中不存在的文档数据,指定{upsert: true}时插入数据
db.collection.updateOne()
db.collection.updateMany()
db.collection.findAndModify()
db.collection.findAndUpdate()
db.collection.findAndReplace()
db.collection.bulkWrite()
_id字段
mongodb插入方法中,对_id字段有一致的行为。当客户端插入数据,没有指定_id字段时,数据库自动添加一个ObjectId类型的_id字段作为主键。mongodb为集合的_id字段添加唯一键索引,因此用户插入带有_id字段的文档时,mongodb会对_id字段唯一性进行校验。数据成功插入后,mongodb返回插入文档的id
//向集合product插入一条没有id字段的文档
db.products.insertOne( { item: "card", qty: 15})
//返回插入成功并返回插入数据的id
{
"acknowledged" : true,
"insertedId" : ObjectId("65966778d63bea6fd2f4b7a7")
}
//向集合product插入指定id字段的文档
db.products.insertMany([
{_id:1, item: "card", qty: 15},
{_id:2, item: "pen", qty: 15},
] )
//返回插入成功和插入数据的id
{
"acknowledged" : true,
"insertedIds" : [ 1, 2 ]
}
//向集合products插入已存_id的数据
db.products.insertMany([
{_id:2, item: "bag", qty: 15}
] )
//报错
"writeErrors" : [
{
"index" : 0,
"code" : 11000,
"errmsg" : "E11000 duplicate key error collection: test.products index: _id_ dup key: { _id: 2 }",
"op" : {
"_id" : 2,
"item" : "bag",
"qty" : 15
}
}
],
原子性
Mongodb对单文档的操作是原子性的。包括单文档的插入更新和删除操作。而插入方法中的insertMany(), updateMany(),bulkWrite()方法,操作多个文档的时,并不是原子操作。这样会产生一个问题,执行insertMany()方法,倒地插入了多少条数据。
//这条语句,插入多少条数据?
db.products.insertMany([
{_id:3, item: "bag", qty: 15},
{_id:4, item: "ruler", qty: 10},
{_id:4, item: "cup", qty: 12},
{_id:5, item: "key", qty: 14}
] )
回顾insertMany的语法
//insertMany的语法
db.collection.insertMany(
[<document 1>, <document 2>, ...],
{
writeConcern: <document>,
ordered:<boolean>
}
)
参数定义
参数名 | 类型 | 描述 |
document | 文档类型 | 计划插入的文档数组 |
writeConcern | 文档类型 | 可选参数,指定数据提交方式,缺省使用默认数据提交方式 |
ordered | 布尔类型 | 是否按照数组中文档的顺序插入数据,默认true |
这里writeConcern参数稍后再提,ordered参数,会对报错的insertMany()方法结果产生不同的影响。当指定ordered为true或使用默认值时。Mongodb按照数组中文档的顺序,逐一将数据插入集合。插入过程中出现错误时,插入操作停止,后面的数据不会被插入。当指定ordered为false时,数据插入过程中出错时,mongodb会继续插入后面的数据。
db.products.insertMany([
{_id:3, item: "bag", qty: 15},
{_id:4, item: "ruler", qty: 10},
{_id:4, item: "cup", qty: 12},
{_id:5, item: "key", qty: 14}
] )
BulkWriteError({
"writeErrors" : [
{
"index" : 2,
"code" : 11000,
"errmsg" : "E11000 duplicate key error collection: test.products index: _id_ dup key: { _id: 4 }",
"op" : {
"_id" : 4,
"item" : "cup",
"qty" : 12
}
}
],
"writeConcernErrors" : [ ],
"nInserted" : 2,
"nUpserted" : 0,
"nMatched" : 0,
"nModified" : 0,
"nRemoved" : 0,
"upserted" : [ ]
})
返回结果中,显示插入2条数据,其中item: "cup"的数据,因为主键冲突插入失败,而_id:5的数据,也没有插入
指定{ordered: false},重新执行插入
db.products.insertMany([
{_id:3, item: "bag", qty: 15},
{_id:4, item: "ruler", qty: 10},
{_id:4, item: "cup", qty: 12},
{_id:5, item: "key", qty: 14}
], {
ordered: false
} )
BulkWriteError({
"writeErrors" : [
{
"index" : 2,
"code" : 11000,
"errmsg" : "E11000 duplicate key error collection: test.products index: _id_ dup key: { _id: 4 }",
"op" : {
"_id" : 4,
"item" : "cup",
"qty" : 12
}
}
],
"writeConcernErrors" : [ ],
"nInserted" : 3,
"nUpserted" : 0,
"nMatched" : 0,
"nModified" : 0,
"nRemoved" : 0,
"upserted" : [ ]
})
3条数据插入成功,只有item: "cup" 因为主键冲突,导致插入失败
这里没有使用mongodb的事务。mongodb的事务是原子性的,当在mongodb事务中插入数据报错时,数据都不会被插入。
writeConcern
现在来探讨一下writeConcern。 mongodb通过writeConcern定义了复制集中数据提交返回的方法。当指定writeConcern为majority时,需要大于一般的复制集节点数据提交完成通知主节点后,主节点才会将插入结果返回给客户端。如果从节点通知主节点的时间超过了wtimeout设定的时间,数据插入时会报replication time out error。
//本案例可能无法再本地重现,适当减少wtimeout时间尝试
db.products.insertMany(
[
{ _id: 10, item: "large box", qty: 20 },
{ _id: 11, item: "small box", qty: 55 },
{ _id: 12, item: "medium box", qty: 30 }
],
{ w: "majority", wtimeout: 100 }
);
WriteConcernError({
"code" : 64,
"errmsg" : "waiting for replication timed out",
"errInfo" : {
"wtimeout" : true,
"writeConcern" : { // Added in MongoDB 4.4
"w" : "majority",
"wtimeout" : 100,
"provenance" : "getLastErrorDefaults"
}
}
})
插入数量
每次插入操作插入文档的数量,不能超过maxWriteBatchSize的限制。maxWriteBatchSize默认值是100000. 设置这样的限制,避免了数据库插入超量报错。一些数据库连接驱动插入数据时,会按照maxWriteBatchSize将插入数据分批插入。如插入200000条数据,数据库驱动可能会分成两个插入操作,每次插入100000条。
执行计划
insertOne(), insertMany()方法不支持使用db.collection.explain()方法获取执行计划。
性能
向数据库插入大量随机数字段(如hash值),并在这些字段上有索引时,插入性能可能会变差。批量插入随机数时,构建更新索引会消耗大量的cpu和内存。因此插入这样的数据时,建议预先删除集合上的索引,插入完成后重新构建索引。或向一个没有索引的集合插入数据。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!