MongoDB数据去重与保存最新数据操
数据去重与聚合
我们假设有一个集合 test_col
,其中包含了一些商品信息,每个文档都有 asin
和 classify
字段。我们的目标是根据这两个字段进行去重,并保留最新的数据。
MongoDB 聚合查询
首先,我们使用 MongoDB 的聚合操作来实现这个功能。以下是聚合查询的步骤:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | var result = db.getCollection( "test_col" ).aggregate([
{
$group: {
_id: { asin: "$asin" , classify: "$classify" },
latestSpiderTime: { $max: "$spider_time" },
data: { $first: "$$ROOT" }
}
},
{
$sort: { latestSpiderTime: -1 }
},
{
$replaceRoot: { newRoot: "$data" }
}
]).toArray();
|
保存结果
接下来,我们可以将聚合查询的结果保存到新的集合中,或者覆盖原有的集合。
保存到新的集合
1 2 | db.newCollection.insertMany(result);
|
覆盖原有的集合
1 2 3 4 5 | db.getCollection( "test_col" ).drop();
db.getCollection( "test_col" ).insertMany(result);
|
请在执行此类操作之前备份数据以防发生意外情况。
总结
通过 MongoDB 的聚合操作,我们可以轻松实现数据去重并保留最新数据的目标。同时,将结果保存到新的集合或者覆盖原有集合是一种灵活的操作方式,可以根据实际需求选择合适的方法。