前言
最近在写项目的时候遇到一个问题,使用mongodb记录了用例的执行结果,但是在时间的记录上使用的是date格式,现在有一个需求,以天为单位,统计一下每天成功的用例和失败的用例,说到统计,肯定是要用到聚合查询,但是如果以date格式的时间为group依据,那么等同于没有分组,因为在记录用例的时间几乎不可能同时,今天查阅了一下相关文档,可以使用mongodb的$dateToString命令来完成这个需求
问题来源
假如我们以如下的数据
/* 1 */ { "_id" : ObjectId("5d24c09651a456efbc231669"), "time" : ISODate("2019-07-08T10:12:35.125Z"), "result" : "Pass" } /* 2 */ { "_id" : ObjectId("5d24c09e51a456efbc23166a"), "time" : ISODate("2019-07-08T10:12:36.125Z"), "result" : "Pass" } ... ... /* 10 */ { "_id" : ObjectId("5d24c0d851a456efbc231672"), "time" : ISODate("2019-07-06T10:10:52.125Z"), "result" : "Pass" } /* 11 */ { "_id" : ObjectId("5d24c0e751a456efbc231673"), "time" : ISODate("2019-07-06T10:10:52.125Z"), "result" : "Fail" }
我的预期结果是
{'_id': '2019-07-06', 'Pass': 1}
{'_id': '2019-07-06', 'Fail': 2}
{'_id': '2019-07-07', 'Pass': 2}
{'_id': '2019-07-07', 'Fail': 1}
{'_id': '2019-07-08', 'Pass': 2}
{'_id': '2019-07-08', 'Fail': 3}
如果按照以前的聚合方式,通过$time来分组,由于每个时间都不相同,所以这样的聚合就相当于没有聚合
#coding:utf-8 from pymongo import MongoClient client = MongoClient(host=['%s:%s'%("127.0.0.1",27017)]) G_mongo = client['test'] pipeline = [ {'$group': {'_id': '$time', 'count': {'$sum': 1}}}, ] for i in G_mongo['test'].aggregate(pipeline): print(i)
得到的结果
{'_id': datetime.datetime(2019, 7, 6, 10, 10, 32, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 7, 10, 10, 32, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 8, 10, 11, 22, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 6, 10, 10, 52, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 8, 10, 11, 32, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 8, 10, 12, 32, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 7, 10, 11, 22, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 8, 10, 12, 36, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 8, 10, 12, 35, 125000), 'count': 1}
{'_id': datetime.datetime(2019, 7, 7, 10, 10, 22, 125000), 'count': 1}
可以看到,由于$time上的时间,谁和谁都不一样,所以如果以$time为分组对象的话每个统计都是1。
问题的解决
在分组的时候有一个$dateToString指令,可以将日期格式的值转化为字符串,比如这里因为需求是要以天为单位,所以我将其转为
%Y-%m-%d的字符串格式,具体的$grouop如下
{'$group': {'_id': {"$dateToString":{'format':'%Y-%m-%d','date':'$time'}}, 'count': {'$sum': 1}}}
$dateToString的说明文档可以访问https://docs.mongodb.com/manual/reference/operator/aggregation/dateToString/ 查看,简单介绍一个
{ $dateToString: { date: <dateExpression>, format: <formatString>, timezone: <tzExpression>, onNull: <expression> } }
它需要四个参数,只有date参数是必须的,指定数据来源,format是转化的格式,timezone为时区,onNull是如果日期值不存在时返回的值。
#coding:utf-8 from pymongo import MongoClient client = MongoClient(host=['%s:%s'%("127.0.0.1",27017)]) G_mongo = client['test'] pipeline = [ # {'$group': {'_id': '$time', 'count': {'$sum': 1}}}, {'$group': {'_id': {"$dateToString":{'format':'%Y-%m-%d','date':'$time'}}, 'count': {'$sum': 1}}} ] for i in G_mongo['test'].aggregate(pipeline): print(i)
上面代码执行的结果如下
{'_id': '2019-07-06', 'count': 2}
{'_id': '2019-07-07', 'count': 3}
{'_id': '2019-07-08', 'count': 5}
这个看起来还不错,但是离我的目标还差一点,因为它还没有按照用例执行结果进行分组,再以天进行倒序排列
#coding:utf-8 from pymongo import MongoClient client = MongoClient(host=['%s:%s'%("127.0.0.1",27017)]) G_mongo = client['test'] pipeline = [ # {'$group': {'_id': '$time', 'count': {'$sum': 1}}}, {'$group': {'_id': {'date':{"$dateToString":{'format':'%Y-%m-%d','date':'$time'}},'result':'$result'}, 'count': {'$sum': 1}}}, {'$sort':{"_id.date":-1}} ] for i in G_mongo['test'].aggregate(pipeline): print(i)
得到的结果如下
{'_id': {'date': '2019-07-08', 'result': 'Fail'}, 'count': 3}
{'_id': {'date': '2019-07-08', 'result': 'Pass'}, 'count': 2}
{'_id': {'date': '2019-07-07', 'result': 'Pass'}, 'count': 2}
{'_id': {'date': '2019-07-07', 'result': 'Fail'}, 'count': 1}
{'_id': {'date': '2019-07-06', 'result': 'Fail'}, 'count': 1}
{'_id': {'date': '2019-07-06', 'result': 'Pass'}, 'count': 2}
查看文档,除了使用$dateToString指令还可以使用$dayOfMonth指令
pipeline = [ {'$group': {'_id': {'date':{"$dayOfMonth":{'date':'$time'}},'result':'$result'}, 'count': {'$sum': 1}}}, {'$sort':{"_id.date":-1}}, ]
但是这个指令只能适用于单一月份,如果两个月就会有交集,如7月6号和6月6号的会聚合到一起
上面得到的结果是
{'_id': {'date': 8, 'result': 'Fail'}, 'count': 3}
{'_id': {'date': 8, 'result': 'Pass'}, 'count': 2}
{'_id': {'date': 7, 'result': 'Pass'}, 'count': 2}
{'_id': {'date': 7, 'result': 'Fail'}, 'count': 1}
{'_id': {'date': 6, 'result': 'Pass'}, 'count': 2}
{'_id': {'date': 6, 'result': 'Fail'}, 'count': 1}
所以需要根据需求灵活的使用各种指令。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 群星《歌手2024 第13期》[FLAC/分轨][325.93MB]
- 阿木乃《爱情买卖》DTS-ES【NRG镜像】
- 江蕾《爱是这样甜》DTS-WAV
- VA-Hair(OriginalBroadwayCastRecording)(1968)(PBTHAL24-96FLAC)
- 博主分享《美末2RE》PS5 Pro运行画面 玩家仍不买账
- 《双城之战2》超多新歌MV发布:林肯公园再次献声
- 群星《说唱梦工厂 第11期》[320K/MP3][63.25MB]
- 群星《说唱梦工厂 第11期》[FLAC/分轨][343.07MB]
- 群星《闪光的夏天 第5期》[320K/MP3][79.35MB]
- 秀兰玛雅.1999-友情人【大旗】【WAV+CUE】
- 小米.2020-我想在城市里当一个乡下人【滚石】【FLAC分轨】
- 齐豫.2003-THE.UNHEARD.OF.CHYI.3CD【苏活音乐】【WAV+CUE】
- 黄乙玲1986-讲什么山盟海誓[日本东芝版][WAV+CUE]
- 曾庆瑜1991-柔情陷阱[台湾派森东芝版][WAV+CUE]
- 陈建江《享受男声》DTS-ES6.1【WAV】