用awk从文件中提取时间信息

2023-12-26 13:03:07

------------------------------------------------------------
author: hjjdebug
date ?: 2023年 12月 26日 星期二 11:16:25 CST
description: 用awk从文件中提取时间信息
------------------------------------------------------------
关于awk我就不多说什么了, 你如果肯花时间阅读肯定知道它了.

m3u8文件是一种纯文本文件.
现在我有一个m3u8文件, 非常长,很大,我截取它一段内容如下:
$cat playlist.m3u8
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:00:31.581+0800
/storage/47/357/20231218/20231218-120029.ts
#EXT-X-DISCONTINUITY
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:05:09.683+0800
/storage/47/357/20231218/20231218-120509.ts
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:05:29.683+0800
/storage/47/357/20231218/20231218-120527.ts
#EXTINF:20.000000,
#EXT-X-PROGRAM-DATE-TIME:2023-12-18T12:05:49.683+0800
/storage/47/357/20231218/20231218-120547.ts

其中.ts文件名称是按时间"年月日-时分秒.ts"来命名的, 原则上每一个文件的名字
都应该比上一个文件多20秒. 如果是19或21也是正常的.
例如: 120547-120527=20
/storage/47/357/20231218/20231218-120527.ts
/storage/47/357/20231218/20231218-120547.ts

另外: EXT-X-PROGRAM-DATE_TIME 也记录有时间信息, 原则上下一条正常比上一条多20秒.


现在对于成千上万条文本记录,判断一下EXT 时间信息及文件名称是否是正常的,
把不正常的位置及数据打印出来.

下面是代码,夸赞一下awk的match命令及灵活的数值,字符串自动识别功能.
$cat time.awk
#!/bin/awk -f
{
?? ?if(match($0,/([0-9]{2})([0-9]{2})([0-9]{2}).ts/,a)) #匹配到文件时间
?? ?{ ? # 把匹配到的字符串还能分组放入数组,强!
?? ??? ?time=a[1]*3600+a[2]*60+a[3]; ?# awk 自动判别参数是字符串还是数据, 棒!
#?? ??? ?print a[1],a[2],a[3], 它们就是时,分,秒
?? ??? ?if(oldtime == 0)
?? ??? ?{
?? ??? ??? ?oldstr = a[0] ?# 保存匹配字符串
?? ??? ??? ?oldtime = time # 保存时间
?? ??? ?}
?? ??? ?else
?? ??? ?{
?? ??? ??? ?delta=time-oldtime # 计算时间差, 数据类型不用显式声明
?? ??? ??? ?if(delta<19 || delta > 21)
?? ??? ??? ?{
?? ??? ??? ??? ?printf("ts> line:%d delta:%d,old:%d,now:%d\n",NR,delta,oldstr,a[0]);
?? ??? ??? ?}
?? ??? ??? ?oldtime=time; # 保存时间和字符串
?? ??? ??? ?oldstr=a[0];
?? ??? ?}
?? ?}

?? ?else if(match($0,/([0-9]{2}):([0-9]{2}):([0-9]{2})/,a)) # 匹配到参考时间
?? ?{
?? ??? ?e_time=a[1]*3600+a[2]*60+a[3]
#?? ??? ?print "e_time=",e_time
?? ??? ?if(e_oldtime==0)
?? ??? ?{
?? ??? ??? ?e_oldstr = a[0]; ?#保存时间和字符串
?? ??? ??? ?e_oldtime = e_time;
?? ??? ?}
?? ??? ?else
?? ??? ?{
?? ??? ??? ?delta=e_time-e_oldtime # 计算时间差
?? ??? ??? ?if(delta!=20)
?? ??? ??? ?{
#?? ??? ??? ??? ?print "e_time="e_time,"oldtime="oldtime
?? ??? ??? ??? ?printf("ref>line:%d delta:%d, old:%s,now:%s\n",NR,delta,e_oldstr,a[0])
?? ??? ??? ?}
?? ??? ??? ?e_oldstr=a[0] #保存时间和字符串
?? ??? ??? ?e_oldtime=e_time
?? ??? ?}
?? ?}
}

运行
$ ./time.awk playlist.m3u8
ref>line:6 delta:278, old:12:00:31,now:12:05:09
ts> line:7 delta:280,old:120029,now:120509
ts> line:10 delta:18,old:120509,now:120527

文章来源:https://blog.csdn.net/hejinjing_tom_com/article/details/135217895
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。