软件测试中如何测试算法？

2023-12-20 23:43:31

广义的算法是指解决问题的方案，小到求解数学题，大到制定商业策略，都可以叫做算法。而我们今天讨论的软件测试中的算法，对应的英文单词为 Algorithm，专指计算机处理复杂问题的程序或指令。

随着最近几年人工智能等领域的快速发展，算法受到前所未有的重视，算法测试也随之兴起。

为了让同学们能对算法测试有一定了解，老规矩，我将这篇文章大纲先公布如下：

1、算法测试测什么？
2、算法测试如何做?
3、补充算法测试一个案例
4、答疑解惑

一、算法测试测什么？

先来看几个大家耳熟能详的算法应用成功的例子：

阿尔法围棋机器人，打败了人类棋手，其实就是运用了复杂的人工智能算法
今日头条、抖音等APP ，使用了兴趣算法推荐，推送的都是你感兴趣的
购物软件，你搜过什么商品，就会不胜其烦一直推荐，也是使用了算法推荐机制

区别于一般的功能测试，算法测试的侧重点不同。

一般的功能测试是关注前端操作之后服务端返回数据的正确性（增删改查），而算法测试则要关注的是算法（模型）启用之后，数据的增量（有正负）是否符合预期。

举两个例子

例子1：某软件中的广告推荐更新了一套算法，预期要把推荐转化率提升几个百分点。

【测试要关注的是】新算法有没有提升转化率百分比，提升量的有没有达到预期。

例子2：某人脸识别软件更新了识别算法，预期是减少识别耗时。

【测试要关注的是】耗时减少的同时准确率有没有下降。

二、如何测试算法？

1、普通功能测试会使用到的方法

1）算法稳定性测试

a ) 长时间运行，算法是否奔溃

b )数据量提升后，算法模型的结果是否符合预期

2 ) 算法性能测试

a )算法模型的响应时间

b )算法模型对处理器cpu和磁盘的消耗

3 ) 算法兼容性测试

a ) 设置不同阈值内的数据，算法结果是否稳定（比如用户年龄、区域、性别等）

上面说到测试方法，是不是似曾相识？没错，这几个与普通功能测试中用到的测试方法基本一样

2、普通功能测试中不会用到的测试方法

1 ) 算法pk（赛马）

对于一个需求，不同的人或团队可以设计出不同的算法模型，到底哪个更靠谱，是骡子是马拉出来溜溜，pk一下就知道了。

这个环节是算法测试的关键部分，用例设计主要采用场景法，通过列举不同场景，对多个算法分别进行测试验证，最终综合所有场景中的算法模型的表现，选出前几名。

你可能会有疑问：为什么要前几名，选第一名不就可以了吗？

下文中通过实例列举了这个环节中的测试用例，可以更好地理解这样设计用例的原因 ( 在此暂时不表 )。

2）A/B测试

由于算法的准确性会受到测试数据的影响，而在测试环境中，数据的来源一般是手动插入数据库或从线上导入数据。

尽管测试数据会接近于真实数据，但仍会有数据类型覆盖不够全面、数据量不够大等方面的问题。因此，即使算法模型在测试环境通过验收，仍然不能在生产环境全部放量。

通常采用的方法是：拿出线上流量的5%-10%，其中一部分数据作为对照组，其它部分作为一个或多个实验组（实验组采用的算法为pk中胜出的前几名算法）。对照组合实验组数据分别打不同的标，一段时间后分别统计计算的各项指对照组合实验组的各项指标标，根据关键指标来验证算法是否有效。

实际测试中，对算法的选择往往不是通过一项指标来定的，通常是多项指标综合比较。

看到这里，你是不是还有点迷糊，别担心，我们也通过下面的例子来说明。

三、算法测试实例

某导航APP，要升级导航路线推荐算法，预期是找到耗时更少的路线并推荐给用户。

首先来理解一下需求中的关键词「耗时更少」：耗时不等同于距离，有可能距离短但是堵车，实际比绕路耗时还长。

经过n天的研发，算法同学最终给出了3个优化后的算法模型，现在到了测试验证环节。

为方便描述，我把旧导航路线推荐算法称为算法0，新算法分别称算法1、算法2、算法3

1、算法pk（下面是场景化测试用例的列举）

同一条路线，默认为当前时间和天气状况，多轮测试之后，选出最优的算法，假定是算法2

同一条路线，分别设定不同时间段（早晚高峰、工作日、节假日等），找出最优算法，假定是算法1

同一条路线，分别设定不同的天气状况（雨、雪、雷、沙尘、冰雹等），找出最优算法，假定是算法3

还有其它很多场景的测试，这里就不一一列举了……

2、稳定性测试

长时间（24小时以上）运行算法模型，是否有稳定的表现，假定这里的最优算法是算法1

超长距离（1000km以上）测试算法模型，对比推荐效果是否稳定，假定这里的最优算法是算法2

……

3、兼容性测试

选取不同城市的道路测试（比如重庆、贵州等地），测试山路、爬坡、转弯等不同路况下导航推荐算法的表现，假定这里的最优算法是算法1

选取不同通行能力的道路（城市和乡间小路等），测试小路、窄路等不同路况下，推荐算法是否有稳定表现，假定这里的最优算法是算法3

……

4、性能测试

同一条路线下，不同算法模型的耗时，假定耗时最少的算法是算法3

同一条路线下，不同算法模型对服务器的压力，假定最终结果是算法2最服务器压力最小

……

5、AB测试

经过上面几个环节的测试，综合所有结果，假定最终选出的算法1和算法3

线上灰度放量，选取目标用户，被选中的用户会收到「是否参加内测/灰度」之类的消息

经过一段时间的A/B测试之后，拿到真实的数据，最终经过架构师、研发经理、产品经理等研讨之后选出符合预期的算法

四、答疑解惑

上述例子中，假定最终要采用的是算法2，但是你可能会有很多疑问：

1、算法1在早晚高峰期时段表现最好，我就是上下班使用导航软件，为什么不采用？
2、耗时最少的是算法3。我就希望推荐路线要快，为什么不采用？

算法的测试，要经过多个环节综合来评估效果，所以即使某个环节表现好最终也不一定入选。

最终会结合效果、成本、稳定性等多方面的因素，最终往往会选择妥协折中后的方案。

??自动化测试相关教程推荐：

2023最新自动化测试自学教程新手小白26天入门最详细教程,目前已有300多人通过学习这套教程入职大厂！！_哔哩哔哩_bilibili

2023最新合集Python自动化测试开发框架【全栈/实战/教程】合集精华，学完年薪40W+_哔哩哔哩_bilibili

测试开发相关教程推荐

2023全网最牛，字节测试开发大佬现场教学，从零开始教你成为年薪百万的测试开发工程师_哔哩哔哩_bilibili

postman/jmeter/fiddler测试工具类教程推荐

讲的最详细JMeter接口测试/接口自动化测试项目实战合集教程，学jmeter接口测试一套教程就够了！！_哔哩哔哩_bilibili

2023自学fiddler抓包，请一定要看完【如何1天学会fiddler抓包】的全网最详细视频教程！！_哔哩哔哩_bilibili

2023全网封神，B站讲的最详细的Postman接口测试实战教学，小白都能学会_哔哩哔哩_bilibili

??总结：

?光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

如果对你有帮助的话，点个赞收个藏，给作者一个鼓励。也方便你下次能够快速查找。

如有不懂还要咨询下方小卡片，博主也希望和志同道合的测试人员一起学习进步

在适当的年龄，选择适当的岗位，尽量去发挥好自己的优势。

我的自动化测试开发之路，一路走来都离不每个阶段的计划，因为自己喜欢规划和总结，

测试开发视频教程、学习笔记领取传送门！！

文章来源:https://blog.csdn.net/MXB1220/article/details/135118545
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！