两个难点¶
约 1088 个字 预计阅读时间 4 分钟
1. 关于MediaPipe和OpenPose的优缺点¶
我浏览了一下关于这两种模型的信息,发现他们还是有一定区别的
首先在精确度上OpenPose要比MediaPipe要好的,也就是说OpenPose能够定位人体关节的点要比MediaPipe多,这样的话用OpenPose做出来打分肯定是比MediaPipe准确的。但是我们需不需要做到那么准确还需要之后再分析。
其次就是跨平台性。MediaPipe的跨平台性要做的比Openpose要好,它原生支持安卓系统和网页版,而OpenPose则由于对硬件有需求,较难移植到移动端。
两种模式
现在的软件架构一般有两种体系B/S和C/S,分别表示“网页-服务器”,“客户端-服务器”(老师你暂时先不用理解是什么意思)。我先说明结论,MediaPipe适合C/S,OpenPose适合B/S。因为MediaPipe他需要的算力没有那么多,手机应该能够支持,所以我们可以把识别模块集成到APP上,在本地进行识别。而OpenPose则最好部署在服务器上,老师拍摄完学生的视频后,通过手机传回到服务器上,在服务器上进行分析,再把成绩传回给老师。这两种模式的优缺点是:
- MediaPipe(C/S):免去了视频传输的过程,速度较快;但是精准度应该不如OpenPose,并且较难维护(因为如果有更新需要每个老师手机上的APP都要更新)
- OpenPose(B/S):服务器分析的效果肯定比手机好,并且易于维护(只需要在服务器上更新程序);但是需要将视频传回服务器分析(这里考虑到有的老师可能在操场上上课,网络不好,传视频很慢)
此外,两种模型进行开发的话各有各的难点,这个需要之后再分析。在这里提出这个点也是因为动作识别模块的设计是整个项目中的很大的一个难点。
2. 关于如何提出个性化建议¶
我个人认为打分是容易实现的(只需要设计一种权重函数),给出一些基础的建议是可以实现的(比如手肘抬高,双腿打开这种,不需要用到人工智能)。但是如何给一些更有用,能够帮助学生改进动作的建议这个是比较难实现的.
两种可能的方案
-
专家系统:这是早期的人工智能实现方式,通俗讲就是人为的给机器定义一些规则(知识库),机器会根据这个规则来进行判断。这样的话编写这个知识库其实是有一个很大的工作量,并且每来一种新运动,我们都需要编写一个新的知识库。而专家系统的能力也直接取决于知识库的详细程度。这样做不现实。
-
机器学习:具体的原理这里可能解释不清楚。但是就我学习到的内容的话,这需要大量的标注好的数据集以供机器学习。这个“标注好”的意思是:比如说一条打太极拳的视频,与之对应的要有老师写的“正确”的评语。机器会分析这个视频,生成自己的评语,然后跟老师的正确的评语比较,来修正自己的参数。这个是训练的过程。而想要训练出一个足够好的机器,需要很多数据集。这也很难做到。
此外,关于生成式语言模型(ChatGPT这种)能否用于给出评价,我个人觉得也很难。因为我们肯定要把学生姿势的数据(各个关节的坐标)上传给他们分析,然而他们主要是对“语言”进行处理,很难理解几何维度上的东西(比如国产的一个大模型kimi最近发布的一个专门做数学的模型,明确表明了其在几何问题的求解上比较逊色)。
具体要采取什么样的方式来做出一个人工智能来给出建议,我觉得还有待研究。