上周尝试了配置movidius第二代计算棒在树莓派上的使用。
目前成功在电脑端配置了openvino在电脑端的使用,并且成功让生成的计算图在树莓派端,跑在movidius上。
并且做了一个比较粗糙的对比
随机生成的两个1000*1000的float32矩阵互乘和互加1次,计算深度2层,循环1000次:
I54595使用tf库时间:7秒
树莓派使用tf库时间:47秒
movidius计算时间:6分钟
记忆中gtx960的计算时间大约比这个I5快,6到12倍。
随机生成的两个640*480矩阵 各乘加1次,计算深度2层,循环100次, movidius17秒
随机生成的两个640*480矩阵 各乘加3次,计算深度6层,循环100次, movidius23秒
随机生成的两个640*480矩阵 各乘加3次,计算深度6层,循环100次, 树莓派1.77秒
可以发现完全没有发挥出声称的1Tflops的算力,甚至连10Mflops都没达到。完全
猜测原因,目前感觉IO占用的时间过大,配置过程中有一些问题导致没有发挥出计算棒的全部实力,可能计算棒对于卷积和更深层的计算才能有更好的发挥。
目前成功在电脑端配置了openvino在电脑端的使用,并且成功让生成的计算图在树莓派端,跑在movidius上。
并且做了一个比较粗糙的对比
随机生成的两个1000*1000的float32矩阵互乘和互加1次,计算深度2层,循环1000次:
I54595使用tf库时间:7秒
树莓派使用tf库时间:47秒
movidius计算时间:6分钟
记忆中gtx960的计算时间大约比这个I5快,6到12倍。
随机生成的两个640*480矩阵 各乘加1次,计算深度2层,循环100次, movidius17秒
随机生成的两个640*480矩阵 各乘加3次,计算深度6层,循环100次, movidius23秒
随机生成的两个640*480矩阵 各乘加3次,计算深度6层,循环100次, 树莓派1.77秒
可以发现完全没有发挥出声称的1Tflops的算力,甚至连10Mflops都没达到。完全
猜测原因,目前感觉IO占用的时间过大,配置过程中有一些问题导致没有发挥出计算棒的全部实力,可能计算棒对于卷积和更深层的计算才能有更好的发挥。