影响海量小文件读写性能的因素
V100 16G 与V100S 32G 集群存储对比说明
综述:V100s 32G集群所使用PFS共享文件存储系统在处理海量小文件能力稍弱,其读写速度低于DDN共享文件存储系统。以下是在不同文件系统下文件传输速度的对比。
DDN文件存储系统和PFS文件存储系统:
DDN 文件存储系统和 PFS 文件存储系统都是存储解决方案,用于存储和管理大量的数据,但它们可能有不同的设计和特点。
DDN 文件存储系统(DataDirect Networks):
DDN 是一个专门提供高性能存储解决方案的公司。DDN 文件存储系统旨在提供高速、高可用性的数据存储和访问能力,适用于需要快速数据读写的应用场景,如科学计算、大数据分析等。该系统通常包括硬件和软件部分,其中硬件包括高性能的硬盘和固态硬盘(SSD),以及专门的网络互联。DDN 文件存储系统可能支持各种高速连接协议,如 InfiniBand 和 Ethernet。其设计目标是提供低延迟、高 IOPS(每秒的读写次数)和高数据吞吐量。
PFS 文件存储系统(Parallel File System):
PFS 是一种并行文件系统,旨在支持高性能计算和大规模数据分析。PFS 文件存储系统基于分布式架构,可以横向扩展以适应大规模数据存储需求。它通常支持多个存储节点和并行访问,以实现更高的数据吞吐量和性能。PFS 文件存储系统可以应用于超级计算集群、大规模数据中心等需要高性能文件存储的场景。
小结:DDN 文件存储系统强调在高速读写、低延迟和高 IOPS 方面的性能优势,适合需要快速数据访问的应用。
ioping测试结果:
ioping介绍:“ioping” 是一个用于测量磁盘 I/O 性能的命令行工具。通过模拟对文件系统的读写操作来评估磁盘的性能指标: 如延迟、IOPS(每秒的读写操作数)和吞吐量。
DDN共享文件存储系统和PFS共享文件存储系统关于IOPS这一指标的数据对比:
测试环境:DDN共享文件存储系统——v100服务器
PFS共享文件存储系统——v100s服务器
测试命令:ioping -RD -w 5 /path
说明:“-RD”参数表示随机读取和写入模式,“-w 5” 参数表示运行测试 5 秒钟。在随机读取模式下,默认的块大小为 4KB。ioping 将以 4KB 的块大小进行随机读取操作,并在 5 秒内记录性能统计数据。
DDN共享文件存储系统测试结果:
21.5 k requests completed in 4.86 s, 84.1 MiB read, 4.43 k iops, 17.3 MiB/s
generated 21.5 k requests in 5.00 s, 84.1 MiB, 4.31 k iops, 16.8 MiB/s
min/avg/max/mdev = 146.1 us / 225.6 us / 899.3 us / 42.7 us
PFS共享文件存储系统测试结果:
15.9 k requests completed in 4.96 s, 62.3 MiB read, 3.21 k iops, 12.5 MiB/s
generated 15.9 k requests in 5.00 s, 62.3 MiB, 3.19 k iops, 12.4 MiB/s
min/avg/max/mdev = 266.2 us / 311.5 us / 102.2 ms / 1.14 ms
影响海量小文件传输速度的三个因素:
1、IOPS
IOPS((Input/Output Per Second)即每秒的输入输出量(读写次数),IOPS 是一个重要的性能指标,特别在需要高速读写的应用中,如数据库、虚拟化环境等。
对于海量小文件传输,每个文件的读取和写入操作都需要进行磁盘的寻道、定位和传输,这些操作是非常耗时的。当随机读写操作的数量增加时,磁盘需要不断地在不同的位置进行定位,造成了较高的寻道延迟和旋转延迟,从而降低了磁盘的吞吐能力。因此,IOPS的高低直接影响了存储系统处理海量小文件传输的效率。
数据对比:
DDN共享文件存储系统: iops:4.31k
PFS 共享文件存储系统:iops:3.19k
结论:该数据表明DDN共享文件存储系统的IOPS要高于PFS共享文件存储系统,DDN共享文件存储系统的随机读写性能较好,这使得DDN共享文件存储系统在需要高速随机读写性能地场景下可以表现出更好的性能。
2、数据吞吐量
数据吞吐量(Throughput),指单位时间内传输的数据量,高数据吞吐量意味着存储系统用在单位时间内能够处理更多的数据,从而在海量小文件传输时具有更好的性能表现。
数据对比:
DDN共享文件存储系统:17.3 MiB/s
PFS 共享文件存储系统:12.5 MiB/s
结论:该数据表明,在相同时间内,DDN可以处理更多的数据量。
3、随机访问延迟
随机访问延迟表示从发起一个随机读取请求到获取响应所经过的平均时间,在传输大量小文件时,随机访问延迟尤其重要,因为每次读取都需要从不同的位置读取数据,导致寻道和定位的开销,从而影响整体传输性能。
较低的随机访问延迟意味着存储系统能够更快地响应随机读取请求,从而提高传输速度。
数据对比:
DDN共享文件存储系统的随机访问延迟:
最小延迟:146.1 us
平均延迟:225.6 us
最大延迟:899.3 us
平均标准差:42.7 us
PFS共享文件存储系统的随机访问延迟:
最小延迟:266.2 us
平均延迟:311.5 us
最大延迟:102.2 ms
平均标准差:1.14 ms
小结:通过对测试结果的比较,可以观察到DDN共享文件存储系统在随机访问延迟方面表现出较低的数值,意味着能更迅速地响应各种读写请求,在处理大量小文件时,文件系统需要频繁地进行寻址和访问,低随机访问延迟有助于降低等待时间,从而提高整体的文件传输速度。
大文件读写性能测试:
测试所用工具:fio
测试所用命令:
顺序读:fio --name=seq-write --ioengine=libaio --iodepth=64 --rw=read --bs=1M --direct=1 --size=10G --numjobs=1 --runtime=60 --time_based --group_reporting --filename=/path
顺序写:fio --name=seq-read --ioengine=libaio --iodepth=64 --rw=write --bs=1M --direct=1 --size=10G --numjobs=1 --runtime=60 --time_based --group_reporting --filename=/path
PFS和DDN大文件读写性能 | ||
---|---|---|
顺序读 | 顺序写 | |
PFS | 2543MiB/s | 2544MiB/s |
DDN | 3237MiB/s | 5562MiB/s |
小结:通过测试结果的比较,DDN在顺序读写性能表现更好,这说明DDN在处理大块数据的场景中,具有更高的性能优势。
总结
DDN共享文件存储系统在处理海量小文件时表现更为出色。DDN作为一种专注于高性能存储解决方案的体系,具备显著的性能优势,尤其是在需要高速数据读写操作的场景下。其高IOPS、低延迟以及更高的数据吞吐量,使得DDN在海量小文件传输方面拥有更大优势。相比之下,PFS共享文件存储系统在文件传输速度方面稍显不足,其相对较低的IOPS和数据吞吐量,以及较高的随机访问延迟,限制了其在海量小文件传输中的性能表现。因此,DDN共享文件存储系统更适用于高性能、高速数据访问的应用场景,而PFS共享文件存储系统则适合一般性的文件存储需求。这一结论基于IOPS、数据吞吐量和随机访问延迟等性能指标的对比。