当前位置: 首页 > news >正文

【ELF2学习板】Ne10进行FFT测试

目录

引言

Ne10简介

交叉编译Ne10

测试

测试程序

测试结果

结语


引言

在上一篇博文介绍了FFTW在ELF2开发板的测试。其中我们提到--enable-neon选项在aarch64平台下无法启用。接下来测试一个专门用NEON指令优化的FFT库Ne10。

Ne10简介

NE10 是一个面向 ARM 架构的开源数学库,旨在为 ARM 处理器提供高效的数学运算支持,其主要特点和应用场景如下:

  • 高度优化:充分利用 ARM 的 NEON SIMD(单指令多数据)指令集,对各种数学运算进行了深度优化,能显著提高计算密集型应用的执行速度,尤其在处理向量和矩阵运算时表现出色。
  • 丰富的功能:提供了广泛的数学函数,涵盖了向量运算、矩阵运算、快速傅里叶变换(FFT)、数字滤波等多个领域,基本可以满足大多数科学计算、信号处理和机器学习等应用对数学运算的需求。
  • 易于使用:具有简洁明了的 API,方便开发者调用。它的设计遵循了 C 语言的编程习惯,对于熟悉 C 语言的开发者来说,很容易上手和集成到自己的项目中。
  • 开源可定制:作为开源库,开发者可以自由获取源代码,并根据自己的需求进行定制和修改。这使得它在不同的应用场景下具有很高的灵活性,能够适应各种特定的需求和优化。

NE10 在移动设备应用开发、嵌入式系统以及云计算等涉及 ARM 架构处理器的领域中应用广泛。例如在移动图像和视频处理中,用于加速图像滤波、特征提取等运算;在物联网设备中,帮助进行传感器数据的实时处理和分析;在基于 ARM 的服务器上,为机器学习算法和科学计算提供高效的数学运算支持。

不过这个库已经被ARM的ACL库取代。之所以这次编译Ne10,是因为它比较小,编译难度比ACL低。

交叉编译Ne10

下载Ne10源码:https://github.com/projectNe10/Ne10 。

修改GNUlinux_config.cmake 为以下内容:

set(GNULINUX_PLATFORM ON)
set(CMAKE_SYSTEM_NAME "Linux")
set(CMAKE_SYSTEM_PROCESSOR "arm")set(NE10_LINUX_TARGET_ARCH "aarch64")if(NE10_LINUX_TARGET_ARCH STREQUAL "armv7")set(CMAKE_C_COMPILER arm-linux-gnueabihf-gcc)set(CMAKE_CXX_COMPILER arm-linux-gnueabihf-g++)set(CMAKE_ASM_COMPILER arm-linux-gnueabihf-as)find_program(CMAKE_AR NAMES "arm-linux-gnueabihf-ar")find_program(CMAKE_RANLIB NAMES "arm-linux-gnueabihf-ranlib")
elseif(NE10_LINUX_TARGET_ARCH STREQUAL "aarch64")set(CMAKE_C_COMPILER aarch64-linux-gnu-gcc)set(CMAKE_CXX_COMPILER aarch64-linux-gnu-g++)set(CMAKE_ASM_COMPILER aarch64-linux-gnu-as)find_program(CMAKE_AR NAMES "aarch64-linux-gnu-ar")find_program(CMAKE_RANLIB NAMES "aarch64-linux-gnu-ranlib")
endif()mark_as_advanced(CMAKE_AR)
mark_as_advanced(CMAKE_RANLIB)

构建build目录,进入新建的build目录,执行以下命令:

cmake -DCMAKE_TOOLCHAIN_FILE=../GNUlinux_config.cmake .. 
make -j16

测试

测试程序

还是使用豆包生成测试程序。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <NE10.h>// 计算时间差(单位:微秒)
long long get_time_diff_us(struct timespec start, struct timespec end) {return (end.tv_sec - start.tv_sec) * 1000000LL + (end.tv_nsec - start.tv_nsec) / 1000;
}int main() {const int N = 2048;ne10_fft_cpx_float32_t *input, *output, *ifft_output;ne10_fft_cfg_float32_t cfg_fft, cfg_ifft;struct timespec start, end;long long fft_time_us, ifft_time_us;// 初始化NE10库if (ne10_init() != NE10_OK) {fprintf(stderr, "Failed to initialize NE10.\n");return 1;}// 分配内存input = (ne10_fft_cpx_float32_t*) malloc(N * sizeof(ne10_fft_cpx_float32_t));output = (ne10_fft_cpx_float32_t*) malloc(N * sizeof(ne10_fft_cpx_float32_t));ifft_output = (ne10_fft_cpx_float32_t*) malloc(N * sizeof(ne10_fft_cpx_float32_t));// 初始化输入数据for (int i = 0; i < N; i++) {input[i].r = (float)i;input[i].i = 0.0f;}// 创建FFT配置cfg_fft = ne10_fft_alloc_c2c_float32(N);if (cfg_fft == NULL) {fprintf(stderr, "Failed to allocate FFT configuration.\n");free(input);free(output);free(ifft_output);return 1;}// 记录FFT开始时间clock_gettime(CLOCK_MONOTONIC, &start);// 执行FFTne10_fft_c2c_1d_float32(output, input, cfg_fft, 0);// 记录FFT结束时间clock_gettime(CLOCK_MONOTONIC, &end);// 计算FFT时间fft_time_us = get_time_diff_us(start, end);// 创建IFFT配置cfg_ifft = ne10_fft_alloc_c2c_float32(N);if (cfg_ifft == NULL) {fprintf(stderr, "Failed to allocate IFFT configuration.\n");free(input);free(output);free(ifft_output);ne10_fft_destroy_c2c_float32(cfg_fft);return 1;}// 记录IFFT开始时间clock_gettime(CLOCK_MONOTONIC, &start);// 执行IFFTne10_fft_c2c_1d_float32(ifft_output, output, cfg_ifft, 1);// 记录IFFT结束时间clock_gettime(CLOCK_MONOTONIC, &end);// 计算IFFT时间ifft_time_us = get_time_diff_us(start, end);// 输出结果printf("2048点单精度FFT所需时间: %lld 微秒\n", fft_time_us);printf("2048点单精度IFFT所需时间: %lld 微秒\n", ifft_time_us);// 释放资源ne10_fft_destroy_c2c_float32(cfg_fft);ne10_fft_destroy_c2c_float32(cfg_ifft);free(input);free(output);free(ifft_output);return 0;
}    

代码说明:

  1. 头文件包含:引入了必要的头文件,如stdio.h用于输入输出,time.h用于时间测量,NE10.h用于 NE10 库的功能。
  2. 时间计算函数get_time_diff_us函数用于计算两个timespec结构体之间的时间差,单位为微秒。
  3. NE10 库初始化:调用ne10_init()函数初始化 NE10 库。
  4. 内存分配:使用malloc函数为输入、输出和逆变换结果分配内存。
  5. 数据初始化:将输入数据的实部初始化为从 0 到 2047 的整数,虚部初始化为 0。
  6. FFT 和 IFFT 配置创建:使用ne10_fft_alloc_c2c_float32函数创建 FFT 和 IFFT 的配置。
  7. 时间测量:在执行 FFT 和 IFFT 前后分别调用clock_gettime记录时间,然后计算时间差。
  8. 结果输出:输出 FFT 和 IFFT 所需的时间。
  9. 资源释放:使用ne10_fft_destroy_c2c_float32销毁配置,使用free释放内存。

 

测试结果

编译测试程序:

aarch64-linux-gnu-gcc -o ne10test ne10test.c -lNE10 -lm -I../inc -L./modules

然后在ELF2开发板上运行测试程序。

 

和FFTW对比,大概快10几微秒。

结语

通过对 NE10 库的实践与探索,可以看出NE10 凭借对 NEON 指令集的深度优化,持续为各类应用注入高效动力。如果你在实践中有新的优化思路、踩坑经验或应用案例,欢迎在评论区留言交流。未来,我们也将继续挖掘ELF2开发板进行FFT运算 的潜力,探索更多与前沿技术结合的创新应用,期待与各位一同见证计算效率的不断突破!

相关文章:

  • 基于SpringBoot的新闻小程序开发与设计
  • 七牛使用任务工作流对音频进行转码
  • 项目管理基础---引言
  • 树莓派超全系列教程文档--(32)config.txt常用音频配置
  • 银行卡风险画像在社交行业网络安全的应用
  • 深入理解 React Hooks:简化状态管理与副作用处理
  • 【Test Test】灰度化和二值化处理图像
  • JAVA中多线程的经典案例
  • 2025.04.18|【Map】地图绘图技巧全解
  • 负载均衡的策略
  • Nacos 中使用了哪些缓存?缓存的目的是什么?是如何实现的?
  • 废物九重境弱者学JS第十天--BOM对象和本地存储
  • UNION和UNION ALL的主要区别
  • UMG:ListView
  • leetcode 188. Best Time to Buy and Sell Stock IV
  • 2N60-ASEMI功业控制与自动化专用2N60
  • MySQL 表varchar字段长度估算
  • 堆栈溢出 StackOverflowError 排查
  • Java反射机制深度解析与应用案例
  • android编译使用共享缓存
  • 教皇方济各逝世,外交部:表示哀悼,愿同梵方共同推动中梵关系持续改善
  • 去年净流入人口达45万,居各省份第一:浙江带来哪些启示?
  • 三部门:对不裁员少裁员的参保企业实施稳岗返还政策至今年底
  • 民建吉林省委提案:当前生育政策集中鼓励多孩生育,应该转变思路
  • 云南巧家警方抓获一名网逃人员:带70余万现金“隐居”山洞,昼伏夜出
  • 2025年上海车展后天开幕,所有进境展品已完成通关手续