ARMCC和GCC编译ARM代码的软浮点和硬浮点问题【转】

简介: 转自:http://blog.csdn.net/hunanchenxingyu/article/details/47003279 目录(?)[-] VFP vector floating-point 硬浮点Hard-float 软浮点 Soft-float Soft-float和hard-float的编译选项 ARMCC fplib浮点运算库 附录常见的芯片和VFP配置 本文介绍了ARM代码编译时的软浮点(soft-float)和硬浮点(hard-float)的编译以及链接实现时的不同。

转自:http://blog.csdn.net/hunanchenxingyu/article/details/47003279

本文介绍了ARM代码编译时的软浮点(soft-float)和硬浮点(hard-float)的编译以及链接实现时的不同。从VFP浮点单元的引入到软浮点(soft-float)和硬浮点(hard-float)的概念,然后是在GCC和ARMCC RVCT工具链下的具体编译参数。

ARMv5开始,就有可选的 Vector Floating Point (VFP)模块,当然最新的如 Cortex-A8Cortex-A9  Cortex-A5 可以配置成不带VFP的模式供芯片厂商选择。VFP经过若干年的发展,有VFPv2 (一些 ARM9 / ARM11) VFPv3-D16(只使用16个浮点寄存器,默认为32个)和VFPv3+NEON (如大多数的Cortex-A8芯片)。对于包含NEONARM芯片,NEON一般和VFP公用寄存器。

FPUFPUFPU

FPUARM Linuxhard-floatVFP

 

armel和armhf ABI
armel中,关于浮点数计算的约定有三种。以gcc为例,对应的-mfloat-abi参数值有三个:soft,softfp,hardsoft是指所有浮点运算全部在软件层实现,效率当然不高,会存在不必要的浮点到整数、整数到浮点的转换,只适合于早期没有浮点计算单元的ARM处理器;softfp是目前armel的默认设置,它将浮点计算交给FPU处理,但函数参数的传递使用通用的整型寄存器而不是FPU寄存器;hard则使用FPU浮点寄存器将函数参数传递给FPU处理。需要注意的是,在兼容性上,soft与后两者是兼容的,但softfphard两种模式不兼容。默认情况下,armel使用softfp,因此将hard模式的armel单独作为一个abi,称之为armhf。而使用hard模式,在每次浮点相关函数调用时,平均能节省20CPU周期。对ARM这样每个周期都很重要的体系结构来说,这样的提升无疑是巨大的。在完全不改变源码和配置的情况下,在一些应用程序上,使用armhf能得到20%——25%的性能提升。对一些严重依赖于浮点运算的程序,更是可以达到300%的性能提升。

CodeSourcery gcc的编译参数上,使用-mfloat-abi=name来指定浮点运算处理方式。-mfpu=name来指定浮点协处理的类型。可选类型如fpa,fpe2,fpe3,maverick,vfp,vfpv3,vfpv3-fp16,vfpv3-d16,vfpv3-d16-fp16,vfpv3xd,vfpv3xd-fp16,neon,neon-fp16,vfpv4,vfpv4-d16,fpv4-sp-d16,neon-vfpv4等。使用-mfloat-abi=hard (等价于-mhard-float) -mfpu=vfp来选择编译成硬浮点。使用-mfloat-abi=softfp就能兼容带VFP的硬件以及soft-float的软件实现,运行时的连接器ld.so会在执行浮点运算时对于运算单元的选择,是直接的硬件调用还是库函数调用,是执行/lib还是/lib/vfp下的libm。-mfloat-abi=soft (等价于-msoft-float)直接调用软浮点实现库。

 

在ARM RVCT工具链下,定义fpu模式:

? --fpu softvfp
? --fpu softvfp+vfpv2
? --fpu softvfp+vfpv3
? --fpu softvfp+vfpv_fp16
? --fpu softvfp+vfpv_d16
? --fpu softvfp+vfpv_d16_fp16.

定义浮点运算类型

--fpmode ieee_full :所有单精度float和双精度double的精度都要和IEEE标准一致,具体的模式可以在运行时动态指定;

--fpmode ieee_fixed舍入到最接近的实现的IEEE标准,不带不精确的异常;

--fpmode ieee_no_fenv:舍入到最接近的实现的IEEE标准,不带异常;

--fpmode std:非规格数flush0、舍入到最接近的实现的IEEE标准,不带异常;

--fpmode fast更积极的优化,可能会有一点精度损失。

 

一个浮点软链接实现的汇编例子

IMPORT __softfp_cos

BL __softfp_cos

__aeabi_dadd 浮点double类型数据的加法,__aeabi_fdiv 单精度浮点除法。

 

附录:常见的芯片和VFP配置

Partial reference of SoC and supported ISAs

Manufacturer http://houh-1984.blog.163.com/

SoC

architecture

VFP

SIMD

Notes

Freescale

iMX5x

armv7

VFPv3

NEON

Cortex-A8NEON only reliable in Tape-Out 3 or above

Nvidia

Tegra2

armv7

VFPv3 D16

none

 

Marvell

Dove

armv7

VFPv3 D16

iwMMXt

 

Texas Instruments

OMAP3xxx

armv7

VFPv3

NEON

Cortex-A8

Texas Instruments

OMAP4xxx

armv7

VFPv3

NEON

Cortex-A9

Texas Instruments

OMAP5xxx

armv7

VFPv4

NEON

Cortex-A15 (ARMv7-A) + Cortex-M4 (ARMv7-ME)

Qualcomm

Snapdragon

armv7

VFPv3

NEON[1]

Qualcomm "Scorpion" core

Samsung

S5PC100

armv7

VFPv3

NEON

Cortex-A8

Allwinner

A1x

armv7

VFPv3

NEON

Cortex-A8

Reference

http://houh-1984.blog.163.com/

http://wiki.debian.org/ArmHardFloatPort

http://www.claudxiao.net/2012/02/armhf/

http://armin762.wordpress.com/2010/12/09/arm-hardfloat-and-gentoo/

本文介绍了ARM代码编译时的软浮点(soft-float)和硬浮点(hard-float)的编译以及链接实现时的不同。从VFP浮点单元的引入到软浮点(soft-float)和硬浮点(hard-float)的概念,然后是在GCC和ARMCC RVCT工具链下的具体编译参数。

【作者】 张昺华
【新浪微博】 张昺华--sky
【twitter】 @sky2030_
【facebook】 张昺华 zhangbinghua
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
目录
相关文章
|
3月前
|
存储 编解码 算法
没有DSP的浮点单元不能进行浮点运算?
没有DSP的浮点单元不能进行浮点运算?
|
5月前
浅谈RISC-V指令集的基本指令格式和立即数操作
在以前的文章中,我分享了RISC-V在设计的初衷,除了可以被通用软件开发使用之外,还有一个目的就是,可以支持更多定制化的设计。也就是说,用户可以在基本指令集上面,进行一个或者多个的指令集扩展操作,但是有一个条件,不能再重新定义基本指令集。也就是说,任何一款基于RISC-V指令集的处理器,都要能够支撑整数基本指令集。可以看出基本指令集的重要性。
128 0
|
8月前
|
存储 C语言
5.9 汇编语言:浮点数操作指令
浮点运算单元是从80486处理器开始才被集成到CPU中的,该运算单元被称为FPU浮点运算模块,FPU不使用CPU中的通用寄存器,其有自己的一套寄存器,被称为浮点数寄存器栈,FPU将浮点数从内存中加载到寄存器栈中,完成计算后在回写到内存中。FPU有8个可独立寻址的80位寄存器,分别名为`R0-R7`他们以堆栈的形式组织在一起,栈顶由FPU状态字中的一个名为TOP的域组成,对寄存器的引用都是相对于栈顶而言的,栈顶通常也被叫做ST(0)最后一个栈底则被记作ST(7)其使用方式与堆栈一致。
158 0
|
11月前
驱动开发:内核读写内存浮点数
如前所述,在前几章内容中笔者简单介绍了`内存读写`的基本实现方式,这其中包括了`CR3切换`读写,`MDL映射`读写,`内存拷贝`读写,本章将在如前所述的读写函数进一步封装,并以此来实现驱动读写内存浮点数的目的。内存`浮点数`的读写依赖于`读写内存字节`的实现,因为浮点数本质上也可以看作是一个字节集,对于`单精度浮点数`来说这个字节集列表是4字节,而对于`双精度浮点数`,此列表长度则为8字节。
219 0
不同CPU指令的指令集密度
不同CPU指令的指令集密度
102 0
不同CPU指令的指令集密度
MIPS指令集确实够精简,编译文件明显小
MIPS指令集确实够精简,编译文件明显小
58 0
驱动开发:内核LDE64引擎计算汇编长度
本章开始`LyShark`将介绍如何在内核中实现`InlineHook`挂钩这门技术,内核挂钩的第一步需要实现一个动态计算汇编指令长度的功能,该功能可以使用`LDE64`这个反汇编引擎,该引擎小巧简单可以直接在驱动中使用,LDE引擎是`BeaEngine`引擎的一部分,后来让`BeatriX`打包成了一个`ShellCode`代码,并可以通过`typedef`动态指针的方式直接调用功能,本章内容作为后期`Hook`挂钩的铺垫部分,独立出来也是因为代码太多太占空间一篇文章写下来或很长影响阅读。
204 0
驱动开发:内核LDE64引擎计算汇编长度
|
存储
ARM64特有一些的汇编指令
ARM64特有的汇编指令
1416 0
ARM64特有一些的汇编指令
|
存储
ARM64汇编的函数有那些需要重点注意?
ARM64汇编的函数有那些重点
405 0
ARM64汇编的函数有那些需要重点注意?