还剩25页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第2章DSP芯片的基本结构和特征
2.1引言可编程DSP芯片是一种具有特殊结构的微处理器,为了达到快速进行数字__处理的目的,DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字__处理的指令集本章将首先介绍DSP芯片的基本结构,然后介绍TI公司的各种DSP芯片的特征,最后简要介绍其他公司的DSP芯片的特点
2.2DSP芯片的基本结构为了快速地实现数字__处理运算,DSP芯片一般都采用特殊的软硬件结构下面以TMS320系列为例介绍DSP芯片的基本结构TMS320系列DSP芯片的基本结构包括
(1)哈佛结构;
(2)流水线操作;
(3)专用的硬件乘法器;
(4)特殊的DSP指令;
(5)快速的指令周期这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算,并使大部分运算(例如乘法)能够在一个指令周期内完成由于TMS320系列DSP芯片是软件可编程器件,因此具有通用微处理器具有的方便灵活的特点下面分别介绍这些特点是如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的
2.
2.1哈佛结构哈佛结构是不同于传统的冯·诺曼(VonNeu__n)结构的并行体系结构,其主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个相互__的存储器,每个存储器__编址,__访问与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线,从而使数据的吞吐率提高了一倍而冯·诺曼结构则是将指令、数据、地址存储在同一存储器中,统一编址,依靠指令计数器提供的地址来区分是指令、数据还是地址取指令和取数据都访问同一存储器,数据吞吐率低在哈佛结构中,由于程序和数据存储器在两个分开的空间中,因此取指和执行能完全重叠运行为了进一步提高运行速度和灵活性,TMS320系列DSP芯片在基本哈佛结构的基础上作了改进,一是允许数据存放在程序存储器中,并被算术运算指令直接使用,增强了芯片的灵活性;二是指令存储在高速缓冲器(Cache)中,当执行此指令时,不需要再从存储器中读取指令,节约了一个指令周期的时间如TMS320C30具有64个字的Cache
2.
2.2流水线与哈佛结构相关,DSP芯片广泛采用流水线以减少指令执行时间,从而增强了处理器的处理能力TMS320系列处理器的流水线深度从2~6级不等第一代TMS320处理器采用二级流水线,第二代采用三级流水线,而第三代则采用四级流水线也就是说,处理器可以并行处理2~6条指令,每条指令处于流水线上的不同阶段图
2.1所示为一个三级流水线操作的例子图
2.1三级流水线操作在三级流水线操作中,取指、译码和执行操作可以__地处理,这可使指令执行能完全重叠在每个指令周期内,三个不同的指令处于激活状态,每个指令处于不同的阶段例如,在第N个指令取指时,前一个指令即第N-1个指令正在译码,而第N-2个指令则正在执行一般来说,流水线对用户是透明的
2.
2.3专用的硬件乘法器在一般形式的FIR滤波器中,乘法是DSP的重要组成部分对每个滤波器抽头,必须做一次乘法和一次加法乘法速度越快,DSP处理器的性能就越高在通用的微处理器中,乘法指令是由一系列加法来实现的,故需许多个指令周期来完成相比而言,DSP芯片的特征就是有一个专用的硬件乘法器在TMS320系列中,由于具有专用的硬件乘法器,乘法可在一个指令周期内完成从最早的TMS32010实现FIR的每个抽头算法可以看出,滤波器每个抽头需要一条乘法指令MPY LT;装乘数到T寄存器DMOV;在存储器中__数据以实现延迟MPY;相乘APAC;将乘法结果加到ACC中其他三条指令用来将乘数装入到乘法器电路(LT),__数据(DMOV)以及将乘法结果(存在乘积寄存器P中)加到ACC中(APAC)因此,若采用256抽头的FIR滤波器,这四条指令必须重复执行256次,且256次乘法必须在一个抽样间隔内完成在典型的通用微处理器中,每个抽头需要30~40个指令周期,而TMS32010只需4条指令如果采用特殊的DSP指令或采用TMS320C54X等新一代的DSP芯片,可进一步降低FIR抽头的计算时间
2.
2.4特殊的DSP指令DSP芯片的另一个特征是采用特殊的指令
2.
2.3节中介绍的DMOV就是一个特殊的DSP指令,它完成数据移位功能在数字__处理中,延迟操作非常重要,这个延迟就是由DMOV来实现的TMS32010中的另一个特殊指令是LTD,它在一个指令周期内完成LT、DMOV和APAC三条指令LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令在第二代处理器中,如TMS320C25,增加了2条更特殊的指令,即RPT和__CD指令,采用这2条特殊指令,可以进一步将每个抽头的运算指令数从2条降为1条RPTK255;重复执行下条指令256次__CD;LTDMOVMPY及APAC
2.
2.5快速的指令周期哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计,可使DSP芯片的指令周期在200ns以下TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns以下快速的指令周期使得DSP芯片能够实时实现许多DSP应用
2.3TI定点DSP芯片自1982年TI推出第一个定点DSP芯片TMS32010以来,TI的定点DSP芯片已经经历了TMS320C1X、TMS320C2X/C2XX、TMS320C5X、TMS320C54X、TMS320C62X等几代产品,产品的性能__比不断提高,应用越来越广泛下面分别介绍这些芯片的主要特征
2.
3.1TMS320C1X
2.
3.
1.1基本特点第一代TMS320系列DSP芯片包括TMS
32010、TMS
32011、TMS320C
10、TMS320C15/E15和TMS320C17/E17其中,TMS32010和TMS32011采用
2.4m的__OS工艺,而其他几种则采用
1.8mCMOS工艺这些芯片的典型工作频率为20MHzTMS320第一代DSP芯片的主要特点如下:指令周期160ns/200ns/280ns片内RAM144字/256字(TMS320C15/E15/C17/E17)片内ROM
1.5K字/4K字(TMS320C15/C17)4K字片内程序EPROM(TMS320E15/E17)4K字外部全速存储器扩展并行乘法器乘积为32位桶形移位器将数据从存储器移到ALU并行移位器允许文本交换的4×12位堆栈两个间接寻址的辅助寄存器双通道串行口(TMS32011TMS320C17/E17)片内压扩硬件(TMS32011TMS320C17/E17)协处理器接口(TMS320C17/E17)器件封装40脚双列直插(DIP)/44脚塑封(PLCC)
2.
3.
1.2TMS320C10TMS320DSP芯片的第一代产品是基于TMS32010和它的CMOS版本TMS320C10的结构TMS32010于1982年推出,是第一个能够达到5个MIPS的微处理器TMS32010采用改进的哈佛结构,即程序和数据空间相互__程序存储器可在片内(
1.5K字)或片外(4K字)片内数据RAM为144字有四个基本的算术单元算术逻辑单元(ALU)、累加器(ACC)、乘法器和移位器1ALU32位数据操作的通用算术逻辑单元ALU可进行加、减和逻辑运算;2ACC累加器存储ALU的输出,也是ALU的一个输入它采用32位字长操作,分高16位和低16位两部分处理器提供高16位和低16位的专门指令SACH(高16位)和SACL(低16位);3乘法器16×16位并行乘法器由三个单元组成T寄存器、P寄存器和乘法器阵列T寄存器存储被乘数,P寄存器存储32位乘积为了使用乘法器,被乘数首先必须从数据RAM中装入到T寄存器,可用LT、LTA和LTD指令然后执行MPY(乘)或MPYK(乘立即数)指令乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期内完成;4移位器有两个移位器可用于数据移位一个是桶形移位器,另一个是并行移位器桶形移位器又称定标移位器当数据存储器的数据送入累加器或与累加器中的数据进行运算时,先通过这个移位器进行0~16位左移,然后再进行运算并行移位器即输出移位器,其作用是将累加器中的数据左移
0、1或4位后再送入数据存储器中,以实现小数运算或小数乘积的调整在TMS32010/C10基础上又派生了多个处理器,它们可提供不同的处理器速度、存储器扩展和各种I/O集成
2.
3.
1.3TMS320C1X的其他芯片1.TMS320C15/E15TMS320C15/E15与TMS32010的代码和管脚全兼容,提供256字的片内RAM和4K字的片内ROM(C15)或EPROM(E15)TMS320C15的指令周期有200ns和160ns(TMS320C15-25)两种2.TMS320C17/E17TMS320C17/E17是一个专用的微处理器它有4K字的片内程序ROM(C17)或EPROM(E17),一个全双工串行通信的双通道串行口,片内硬件压扩器(律/A律),一个用于串行通信的串行口定时器,及一个协处理器接口协处理器接口可以在处理器和4/8/16位微处理器之间提供直接接口TMS320C17/E17与TMS32010目标代码兼容,且可用相同的__工具该处理器是基于TMS320C10的CPU内核,外加片内的外设存储器和I/O模块TMS320C17/E17可认为是半定制的DSP芯片表
2.1是TMS320第一代产品的比较表表
2.1TMS320第一代处理器DSP芯片指令周期(ns)制造工艺片内程序ROM(字)片内程序EPROM(字)片内数据RAM(字)片外程序(字)TMS32010200__OS
1.5K1444KTMS32010-25160__OS
1.5K1444KTMS32010-14280__OS
1.5K1444KTMS32011200__OS
1.5K144TMS320C10200CMOS
1.5K1444KTMS320C10-25160CMOS
1.5K1444KTMS320C15200CMOS4K2564KTMS320C15-25160CMOS4K2564KTMS320E15200CMOS4K2564KTMS320C17200CMOS4K256TMS320C17-25160CMOS4K256TMS320E17200CMOS4K
2562.
3.2TMS320C2X第二代TMS320DSP芯片包括TMS
32020、TMS320C25/E
25、TMS320C26及TMS320C28在这些芯片中,TMS32020是一个过渡的产品,其指令周期为200ns,与TMS32010相当,而其硬件结构则与TMS320C25一致在第二代DSP芯片中,TMS320C25是一个典型的代表,其他芯片都是由TMS320C25派生出来的其中TMS320E25将内部4K字的ROM改为EPROM;TMS320C26去掉了内部的4K字ROM,而将片内RAM增加到
1.5K字;TMS320C28则将内部ROM增加到8K字由于TMS320C25的典型性,下面就讨论TMS320C25的基本特征和结构
2.
3.
2.1TMS320C25的基本特征指令周期TMS320C25100ns,TMS320C25-33120ns,TMS320C25-5080ns片内掩膜ROM4K字片内RAM544字,分B
0、B1和B2三块程序和数据空间均为64K字具有8级硬件堆栈、8个辅助寄存器具有全静态双缓冲串行口,可与许多串行器件直接接口与低速片外存储器通信的等待状态插入采用HOLD操作的D__FFT变换用的比特反转寻址扩展精度算术和自适应滤波支持从外部存储器全速执行的__C/__CD指令具有在多处理器之间进行同步的能力,支持多处理器共享存储器
1.8μmCMOS工艺,68脚PGA或PLCC封装
2.
3.
2.2TMS320C25的结构TMS320C25是第二代TMS320中与TMS32020管脚全兼容的CMOS版本,但指令执行速度是TMS32020的2倍,且增加了硬件和软件资源指令集是TMS32010和TMS32020的超集,在源代码级与它们兼容此外,在代码级与TMS32020兼容,因此,TMS32020的程序可不用修改直接在TMS320C25上运行100ns的指令周期可提供较强的运算能力由于大部分指令在一个指令周期内执行,处理器在1秒内可执行1000万条指令(10MIPS)运算能力的增加主要得益于乘累加指令(__C)和带数据移位的乘累加指令(__CD)、具有专用算术单元的8个辅助寄存器、适合于自适应滤波和扩展精度运算的指令集支持、比特反转寻址、快速的I/O支持等指令集中提供在两个存储空间中进行数据__的指令在外部,程序和数据存储空间在同一总线上复用,从而使得在尽量减少芯片引脚的情况下最大程度地扩大两个空间的地址范围在内部,TMS320C25结构通过保持程序和数据总线结构分离以使指令全速执行来获得最大的处理能力芯片内部的程序执行采用三级流水线形式流水线对用户来说是透明的但是,在某些情况下流水线可能被打断(如跳转指令),在这种情况下,指令执行时间要考虑流水线必须清空和重新填充两块大的片内RAM在系统设计时提供了很大的灵活性,其中一块既可配置为程序存储器也可配置为数据存储器片外64K字的数据空间可直接寻址,从而使DSP算法实现更为方便片内4K字的掩膜ROM可用来降低系统成本,若程序不超过4K字,可使TMS320C25不用扩展片外程序存储器剩下的64K字程序空间在片外,大量的程序可在片外存储器中全速运行程序也可从片外慢速EPROM中装入到片内高速RAM中全速运行此外,还有硬件定时器、串行口和数据块搬移功能下面介绍TMS320C25的存储器分配、__算术逻辑单元(CALU)、硬件乘法器、控制操作、串行口和I/O接口1.存储器分配TMS320C25具有4K字的片内程序ROM和544字的片内RAMRAM分为三块B
0、B
1、B2其中,B0块(256字)既可配置为数据存储器(用CNFD指令),也可配置为程序存储器(用CNFP指令)其余288字(B1和B2块)只能是数据存储器544字的片内RAM可使C25能处理512字的数据阵列,如可进行256点复数FFT运算,且尚有32字用作中间结果的暂存TMS320C25提供片外可直接寻址的程序和数据空间各64K字寄存器组包含8个辅助寄存器(AR0~AR7),它们可用作数据存储器的间接寻址和暂存,从而增加芯片的灵活性和效率这些寄存器既可用指令直接寻址,也可用3比特的辅助寄存器指针(ARP)间接寻址辅助寄存器和ARP既可从数据存储器装数,也可装入立即数寄存器的内容也可存入数据存储器中辅助寄存器组与辅助寄存器算术单元(ARAU)相连接,用ARAU访问信息表无需CALU参与地址操作,这样可让CALU进行其他操作2.__算术逻辑单元CALU包含一个16位的定标移位器(Scaling),一个16×16位的并行乘法器,一个32位的累加器和一个32位的算术逻辑单元(ALU)移位器根据指令要求提供0到16位的数据左移累加器和乘法器输出端的移位器适合于数值的归一化、比特提取、扩展精度算术和溢出保护典型的ALU指令实现包含以下三步1数据在数据总线上从RAM中获取;2数据移交给完成算术运算的定标移位器和ALU;3结果送回累加器32位累加器可分为2个16位以进行数据存储SACH(高16位)和ACCL(低16位)累加器有一个进位位可方便加法和减法的多精度运算3.硬件乘法器TMS320C25具有一个16×16位的硬件乘法器,它能在一个指令周期内计算一个32位乘积有两个寄存器与乘法器相关
①16位暂存寄存器TR,用于保存乘法器的一个操作数;
②32位乘积寄存器PR,用于保存乘积乘积寄存器的输出可左移1位或4位,这对于实现小数算术运算或调整小数乘积很有用PR的输出也可右移6位,这样可连续执行128次乘/加而无溢出无符号乘(MPYU)指令可方便扩展精度乘法4.I/O接口I/O空间由16个输入口和16个输出口组成这些口可提供全16位并行I/O接口输入(IN)和输出(OUT)操作典型的是2个周期,但若用重复指令,可变成单周期指令I/O器件映射到I/O地址空间,其方式与存储器映射方式相同与不同速度的存储器或I/O器件接口采用READY线完成TMS320C25也支持外部程序/数据存储器的D__,其他处理器通过置HOLD\为低后可完全控制TMS320C25的外部存储器,使C25将其地址、数据和控制线呈高阻状态外部处理器和C25的通信可通过中断来完成TMS320C25芯片提供两种D__方式,一种是加上HOLD后停止执行;另一种是C25继续执行,但执行是在片内ROM和RAM中进行,这可大大提高性能
2.
3.
2.3TMS320C25的软件TMS320C25的指令总共有133条,其中97条是单周期指令在另外36条指令中,21条包括跳转、调用、返回等,这些指令需重新装入程序计数器,使执行流水线中断另外7条指令是双字和长立即数指令剩下的8条指令(IN,OUT,BLKD,BLKP,TBLR,TBLW,__C,__CD)支持I/O操作、存储器之间的数据交换或提供处理器内部额外的并行操作,而且这8条指令与重复计数器配合使用时可成为单周期指令这主要利用了处理器的并行机制,使得复杂的计算可用很少的几条指令来完成由于大多数指令用单16位字编码,故可在一个周期内完成存储器寻址方式有三种直接寻址、间接寻址和立即数寻址直接寻址和间接寻址都用来访问数据存储器,立即数寻址利用由程序计数器确定的存储器内容使用直接寻址方式时,指令字的7位和9位数据存储器页指针(DP)构成16位的数据存储器地址其中,每页长128字,共有512页,故可寻址64K的数据空间间接寻址借助于8个辅助寄存器(AR0~AR7)表
2.2列出了7种间接寻址方式其中的比特反转寻址可大大提高FFT运算的I/O效率其中,OP表示某种运算,NARP表示新的ARP表
2.2TMS320C25的寻址方式寻址方式操作OPA直接寻址OP*(NARP)间接寻址;AR不变OP*+(NARP)间接寻址;当前AR加1OP*-(NARP)间接寻址;当前AR减1OP*0+(NARP)间接寻址;AR0加到当前AROP*0-(NARP)间接寻址;当前AR减去AR0OP*BR0+(NARP)间接寻址;AR0加到AR()OP*BR0-(NARP)间接寻址;当前AR减去AR0()
2.
3.3TMS320C5XTMS320C5X是TI公司的第五代产品,是继TMS320C1X和TMS320C2X之后的第三代定点DSP处理器它的核心__处理器(CPU)以TMS320C25的核心CPU为基础,增强型结构大幅度地提高了整体性能TMS320C5X工作速度是TMS320C25的2倍以上,对于TMS320C1X和TMS320C2X具有源代码向上兼容特性这种兼容性保留了过去__的软件,便于系统升级到更高性能的DSP系统TMS320C5X系列有TMS320C50/C51/C52/C53等多种产品,它们的主要区别是片内RAM、ROM等资源的多少,如TMS320C50内部具有10K字RAM和2K字ROM,其中2K字ROM已经固化了引导程序;TMS320C51内部具有2K字RAM和8K字ROM;TMS320C52内部具有1K字RAM和4K字ROM,减少了一个串行口;TMS320C53内部则有4K字RAM和16K字ROM芯片的其他性能则是完全相同的下面以TMS320C50为例介绍TMS320C5XDSP芯片
2.
3.
3.1TMS320C50的基本特征TMS320C50的主要特点包括:25/35/50ns的指令周期(20~40MIPS)224K×16位最大可寻址外部存储空间(64K程序、64K数据、64KI/O、32K全局)算术逻辑单元(ALU),32位累加器(ACC)以及32位加法器的缓冲器(ACCB)并行逻辑单元(PLU)结果具有32位的16×16位并行乘法器单周期乘累加指令具有一个专用算术单元的8个辅助寄存器,可用于间接寻址8级硬件堆栈0~16位数据左移和右移两个间接寻址的循环缓冲器,用于循环寻址程序代码的单指令重复和程序块重复全双工同步串行口,用于完成TMS320C5X与其他串行器件之间的直接通信时分多址访问(TDM)串行口内部定时器,可用软件控制64K并行I/O口,其中16个有存储器映像可软件编程的等待状态发生器扩展保持操作,用于并发外部D__四级流水线操作,用于延迟跳转、调用、返回指令比特反转寻址方式,用于FFT运算JTAG扫描仿真接口(IEEE标准,P___
9.1)1.核心CPUTMS320C5XCPU的增强功能在提高性能和通用性的同时,保持了对TMS320C1X和TMS320C2X源代码的兼容性硬件的改进包括一个32位累加器缓冲器,附加定标能力,利用附加硬件功能的新指令新的控制功能包括__的并行逻辑单元(PLU)和一组文本交换寄存器数据管理方面的改进包括采用新的块搬移指令和存储器映像寄存器指令TMS320C50有28个存储器映像寄存器和16个存储器映像的I/O口2.片内ROMTMS320C50拥有2K×16位掩蔽ROM,内部固化了引导程序该存储器把程序从外部ROM/EPROM、串行口或并行I/O口引导至运行速度较快的SRAM中这块引导ROM可通过PMST状态寄存器中的MP/MC\位从程序存储空间去除如果该ROM未选,则TMS320C50由片外存储器启动执行3.片内数据RAMTMS320C50具有1056字的片内RAM,这块RAM可在每个机器周期内访问两次(双寻址RAM),只要两次访问不是“写”操作这块存储空间主要用于存储数据,但是如果需要也可用于存储程序和数据其配置有两种方式所有的1056字都作为数据存储区,或者将其中的544字作为数据存储器,512字作为程序存储区可通过状态寄存器ST1中的CNF位选择设置4.片内程序/数据RAMTMS320C50还具有9K字的片内RAM这一存储区可以由软件设置映射到程序或数据存储空间程序从片外存储器引导后,可装入到该存储区全速运行5.片内存储器安全TMS320C50可以通过可屏蔽选择来保护片内存储器的内容当相关比特置位时,外部无法访问片内存储空间6.有地址映射的软件等待状态发生器软件等待状态逻辑不需要任何外部硬件就可以实现TMS320C50与速度较慢的片外存储器和I/O设备接口该电路系统拥有16个等待状态发生器,其中可由用户编程操作的有0,1,2,3和7状态7.并行I/O口TMS320C50共有64KI/O口,其中的16个可映射在数据存储空间这些口可由IN或OUT指令寻址具有存储器映像的I/O口可按存储器的读写方式访问I/O口的访问由IS\线选通增加简单的片外地址译码电路,就可实现TMS320C50的I/O口与外部I/O设备的简单连接8.串行I/O口TMS320C50有两个高速串行口串行口最快可按1/4机器周期(CLKOUT1)操作一个是同步全双工串行口,发送和接收都有缓冲,分别由可屏蔽外部中断__控制,数据可按照8或16位方式传输;另一个串行口为全双工串口,可设置为同步方式,也可设置为时分多址(TDM)方式,TDM串行口一般用于多处理机系统9.16位硬件定时器16位硬件定时器可由软件进行控制,通过设置相应的状态位,定时器可工作在停止、重启动、复位或不工作等状态10.用户可屏蔽中断TMS320C50有4个外部中断线片内的中断锁存电路可实现异步中断操作此外,还有5个内部中断1个定时器中断和4个串行口中断11.JTAG扫描逻辑JTAG扫描逻辑电路用于仿真和测试,采用JTAG可实现在线仿真
2.
3.
3.2TMS320C50的结构TMS320C50采用了与TMS320C25类似的哈佛型总线结构,通过两个__的数据总线和程序总线,最大限度地提高运算速度指令支持在两个存储区之间的数据传输TMS320C50使用32位的ALU和累加器以实现2的补码运算ALU是一个通用的算术单元,它所使用的运算数据(16位)来自数据RAM或来自立即数指令,也可以是乘积寄存器中32位的乘积结果除此之外,ALU还可以执行位操作累加器保存ALU的输出,也为ALU提供下一个输入字长为32位的累加器分为高字节和低字节指令提供对低字节和高字节的单独存储32位的累加器缓冲器用于临时快速地存储累加器的内容除了ALU之外,并行逻辑单元(PLU)可以在不影响累加器内容的情况下对数据进行逻辑操作PLU提供了高速控制器需要的位处理能力,并简化了控制和状态寄存器需要的置位、清零和测试操作乘法器以单指令周期完成16×16位的乘法,结果为32位乘法器由三部分组成,分别是乘法器阵列、PREG(乘积寄存器)、TREG0(临时寄存器)16位的TREG0存储乘数,PREG保存32位的乘积结果乘法器中的数值来自数据存储器,当使用__C/__CD/__DS/__DD指令时来自程序存储器,或者来自乘立即数指令(MPY#)片内快速乘法器对执行诸如卷积、相关和滤波等基本的DSP操作十分有效TMS320C50的定标移位器有一个16位的输入来自数据总线,32位的输出连接到ALU定标移位器依照指令的编程使输入数据产生0到16位的左移移位量取决于指令或移位计数寄存器(TREG1)中的定义值输出的最低有效位(L__)补零,最高有效位补0或符号扩展(取决于状态寄存器ST1的符号扩展模式位SXM)附加的移位能力使处理器能执行数值定标、二进制位提取、符号扩展运算和溢出防止等功能8级硬件堆栈用于在中断及子程序调用时保存程序计数器的内容中断发生时,重要寄存器(ACC、ACCB、ARCR、INDX、PMST、PREG、ST
0、ST1和TREG)压入堆栈,中断返回时弹出,实现了无开销的中断文本切换
2.
3.4TMS320C2XXTMS320C2XX是继TMS320C2X和TMS320C5X之后出现的一种低__、高性能定点DSP芯片,主要包括TMS320C20X、TMS320C24X两个子系列TMS320C2XX系列DSP芯片具有如下特点1处理能力强指令周期最短为25ns,运算能力达40MIPS;2片内具有较大的闪烁存储器TMS320C2XX是最早使用闪烁存储器的DSP芯片闪烁存储器具有比ROM灵活、比RAM便宜的特点TMS320F206和TMS320F207片内具有32K字的闪烁存储器和
4.5K字的RAM利用闪烁存储器存储程序,不仅降低了成本,减小了体积,同时系统升级也比较方便;3功耗低TMS320C2XX系列DSP芯片在5V工作时每个MIPS消耗
1.9__,在
3.3V工作时每个MIPS消耗
1.1__使用DSP核的省电模式可进一步降低功耗;4资源配置灵活现有10多种具有不同资源配置的芯片表
2.3是TMS320C2XX系列DSP芯片比较表此外,TMS320C24X系列芯片为数字控制系统的应用做了优化设计表
2.3TMS320C2XX系列芯片的资源配置TMS320C2XX指令周期(ns)片内ROM(字)片内RAM(字)片内FLM(字)同步串行口异步串行口C20325/35/5054411C20425/35/504K54411C20525/35/
504.5K11F20625/35/
504.5K32K11F20725/35/
504.5K32K21C20935/504K
4.5KC2405016K54411F2405054416K11C241508K54411F241505448K11C242504K54411F243505448K
112.
3.5TMS320C54XTMS320C54X是为实现低功耗、高性能而专门设计的定点DSP芯片,其主要应用是无线通信系统等该芯片的内部结构与TMS320C5X不同,因而指令系统与TMS320C5X和TMS320C2X等是互不兼容的TMS320C54X的主要特点包括1运算速度快指令周期为25/20/15/
12.5/10ns,运算能力为40/50/66/80/100MIPS;2优化的CPU结构内部有1个40位的算术逻辑单元,2个40位的累加器,2个40位加法器,1个17×17的乘法器和1个40位的桶形移位器有4条内部总线和2个地址产生器此外,内部还集成了维特比加速器,用于提高维特比编译码的速度先进的DSP结构可高效地实现无线通信系统中的各种功能,如用TMS320C54X实现全速率的G__需
12.7MIPS,实现半速率G__需
26.2MIPS,而实现全速率G____编码器仅需
2.3MIPS,实现IS-54/136VSELP__编码仅需
12.8MIPS;3低功耗方式TMS320C54X可以在
3.3V或
2.7V电压下工作,三个低功耗方式(IDLE
1、IDLE2和IDLE3)可以节省DSP的功耗,TMS320C54X特别适合于无线__设备用TMS320C54X实现IS54/136VSELP__编码仅需
31.1mW,实现G____编码器仅需
5.6mW;4智能外设除了标准的串行口和时分复用(TDM)串行口外,TMS320C54X还提供了自动缓冲串行口BSP(auto-BufferedSerialPort)和与外部处理器通信的HPI(HostPortInte_____)接口BSP可提供2K字数据缓冲的读写能力,从而降低处理器的额外开销,指令周期为20ns时,BSP的最大数据吞吐量为50Mbit/s,即使在IDLE方式下,BSP也可以全速工作HPI可以与外部标准的微处理器直接接口表
2.4是TMS320C54X系列部分DSP芯片比较表表
2.4TMS320C54X的资源配置TMS320C54X指令周期(ns)工作电压(V)片内RAM(字)片内ROM(字)串行口BSPHPIC54120/255/
3.3/
3.05K28K2个标准口C54220/255/
3.3/
3.010K2K1个TDM口11C54320/
253.3/
3.010K2K1个TDM口1C54520/
253.3/
3.06K48K1个标准口11C54620/
253.3/
3.06K48K1个标准口1C54815/20/
253.3/
3.032K2K1个TDM口21LC/VC54910/
12.5/
153.3/
2.532K16K1个TDM口21VC
5402103.3/
1.816K4K
212.
3.6TMS320C62X这是TI公司于1997年__的一种新型定点DSP芯片该芯片的内部结构与以前的DSP芯片不同,内部集成了多个功能单元,可同时执行8条指令,运算能力达1600MIPS其主要特点有1运行速度快指令周期为5ns,运算能力为1600MIPS;2内部结构不同于一般DSP芯片内部同时集成了2个乘法器和6个算术运算单元,且它们之间是高度正交的,使得在一个指令周期内最大能支持8条32bit的指令;3指令集不同为充分发挥其内部集成的各执行单元的__运行能力,TI公司使用了VelociTT超长指令字(VLIW)结构它在一条指令中组合了几个执行单元,结合其独特的内部结构,可在一个时钟周期内并行执行几个指令;4大容量的片内存储器和大范围的寻址能力片内集成了512K字程序存储器和512K字数据存储器,并拥有32bit的外部存储器界面;5智能外设内部集成了4个D__接口,2个多通道缓存串口,2个32bit计时器;6低廉的使用成本在一个无线基站的应用中,每片TMS320C62X能同时完成30路的__编解码,每路成本为3美元,而以前的DSP系列最大只能完成5路,每路的成本为7美元这种芯片适合于无线基站、无线PDA、组合Modem、GPS导航等需要大运算能力的应用场合
2.4TI浮点DSP芯片
2.
4.1TMS320C3XTMS320C3X是TI的第三代产品,也是第一代浮点DSP芯片TMS320C3X中目前具有TMS320C
30、TMS320C31和TMS320C32三种TMS320C31是TMS320C30的简化和改进型,它在TMS320C30的基础上去掉了一般用户不常用的一些资源,降低了成本,是一个性能__比较高的浮点处理器,在国内已得到了较广泛的应用TMS320C32是TMS320C31的进一步简化和改进表
2.5示出了三种芯片的比较表
2.5三种TMS320C3X芯片的比较特征TMS320C30TMS320C31TMS320C32数据/程序总线主总线STRB32位数据,24位地址扩展总线IOSTRB32位数据,13位地址STRB32位数据,24位地址STRB08/16/32位STRB1:8/16/32位IOSTRB32位内部RAM2K字2K字512字串行I/O口2个串行口1个串行口1个串行口用户程序、数据ROM4K字/16K字节无无D__控制器单通道单通道双通道程序和数据存储器宽度32位32位程序16/32位可选数据8/16/32位可选外部中断触发电平触发电平触发电平/边沿可选中断矢量表地址固定固定用户可重定位程序引导无用户可选用户可选TMS320C30的指令周期为50/60/74ns,TMS320C31的指令周期为33/40/50/60/74ns,TMS320C32的指令周期则为33/40/50ns
2.
4.
1.1TMS320C3X的硬件资源TMS320C30的硬件资源相当丰富其内部包含了2K×32位的快速RAM块分开的程序总线、数据总线和D__总线使得取指、读写数据和D__操作可并行进行,如CPU可以在一个周期内完成下列操作:在一个RAM块中存取两个数据值,进行一次外部取指,D__装入到另一个RAM块64×32位的指令Cache用来存储经常使用的代码块,这可大大减少片外访问的次数,从而提高程序运行速度由于主总线的地址总线是24位,因此TMS320C30可以访问多达16M的32位字的存储器空间,程序、数据和I/O空间都包含在TMS320C30这个16M字的空间中TMS320C30有一个40/32位的浮点/整数乘法器,这个乘法器可以在单周期内完成24位整数和32位浮点值的乘法,为了达到更高的性能,可以采用并行指令在单周期内完成一次乘法和ALU操作当乘法器进行浮点乘法时,输入是32位单精度浮点值,而输出则是40位的扩展精度浮点数整数乘法时,输入是24位,而输出则是32位TMS320C30的整数/浮点算术逻辑运算单元ALU可以进行单周期的32位整数、32位逻辑数和40位的浮点数操作,ALU的运算结果是32位整数或40位浮点数内部的桶形移位器可以在单周期内进行高达32位的左移或右移内部总线CPU1/CPU2和REG1/REG2可从存储器中取两个操作数和从寄存器取两个操作数,这就使得对四个操作数进行乘和加/减可以在单周期内完成TMS320C30内有两个辅助寄存器算术单元(ARAU0和ARAU1),它们可以在单周期内产生两个地址ARAU的操作是和乘法器及ALU的操作并行进行的ARAU支持多种寻址方式TMS320C30提供28个寄存器,这些寄存器可以由乘法器和ALU操作,可以用作通用的寄存器但是,它们也有一些特殊的功能,如8个扩展精度的寄存器(R0~R7)可当累加器使用,特别适合用于存放扩展精度的浮点结果8个辅助寄存器(AR0~AR7)支持一系列间接寻址方式,并且可以用作通用的32位整数和逻辑寄存器其他寄存器提供一些系统功能,如寻址、堆栈管理、处理器状态、中断和块重复等TMS320C30的外设是通过存储器映射的寄存器对外设总线进行控制的,外设总线由32位数据总线和24位地址总线组成,允许与外设直接通信TMS320C30的外设包括两个可支持8/16/24/32位数据交换的串行口和两个32位定时器串行口的时钟可以由内部产生也可由外部提供,串行口的引脚可以配置为通用的I/O引脚,特殊的握手方式可保证TMS320C30与串行口的同步定时器是通用的32位定时器或__计数器,具有两种__方式,可由内部或外部提供时钟,每个定时器对应有一个I/O引脚,可作为定时器的输入时钟或输出时钟,也可配置为通用的I/O引脚片内的D__功能使得CPU与I/O操作可同时进行D__控制器可以在存储器的任何地址进行读写操作而不干扰CPU的操作,因此TMS320C30可与外部的慢速存储器或外设接口而不降低CPU的吞吐量两个通用的外部引脚(XF0,XF1)可由软件设置为输入或输出,这两个引脚也用作TMS320C30的互锁操作,用于多处理器之间的通信除了主总线之外,TMS320C30还有一条扩展总线扩展总线的数据线为24位,地址线为13位,其操作可与主总线操作同时进行,也可__于主总线与主总线相比,扩展总线上的I/O口的读写周期为2个H1周期,即是主总线的2倍扩展总线通常用于I/O操作,如A/D、D/A等TMS320C30内部有4K字的ROM,在微计算机方式下,程序由内部开始运行TMS320C31是TMS320C30的简化和改进型,它去掉了扩展总线、一个串行口和内部的4K字ROM,增加了程序的引导功能当MCBL/MP\引脚为高电平时,工作于微计算机自引导方式,在这种方式下,TMS320C31可从三个特定的地址装入程序(BOOT1,BOOT2,BOOT3),也可从串行口装入程序与EPROM接口时,用户可用软件设定等待周期个数,当然也可用硬件来产生等待周期,可设定是按字节(8位)、半字(16位)或字(32位)装入,应用灵活从串行口装入时,采用固定的32位突发方式装入方式设置是通过复位之后设置四个外部中断之一来实现TMS320C32是TMS320C31的简化和改进型简化主要是将内部的RAM由2K字减少为512字,以降低成本改进之处包括外部存储器宽度可变,中断矢量表可重定位,外部中断可由软件选择是电平触发还是边沿触发,D__控制器增加了一个通道,此外,还增加了两种节电运行方式TMS320C3X均提供HOLD功能和JTAG仿真功能
2.
4.
1.2TMS320C3X的软件资源1.丰富的指令系统TMS320C3X的汇编语言指令集特别适合于数字__处理所有指令占一个机器字长,大部分指令是单周器的指令集共有113条指令,可以分为六类:数据传送类、二操作数算术/逻辑类、三操作数算术/逻辑类、程序控制类、互锁操作类及并行操作类12条数据传送指令可从存储器中读一个字装入寄存器,将一个字从寄存器中存入存储器中及进行堆栈操作二操作数指令有35条,提供整数、浮点、逻辑运算及多精度算术操作17条三操作数指令可以在一个指令周期内完成具有三个操作数的运算,其中两个是源操作数,另一个是目的操作数程序控制指令共16条,它们影响程序的流向,其中有块重复指令RPTB和单指令重复指令RPTS除了有标准跳转指令外,还有延迟跳转指令,有些指令具有条件运算功能5条互锁操作指令主要用来进行多处理器之间的通信剩下的28条指令都是并行操作指令,每条并行指令由两条指令用符号“||”连接,并行操作指令可使“||”前后的两条指令并行完成需要注意的是,并不是任意两条指令都可构成并行指令2.灵活的程序控制TMS320C3X提供相当灵活的程序流控制软件的程序控制包括重复、跳转、调用、陷阱及返回等TMS320C3X重复方式可以实现无开销循环块重复指令RPTB可以使一块代码重复执行指定的次数,而单指令重复指令RPTS使一条指令重复执行指定的次数,由于RPTS取指次数只有一次,因此减少了总线冲突的机会这里需要特别注意的是,RPTS指令禁止中断,而RPTB无此禁忌因此在需要中断的场合,建议采用RPTB指令代替RPTS指令TMS320C3X提供两种类型的跳转标准跳转和延迟跳转标准跳转首先将流水线清空然后执行跳转,这可保证程序计数器的正确管理,但却使跳转指令需4个周期才能执行完毕延迟跳转则相反,它并不将流水线清空,而是保证在程序跳转之前执行它下面的3条指令,这样使得跳转指令本身仅需1个指令周期当然有些指令(如CALL、RPTB等)不能出现在延迟跳转指令下面的3条指令延迟跳转指令在它下面3条指令完成前禁止中断互锁操作可用来实现多个TMS320C3X之间的通信通过采用外部__(XF0,XF1),互锁操作指令提供强有力的同步机制,可用来实现忙等待循环、两个TMS320C3X之间的同步(无需额外的硬件支撑)和多个计数器控制等3.流水线操作流水线操作是TMS320C3X具有高性能的特性之一5个功能单元控制TMS320C3X的操作取指(F)、译码(D)、读操作数(R)、执行(E)和D__流水线操作就是一个基本指令的取指、译码、读操作数和执行的并行操作流水线的结构如图
2.2所示周期FDREm-3Wm-2XWm-1YXWmZYXW←完全重叠m+1ZYXm+2ZYm+3Z注W、X、Y、Z代表指令;F、D、R、E分别代表取指、译码、读操作数和执行图
2.2TMS320C3X的流水线结构图中在m周期,流水线完全重叠,4个单元的操作同时进行5个功能单元的优先级从高到低依次是E、R、D、F、D__当一条指令的处理已经准备好到流水线的下一级,但那一级还没有准备好接收新的输入时,就出现所谓的流水线冲突在这种情况下,低优先级的单元处于等待状态直到高优先级的单元完成它的当前操作尽管D__的优先级最低,但由于D__控制器具有自己的数据和地址总线,因此,通过合适的数据结构,D__与CPU的冲突可以减少甚至消除流水线冲突可以分为下列三大类跳转冲突、寄存器冲突和存储器冲突这三类冲突都可以采取相应的一些手段予以解决,如由于标准跳转引起的跳转冲突可以采用延迟跳转的方法来克服4.寻址方式多样TMS320C3X支持5类寻址方式,在这些类中又可采用6种寻址类型5类寻址方式是
①通用寻址方式;
②三操作数寻址方式;
③并行寻址方式;
④长立即数寻址方式;
⑤条件跳转寻址方式6种寻址类型是
①寄存器寻址;
②直接寻址;
③间接寻址;
④短立即数寻址;
⑤长立即数寻址;
⑥相对寻址此外,TMS320C30还有两种数字__处理中非常有用的寻址方式,一种是圆周寻址方式,主要用于卷积和相关等运算中存储器循环缓冲;另一种寻址方式是比特反转寻址,主要用于FFT运算
2.
4.2TMS320C4XTMS320C4X系列浮点处理器是专门为实现并行处理和满足其他一些实时应用的需求而设计的其主要性能包括275MOPS的惊人速度和320Mbyte/s的吞吐量
2.
4.
2.1TMS320C40的主要特征1具有6个用于处理器间高速通信的通信口每个口的最大数据吞吐量可达20Mbyte/s的异步传输速率处理器之间可直接对通,应用方便、灵活;26个D__通道实现了I/O操作与CPU操作的并行化每个D__通道都具备自初始化的能力,无需CPU来完成初始化的工作,从而最大限度地保证了CPU的性能,数据可以在处理器内存映像的任意范围内传递,具有高度的灵活性;3CPU的处理能力达275MOPS,数据吞吐量为320Mbyte/s由于高度的并行化,TMS320C40的CPU在每个周期内可以完成11次操作指令周期的时间为40ns和50ns40/32位的单周期浮点/整数乘法为大运算量的算法提供了高性能单周期IEEE浮点格式转换为IEEE兼容的处理器提供了一个有效的界面硬件支持除法和平方根倒数运算具有字节和半字长控制的能力,以实现快速数据压缩和解压源代码与TMS320C3X兼容,可移植性好支持线性、循环和比特反转的寻址方式单周期跳转、调用和返回,以实现快速程序控制0~31bit的单周期桶形循环左右移位;4两条分开的外部数据、地址总线支持共享存储器系统和高速数据速率、单周期传输端口数据传输速率高达100Mbyte/s16G字连续的程序/数据/外设地址空间为系统设计带来最大的灵活性状态管脚标明存储器访问类型,以在共享存储器系统中实现快速、智能化的总线仲裁分离的地址、数据和控制使能管脚可实现高速总线仲裁4组存储器控制__支持硬件上不同速率的存储器,使用者可以灵活有效地利用各种高、低速率存储器;5片内分析模块支持高效的并行处理调试为程序、数据和D__访问提供了分离的断点比较器,为快速调试和__提供了片内硬中断的能力为硬件追踪设置了非连续栈,可方便快速地调试、__具有__计数器为标准系统连接留有JTAG界面;6片内程序高速缓冲存储器(Cache)和双向存取/单周期RAM提高了存储器访问的性能片内存储器包括128字的指令高速缓冲存储器;2K字的单周期双向存取程序/数据RAM;ROM中的引导程序支持从8/16/32位中的任一种存储器通过任一通信端口装入程序;7分开的内部程序、数据和D__总线使程序和数据的I/O操作高度并行化,最大限度地保证了CPU的性能
2.
4.
2.2TMS320C40的结构TMS320C40的高性能是通过其高精度、宽动态范围的浮点处理单元,大容量的片内存储器,高度的并行化,以及6个D__协处理器通道体现出来的1.CPUTMS320C40有一个基于寄存器的CPU,其组成部分如下1浮点/整数乘法器通过高度的并行化措施,TMS320C40可以在一个40ns的指令周期内对32位的整型数或40位的浮点数完成一次乘法操作若输入为40位的浮点数,则输出也是40位的浮点数;若输入为32位的整型数,则乘积为64位,输出既可以是32个高有效位,也可以是32个低有效位2算术逻辑单元(ALU)ALU对32位的整型数、32位的逻辑数、40位的浮点数执行单周期操作,包括单周期的整型和浮点转换桶形移位寄存器用来完成单周期的32位左右移位内部总线CPU1/CPU2和REG1/REG2分别连接存储器和内部寄存器,这样就允许在单周期内对4个整型或浮点数并行进行加/减和乘法运算3辅助寄存器运算单元(ARAU)2个辅助寄存器运算单元(ARAU0和ARAU1)可在单周期内产生2个地址ARAU与乘法器及ALU并行操作它们支持带有偏移的寻址、变址寄存器(IR0和IR1)寻址、循环寻址和比特反转寻址4CPU主寄存器组TMS320C40具有32个主寄存器,其中包括12个40位的扩展精度寄存器(R0~R11),8个32位的辅助寄存器(AR0~AR7),1个32位的数据页指针(DP),32位变址寄存器(IR0和IR1),32位块长寄存器(BK),32位的系统栈指针(SP),状态寄存器(ST),D__中断允许寄存器(___),CPU内部中断允许寄存器(IIE),I/O标志寄存器,32位的重复计数器(RC)及32位的重复起始地址寄存器(RS)和重复终止地址寄存器(RE)程序计数器(PC)是一个32位寄存器,装有下一条要提取指令的地址虽然PC不是CPU寄存器组的成员,但用修改程序流的指令可对它进行修改5CPU扩展寄存器组扩展寄存器组包括2个特殊的指针寄存器IVTP指向中断矢量表,TVTP指向陷阱矢量表2.存储器__TMS320C40总的存储器空间可达4G×32位字程序存储器(片内RAM或ROM和外部存储器)、定时器、通信口和D__通道等都包含在这一空间内这样就使得系数、表、程序代码或数据既可存储在RAM中,亦可存储在ROM中,从而使存储器的利用率达到最高,存储器空间可按要求分配地址通过控制一个外部管脚(ROMEN),存储器起始的1M字节的地址空间(00000000h到000FFFFFh)既可以映射到局部地址总线的一部分,也可以在使用装入程序时指向片内ROM1RAM、ROM和高速缓冲存储器TMS320C40的片内包含2个4K字节(1K×32位)的RAM区片内ROM区保留用作引导程序区每一个RAM和ROM区都支持单周期内两次存取分开的程序总线、数据总线和D__总线,使得指令的读取、数据的读写及D__操作可以并行进行例如,在一个周期内CPU可在一个RAM块上存取2个数据,执行一次外部指令的读取,同时D__可对另一个RAM块作直接存储器存取一个128×32位的指令高速缓冲存储器用来存储经常重复的代码段,从而大大地减少了必要的片外存取次数这样就使代码能存储在较慢的、__较低的片外存储器外部总线还可被释放,以供D__、外部存储器操作或系统中的其他设备使用2内部总线操作TMS320C40的高性能在很大程度上归功于其内部总线结构及由之带来的并行性分开的程序总线、数据总线和D__总线使指令的读取、数据的存取和D__操作可以并行进行这些总线连结C40支持的所有物理空间程序计数器(PC)与32位的程序地址总线相连,指令寄存器(IR)与32位的程序数据总线相连,在每一个机器周期内可以读取一个指令字32位的数据地址总线和32位的数据总线在每一个机器周期中支持两次数据的存储器操作数据总线通过CPU1和CPU2总线传送数据到CPUCPU1和CPU2总线在每一机器周期可传送2个数据存储器操作数到乘法器、ALU及寄存器组在CPU内部还有2条寄存器总线REG1和REG2,它们在每一机器周期内,可从寄存器组传送2个数据到乘法器D__控制器由32位地址总线和32位数据总线支持这些总线使D__能与数据及程序总线并行地执行存储器操作3外部总线操作TMS320C40具有2个外部接口全局总线和局部总线它们都包含1个32位的数据总线、1个31位的地址总线和2组控制__这些总线都可用来对外部程序/数据存储器或I/O进行寻址这些总线还有一个外部__,用于等待状态的产生可在软件控制下插入附加的等待状态4外设TMS320C40的外设是通过存储器映射寄存器,由一专用的外设总线控制这一外设总线可以直接与外部设备进行通信TMS320C40的外设包括2个定时器和2个串行口5直接存储器访问(D__)6个通道的片内D__控制器可以读写存储器中的任意单元,而不必涉及CPU的操作因此TMS320C40可以与相对较慢的外部存储器和外设接口而不降低CPU的处理能力D__控制器有自己的地址发生器、源地址和目的地址寄存器及传输计数器专用的D__地址和数据总线使CPU与D__控制器之间的冲突降到了最低的程度一个D__操作包括对存储器做一块或单个字的存取操作D__协处理器的一个关键特性就是它的每一个通道在进行一次数据传输之前都有自动重新初始化的功能总而言之,由于有一个功能强大的CPU、大规模的存储器以及有足够宽的总线来支持其速度,TMS320C40是一个功能强大的DSP芯片3.CPU寄存器、存储器和高速缓冲存储器CPU主寄存器组包括32个寄存器,用来存放乘法器和ALU的操作数这个寄存器组包括辅助寄存器、扩展精度寄存器和变址寄存器等这些寄存器支持寻址、浮点/整型操作、栈操作、处理器状态记录、块重复、分支跳转和中断等功能CPU扩展寄存器组包括中断矢量表指针(IVTP)和陷阱矢量表(TVTP)TMS320C40能够访问的最大存储器范围为4G个32位字(16G字节)的程序、数据和I/O空间2个片内RAM块均为1K×32位片内ROM块包含有自引导程序,每块都支持单周期内2次访问操作1个128×32位的指令高速缓存可以装入指令代码中重复率高的部分高速缓存大大减少了片外操作的次数,这样就允许将指令代码存放在片外的低速、廉价的存储器中而又不降低系统的性能同时由于高速缓存减少了总线上程序指令的读取次数,使得在同一物理空间内进行的数据存取速度大大加快CPU状态寄存器中的3个比特控制着高速缓冲存储器的清除、允许和冻结1CPU寄存器TMS320C40提供了32个CPU主寄存器(不包括程序计数器PC)和2个扩展寄存器主寄存器都可以用作32位的通用寄存器,存放乘法器及ALU的操作数除此之外,还有一些更适合于这些寄存器的特殊功能例如12个扩展精度特别适用于存放扩展精度的浮点运算结果;8个辅助寄存器支持各种间接寻址方式;其余寄存器提供寻址、堆栈管理、处理器状态、中断和块重复等系统功能2存储器分配TMS320C40总的存储器空间为4G字有两种地址编排方式,其区别仅在前1M字之内,由外部引脚ROMEN的值控制ROMEN=1时,00000000h~00000FFFh为一个可访问的片内ROM区(保留用作引导程序),000001FFh~000FFFFFh保留;ROMEN=0时,片内ROM不在C40的存储器空间中,00000000h~000FFFFFh被映射到局部总线上3指令高速缓冲存储器(Cache)128×32位的指令高速缓存不但减少了片外取指的次数,同时也将外部总线从程序取指中解脱出来,从而可以被D__或其他系统部件所采用Cache能以完全自动的方式工作而无需用户的干预它使用的是LRU(Leastre__ntlyused,最近最少使用)算法4.数据格式与浮点操作在TMS320C40的体系结构中,数据有3种基本类型整型、无符号整型和浮点型TMS320C40对有符号和无符号整型支持短格式和单精度格式,而对于浮点数则支持短格式、单精度和扩展精度3种格式浮点操作具有迅速、简单、正确和精度高的特点特别是TMS320C40可以以整型运算的速度来执行浮点操作,同时还可以避免整型运算中的溢出等问题5.寻址TMS320C40有以下5种寻址类型1寄存器寻址在一个CPU的寄存器中包含有操作数;2直接寻址数据地址由数据页指针(DP)的16个低有效位和指令字中的16个低有效比特组成;3间接寻址间接寻址是通过一个辅助寄存器和变址寄存器的内容来操作在存储器中的地址地址运算是由辅助寄存器运算单元来完成的,并且是无符号的(辅助寄存器和变址寄存器的所有32位都在间接寻址中用到);4立即寻址操作数是指令字中的16个低有效位构成的1个16位的立即数;5PC相对寻址PC相对寻址用于分支转移它用指令字中的16或24个低有效比特来替换程序计数器(PC)的当前值TMS320C40的寻址方式包括通用寻址方式、三操作数寻址方式、并行寻址方式、条件转移寻址方式、圆周寻址方式和比特反转寻址方式
2.
4.3TMS320C67X这是TI公司继定点DSP芯片TMS320C62X系列后__的一种新型浮点DSP芯片该芯片的内部结构在TMS320C62X的基础上加以改进,内部同样集成了多个功能单元,可同时执行8条指令,其运算能力可达1GFLOPS除了具有TMS320C62X系列的特点外,其主要特点还有1运行速度快指令周期为6ns,峰值运算能力为1336MIPS,对于单精度运算可达1GFLOPS,对于双精度运算可达250MFLOPS;2硬件支持IEEE格式的32比特单精度与64比特双精度浮点操作;3集成了32×32比特的乘法器,其结果可为32或64比特;4TMS320C67X的指令集在TMS320C62X的指令集基础上增加了浮点执行能力,可以看作是TMS320C62X指令集的超集TMS320C62X指令能在TMS320C67X上运行,而无需任何改变与TMS320C62X系列芯片一样,由于其出色的运算能力、高效的指令集、智能外设、大容量的片内存储器和大范围的寻址能力,这个系列的芯片适合于对运算能力和存储量有高要求的应用场合
2.5多处理器DSP芯片TMS320C8XTI公司除了生产定点和浮点两类DSP芯片之外,还推出了功能强大的多处理器DSP芯片TMS320C80该芯片内部集成了5个微处理器,处理速度达到每秒20亿次操作,与外部交换数据的速度为每秒400Mbyte,特别适合于会议电视等多媒体应用1.TMS320C80结构图
2.3所示为TMS320C80的内部结构图
2.3TMS320C80的内部结构从图中可以看出,TMS320C80是一个多处理器芯片,它集4个可并行处理的高性能DSP芯片、1个RISC主处理器、1个传输控制器、1个视频控制器和50K字节的SRAM等资源于一体,从而使其处理能力达到每秒20亿次操作(2BOPS)该芯片可实时实现新一代的视频压缩和解压缩,可广泛应用于会议电视、可视__、高速__、多媒体、图像和视频处理、二维和三维图形加速、虚拟现实、保密、雷达和声纳处理等应用场合2.并行DSP芯片TMS320C80上集成了4个高性能的DSP芯片,这4个DSP芯片既可__运行,也可并行工作采用64位的指令字,以便于在单个周期内进行多个并行操作每个处理器具有专用的高速指令缓冲Cache和专用的数据RAM每个DSP芯片具有4个主要的功能单元,即1个程序控制器(PFC)、1个数据单元和2个地址单元PFC处理所有的指令执行,包括程序计数器增量、跳转和中断3组无开销循环控制器跟踪循环计数和循环的起始及结束地址,而不增加额外的开销循环控制器在1个公共的循环结束地址内可支持多至3个嵌套的循环数据单元可使单周期乘法和算术逻辑单元(ALU)数据通路操作并行执行32位的ALU可以分解为2个16位ALU或4个8位ALU,以便于对低精度的数据进行更多的并行操作ALU数据通路内独特的扩展器单元可__1个1比特值32次、2个1比特值16次或4个8比特数8次以填满1个32位字这些特征对于减少图像算法中的软件开销很有帮助3.传输控制器TMS320C80可以每秒400M字节的速度与外部交换数据,这个性能主要依赖于片内的传输控制器在这里,传输控制器起智能D__控制器的作用,进行对片外存储器的访问,使主处理器不增加任何负担传输控制器可对二维图形进行线性和二维寻址,支持三维图形缓冲直接存储器接口提供了对多种存储器的灵活操作,包括DRAM、SDRAM、VRAM和SRAM此外,优先级任务管理器支持动态的总线宽度,可支持8至64位数据传输灵活的总线宽度满足了如会议电视等的宽带应用,而不需专用的接口4.RISC主处理器RISC主处理器(MP)进行整个芯片的管理并协调与系统内其他处理器的通信该处理器是一个32位的RISC处理器,内部具有一个运算能力为100MFLOPS并符合IEEE-754标准的浮点单元(FPU),用以实现高效C语言和作为操作系统的平台该处理器主要是适应高级语言并协调片内的多处理器资源,可在单周期内完成1个64位数据的访问和1个32位取指与基本的RISC设计相比,其独特之处在于MP具有完整的浮点指令和一组特殊的矢量浮点指令,这些功能对于图像处理和三维图形来说都是必需的此外,MP还具有31个32位的寄存器,为整数和浮点操作提供了极大的便利5.存储器Cros__ar结构TMS320C80的一个重要特征是存储器Cros__ar结构TMS320C80内部有50K字节的SRAM,这些存储器被配置为较小的存储器块以便于通过这个独特的Cros__ar开关结构实现多个并行的存储器访问Cros__ar开关还便于片内处理器共享板上RAM在TMS320C80中,Cros__ar在每个时钟周期内可进行5次取指和10次并行数据访问,从而使传输速率达到每秒
4.2G字节硬件控制的优先级机制使得在同一个周期内仅有一个处理器访问一个特定的RAM存储器Cros__ar结构增强了系统的高速并行性能6.视频控制器视频控制器具有2个可编程的帧定时器,可按水平或纵向格式同时捕获和显示图像帧定时器可用于任何捕获/显示的组合中,对不同速率的图像捕获可按异步或同步方式工作由于帧定时器是软件可编程的,故可用作通用定时器在TMS320C80基础上,TI公司还推出了简化型的多处理器芯片TMS320C82,其内部包含2个处理器、44K字节的SRAM,性能为每秒15亿次操作,由于省略了2个处理器和视频控制器,其__约为TMS320C80的一半表
2.6所示为两者的性能比较表
2.6TMS320C80/C82的主要性能比较芯片DSP数RISC主处理器视频控制器传输控制器指令周期(ns)寻址空间(字节)片内RAM(字节)处理能力(BOPS)时钟(MHz)C80411120254G50K25040C822101204G44K
1.
2502.6其他DSP芯片简介
2.
6.1AD公司DSP芯片美国AD公司在DSP芯片市场上也占有一定的份额与TI公司相比,AD公司的DSP芯片有自己的特点,如系统时钟一般不经分频直接使用,串行口带有硬件压扩,可从8位EPROM引导程序,可编程等待状态发生器等AD公司的DSP芯片可以分为定点DSP芯片和浮点DSP芯片两大类ADSP21XX系列为定点DSP芯片,ADSP21XXX系列为浮点DSP芯片目前,定点DSP芯片主要有ADSP2101/2103/2105,ASDP2111/2115,ADSP2161/2162/2163/2164/2165/2166以及ADSP2171/2173/2181等浮点DSP芯片主要有ADSP21000/21020,ADSP21060/21062等AD公司的定点DSP芯片的程序字长为24位,数据字长为16位运算速度较快,内部具有较为丰富的硬件资源,一般具有2个串行口、1个内部定时器和3个以上的外部中断源,此外还提供8位EPROM程序引导方式具有一套高效的指令集,如无开销循环、多功能指令、条件执行等ADSP2101的指令周期有80ns、60ns和50ns三种,内部有2K字的程序RAM和1K字的数据RAMADSP2103与ADSP2101相比,指令周期为100ns,工作电压为
3.3VADSP2105是ADSP2101的简化,指令周期为72ns,内部的程序RAM为1K字,数据RAM为512字,串行口减为1个ADSP216X系列的指令周期为50ns~100ns,与其他定点芯片相比,具有较大的内部程序ROM,如ADSP2161/2163内部提供了8K的程序ROM,ADSP2162/2164内部提供4K程序ROM,工作电压为
3.3V,这些芯片的内部数据RAM均为512字而ADSP2165/2166除了具有1K字的程序ROM外,还提供了12K字的程序RAM和4K字的数据RAM,其中,ADSP2166的工作电压为
3.3VADSP2171的指令周期为30ns,速度达
33.3MIPS,是AD公司DSP芯片中运算速度最快的定点芯片之一内部具有2K字的程序RAM和2K字的数据RAMADSP2173的资源与ADSP2171相同,工作电压为
3.3V目前ADSP的定点DSP芯片中,处理能力最强的当数ADSP2181这种芯片具有以下几个特点1运算速度快指令周期为30ns,运算能力为
33.3MIPS;2片内空间大内部的程序和数据RAM均为16K字,共80K字节;3数据交换速度快内部具有数据直接存储传输接口(ID__),便于其他处理器高速存储ADSP2181的片内RAM为了扩展数据存储能力,设计了字节数据直接存储传输接口(BD__),最大可以扩展到4M字节2个串行口都具有自动数据缓冲功能,并且支持D__传输;4支持8位EPROM和通过ID__方式的程序引导;5如果采用基4FFT做1024点复数FFT运算,运算时间仅为
1.07msADSP2181在一个处理器周期内可以完成以下功能产生下一个程序地址取下一个指令进行1个或2个数据__更新1个或2个数据地址指针进行1次数据运算与此同时,还可从2个串行口发送或接收数据,通过ID__或BD__发送或接收数据以及内部定时器计数AD公司的浮点DSP芯片包括ADSP
21020、21060和21062等,程序存储器为48位,数据存储器为40位,支持32位单精度和40位扩展精度的IEEE浮点格式,内部具有32×48位的程序Cache,有3~4个外部中断源ADSP21060采用超级的哈佛结构,具有4条__的总线(2条数据总线、1条程序总线和1条I/O总线),内部集成了大容量的SRAM和专用I/O总线支持的外设,指令周期为25ns,是一个高性能的浮点DSP芯片其主要特点包括1运算速度达40MIPS和80MFLOPS,最高达120MFLOPS每条指令均在1个周期内完成;2片内具有4M位的SRAM,可灵活地进行配置,如配置为128K字的数据存储器(32位)和80K字的程序存储器(48位)可寻址4G字的外部存储器;3具有取模和比特反转的双数据地址产生器;410个D__通道6个点到点连接口,传输速率为240Mbyte/s;5支持多处理器连接,提供与16/32位微处理器的接口外部微处理器可直接读写内部RAM;62个具有/A律压扩功能的同步串行口;7支持可编程等待状态发生,可用8位EPROM或外部处理器引导程序;81024点复数FFT的运算时间为
0.46ms;9支持IEEEJTAG___
9.1标准仿真接口
2.
6.2ATT公司DSP芯片ATT是第一家推出高性能浮点DSP芯片的公司ATT公司的DSP芯片包括定点和浮点两大类定点DSP芯片中有代表性的主要包括DSP
16、DSP16A、DSP16C、DSP1610和DSP1616等浮点DSP芯片中比较有代表性的包括DSP
32、DSP32C和DSP3210等ATT定点DSP芯片的程序和数据字长均为16位,有2个精度为36位的累加器,1个深度为15字的指令Cache,支持最多127次的无开销循环DSP16的指令周期为55ns和75ns,累加器长度为36位,片内有2K字的程序ROM和512字的数据RAMDSP16A速度最快的版本为25ns的指令周期,片内有12K字的程序ROM和2K字的数据RAMDSP16C的指令周期为
38.5ns和
76.9ns,片内存储器资源与DSP16A相同,增加了片内的Codec,此外,还有1个4引脚的JTAG仿真口DSP1610片内有512字的引导ROM和8K字的双口RAM,支持硬件和软件等待状态DSP1616片内有12K字的ROM和2K字的双口RAM,支持软件等待状态DSP1610和1616提供了仿真接口DSP32C是DSP32的增强型,是性能较优的一种浮点DSP芯片其主要特点包括180/100ns的指令周期;2地址和数据总线可以在单个指令周期内访问4次;3片内具有3个512字的RAM块,或2个512字的RAM块加1个4K字的ROM块可以寻址4M字的外部存储器;4具有串行和并行I/O接口串行I/O采用双缓冲,支持8/16/24/32位串行数据传输,外部微处理器可以控制DSP32C的8/16位并行口;5采用专用的浮点格式,可在单周期内与IEEE-754浮点格式进行转换;6具有4个40位精度的累加器和22个通用寄存器;7支持无开销循环和硬件等待状态DSP3210内部具有2个1K字的RAM块和512字的引导ROM,外部寻址空间达4G字节,可以用软件编程产生等待状态,具有串行口、定时器、D__控制器和一个与Motorola和Intel微处理器兼容的32位总线接口
2.
6.3Motorola公司DSP芯片Motorola公司的DSP芯片可分为定点、浮点和专用三种定点DSP芯片以MC
56000、MC
56001、MC56002为代表程序和数据字长为24位,有2个精度为56位的累加器DSP56001的指令周期为60ns和74ns两种片内具有512字的程序RAM、512字的数据RAM和512字的数据ROM三个分开的存储器空间,每个均可寻址64K字片内32字的引导程序可以从外部EPROM装入程序支持8位异步和8~24位同步串行I/O接口并行接口可与外部微处理器接口,支持硬件和软件等待状态产生MC56000是ROM型的DSP芯片,内部具有2K字的程序ROMMC56002则是一个低功耗型芯片,可以在
2.0V~
5.5V电压范围内工作浮点DSP芯片以MC96002为代表,采用IEEE-754标准浮点格式,累加器精度达96位,可支持双精度浮点数该芯片的指令周期为50/60/74ns片内有3个32位地址总线和5个32位数据总线内部具有1K字的程序RAM、1K字的数据RAM和1K字的数据ROM64字的引导ROM可以从外部8位EPROM引导程序内部具有10个96位或30个32位基于寄存器的累加器支持无开销循环、硬件和软件等待状态产生具有三个__的存储空间,每个空间可寻址4G字MC56200是一种基于MC56001DSP核,适合于自适应滤波的专用定点DSP芯片,指令周期为
97.5ns,程序字长和数据字长分别为24位和16位内部的程序和数据RAM均为256字,累加器精度为40位MC56156则是一个在片内集成了过取样-话带Codec模数转换器和锁相环的DSP芯片,主要用于蜂窝__等通信应用,其指令周期为33/50ns除了以上介绍的一些DSP芯片之外,还有一些公司的DSP芯片也较著名例如NEC公司的PD77C
25、PD77220定点DSP芯片和PD77240浮点DSP芯片等
2.7小结本章首先介绍了DSP芯片的基本结构,比较详细地介绍了TI公司的系列DSP芯片的基本特征,并简要介绍了AD等公司的DSP芯片了解DSP芯片的结构和特征是采用DSP芯片设计DSP系统的基础需要特别指出的是,由于DSP芯片的发展速度很快,用户在选用DSP芯片时,必须根据市场行情选用生产厂家主推的产品如TI公司目前比较流行的定点DSP芯片是TMS320C2XX、TMS320C54X、TMS320C62X等,即使是同一系列的DSP芯片,如TMS320C54X,该系列中的某些芯片也已过时,因而建议不要使用CLKOUT1执行译码取指NN-1N-2N+1N-1N+2NNN+1。