猿代码GPU并行程序优化实战课程
多核/多处理器
芯片厂商基于技术和成本的考虑,向多核心方向发展,8核心、32核心、64核心等,但是内存访问还是使用共享总线的方式,这样就限制的CPU处理数据的带宽
NUMA
为了解决内存带宽的问题,引入了NUMA。只有当CPU访问自身直接attach内存对应的物理地址时,才会有较短的响应时间(后称Local Access)。而如果需要访问其他CPU attach的内存的数据时,就需要通过inter-connect通道访问,响应时间就相比之前变慢了(后称Remote Access)。所以NUMA(Non-Uniform Memory Access)就此得名。