Skomedal CUDAopt Tdt24 f2012

Hochgeladen von

Arvind Rao

0% fanden dieses Dokument nützlich (0 Abstimmungen)

19 Ansichten16 Seiten

Cuda optimization

Copyright

Verfügbare Formate

PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Cuda optimization

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

19 Ansichten16 Seiten

Skomedal CUDAopt Tdt24 f2012

Hochgeladen von

Arvind Rao

Cuda optimization

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 16

Im Dokument suchen

CUDA Optimization

Strategies
for Compute- and Memory-bound
Neuroimaging Algorithms
Daren Lee, Ivo Dinov, Bin Dong, Boris Gutman, Igor Yanovsky, Arthur W. Toga

Presentation for TDT24, by Andreas Berg Skomedal

Intro
The GPU is more desirable for computational work

Neuroimaging algorithms contain many of the same

properties of for example physics and
math algorithms

Analysis of neighborhood data for each data element can

be exploited in effective shared memory use
CPU v GPU
CPUs are optimized for memory latency
GPUs are optimized for computational power
Balancing GPU resources
memory
registers
threads
memory latency versus execution time.
GPU
Streaming Multiprocessors -> processor cores

SMs have a fixed pool of registers and on

chip memory
Kernels are executed in groups of Thread
Blocks allocated to one SM
Compute Bound vs Memory Bound
Compute Bound
Large number of computations per element

Memory Bound
Many data elements per computation

Performance is bound by determining maximum allowable

resources to a Thread Block
You want the maximum number of threads per Thread
Block
Compute Bound Problems
Number of threads per SM typically limited
by amount of registers used

Improvements
Using shared memory to reduce register use
which increases number of threads
Precomputing/storing intermediate values
Different registers / blocks per SM configurations
For the force field calculation in an image registration algorithm for
automatically spatially aligning multiple sets of 3Dimages.
Memory Bound Problems
Memory bandwidth or the amount of memory
needed is the main issue

Improvements
Caching, type of cache used
Repartition data/copy subsets
Multipass / integrated multipass
Multi-GPU
Reused Data Halo
The area marked as orange
is reused data that is read
by each thread
Multipass
Scaling for multi-GPU on FDTD alg.
Effect of GPU tradeoffs
Summary and general ideas
Recompute vs reuse
Utilize broadcast if possible
Avoid calculations on data that doesn't affect
the result "enough"
Optimize thread block configuration most
important
Thread Block should be a multiple of number
of SMs
Optimized result 6 times as fast as first
implementation
Based on article
CUDA optimization strategies for compute- and
memory-bound neuroimaging algorithms
Daren Leea (a), Ivo Dinova (a), Bin Dongb(b), Boris
Gutmana (a), Igor Yanovskyc (c), Arthur W. Togaa (a)
a Laboratory of Neuro Imaging, David Geffen School of Medicine, UCLA, 635 Charles Young Drive
South Suite 225, Los Angeles, CA
90095, USA
b Department of Mathematics, University of California, 9500 Gilman Drive, La Jolla, San Diego, CA
92093, USA
c Jet Propulsion Laboratory, California Institute of Technology, 4800 Oak Grove Drive, Pasadena, CA
91109, USA
References
Some figures taken from
3D Finite Difference Computation on GPUs
using CUDA
Paulius Micikevicius
NVIDIA

Das könnte Ihnen auch gefallen

Bandwidth Intensive 3-D FFT Kernel For Gpus Using Cuda: Akira Nukada, Yasuhiko Ogata, Toshio Endo, Satoshi Matsuoka
Dokument11 Seiten
Bandwidth Intensive 3-D FFT Kernel For Gpus Using Cuda: Akira Nukada, Yasuhiko Ogata, Toshio Endo, Satoshi Matsuoka
aruishawg
Noch keine Bewertungen
Why GPU?: CS8803SC Software and Hardware Cooperative Computing
Dokument14 Seiten
Why GPU?: CS8803SC Software and Hardware Cooperative Computing
Sohei La
Noch keine Bewertungen
Introduction To GP-GPU and CUDA: High Performance Computing Center Hanoi University of Science & Technology
Dokument43 Seiten
Introduction To GP-GPU and CUDA: High Performance Computing Center Hanoi University of Science & Technology
Mato Nguyễn
Noch keine Bewertungen
Fast21 Bae
Dokument16 Seiten
Fast21 Bae
Ning Liang
Noch keine Bewertungen
2021 08 26 High Performance GPU Tensor CoreCode Generation For Matmul Using MLIR
Dokument57 Seiten
2021 08 26 High Performance GPU Tensor CoreCode Generation For Matmul Using MLIR
aniwats
Noch keine Bewertungen
Image Parallel Processing Based On GPU PDF
Dokument4 Seiten
Image Parallel Processing Based On GPU PDF
Eider Carlos
Noch keine Bewertungen
2 - Introduction To The GPU
Dokument3 Seiten
2 - Introduction To The GPU
olia.92
Noch keine Bewertungen
A LBM Solver 3D Fluid Simulation On GPU
Dokument9 Seiten
A LBM Solver 3D Fluid Simulation On GPU
Zhe Li
Noch keine Bewertungen
Accelerating Large Graph Algorithms On The GPU Using CUDA
Dokument12 Seiten
Accelerating Large Graph Algorithms On The GPU Using CUDA
Maks Mržek
Noch keine Bewertungen
Optimizing Memory Usage and Accesses On CUDA-Based Recurrent Pattern Matching Image Compression
Dokument16 Seiten
Optimizing Memory Usage and Accesses On CUDA-Based Recurrent Pattern Matching Image Compression
spaval
Noch keine Bewertungen
Nvidia Cuda
Dokument26 Seiten
Nvidia Cuda
Arpit Vijayvergia
Noch keine Bewertungen
UNIT 5pentium Microprocessors
Dokument26 Seiten
UNIT 5pentium Microprocessors
Ashish Kadam
Noch keine Bewertungen
3D Finite Difference Computation On Gpus Using Cuda: Paulius Micikevicius
Dokument6 Seiten
3D Finite Difference Computation On Gpus Using Cuda: Paulius Micikevicius
Siva Go
Noch keine Bewertungen
Icpp 2014 27
Dokument10 Seiten
Icpp 2014 27
ابراهيم التباع
Noch keine Bewertungen
High Performance Computing On Gpu
Dokument37 Seiten
High Performance Computing On Gpu
Sushant Sharma
Noch keine Bewertungen
Teslapersonalsupercomputer 160201192005
Dokument16 Seiten
Teslapersonalsupercomputer 160201192005
Naveen kumar
Noch keine Bewertungen
Accelerating Large Graph Algorithms On The GPU Using Cuda
Dokument12 Seiten
Accelerating Large Graph Algorithms On The GPU Using Cuda
abc010
Noch keine Bewertungen
CUDA Cuts Fast Graph Cuts On The GPU
Dokument8 Seiten
CUDA Cuts Fast Graph Cuts On The GPU
as.dcdvfd
Noch keine Bewertungen
Christen 07
Dokument8 Seiten
Christen 07
bernasek
Noch keine Bewertungen
Pawan 09 Graph Algorithms
Dokument26 Seiten
Pawan 09 Graph Algorithms
gorot1
Noch keine Bewertungen
A Look Into Parallel Architectures
Dokument43 Seiten
A Look Into Parallel Architectures
UmaBoregowda
Noch keine Bewertungen
Multi Core
Dokument70 Seiten
Multi Core
Mark Veltzer
Noch keine Bewertungen
Comparison of Multimedia SIMD, GPUs and Vector
Dokument13 Seiten
Comparison of Multimedia SIMD, GPUs and Vector
Harsh Prasad
Noch keine Bewertungen
GPU Computing CIS-543: Lecture 08: CUDA Memory Model
Dokument50 Seiten
GPU Computing CIS-543: Lecture 08: CUDA Memory Model
AbiMughal
Noch keine Bewertungen
Mics2010 Submission 13
Dokument12 Seiten
Mics2010 Submission 13
Materi Mikom
Noch keine Bewertungen
GPU Architecture
Dokument28 Seiten
GPU Architecture
salution technology
Noch keine Bewertungen
Micikevicius, P. - 3D Finite DIfference Computation On GPUs Using CUDA
Dokument6 Seiten
Micikevicius, P. - 3D Finite DIfference Computation On GPUs Using CUDA
fonseca_r
Noch keine Bewertungen
Tensor Processing Unit
Dokument15 Seiten
Tensor Processing Unit
Osama Asghar
Noch keine Bewertungen
Parallel Data Mining Techniques On Graph
Dokument26 Seiten
Parallel Data Mining Techniques On Graph
badboydhbk
Noch keine Bewertungen
Ijaret: International Journal of Advanced Research in Engineering and Technology (Ijaret)
Dokument9 Seiten
Ijaret: International Journal of Advanced Research in Engineering and Technology (Ijaret)
IAEME Publication
Noch keine Bewertungen
DCA1104 & Understanding PC & Troubleshooting - Siddharth Pal
Dokument8 Seiten
DCA1104 & Understanding PC & Troubleshooting - Siddharth Pal
siddharthpscs6
Noch keine Bewertungen
Use Singlesocket Servers To 373722
Dokument9 Seiten
Use Singlesocket Servers To 373722
Igor Mussoi
Noch keine Bewertungen
DDR Sdram
Dokument25 Seiten
DDR Sdram
Amilcar Pirir Pineda
Noch keine Bewertungen
IntelAtomintel Arch
Dokument14 Seiten
IntelAtomintel Arch
Srinidhi S Iyengar
Noch keine Bewertungen
Intro Computing BCSM-F18-071 - Assignment 1
Dokument10 Seiten
Intro Computing BCSM-F18-071 - Assignment 1
shehnam javed
Noch keine Bewertungen
Is There A Real Difference Between DSPs and GPUs
Dokument18 Seiten
Is There A Real Difference Between DSPs and GPUs
nckpourlas
Noch keine Bewertungen
Optimizated Allocation of Data Variables To PCM/DRAM-based Hybrid Main Memory For Real-Time Embedded Systems
Dokument4 Seiten
Optimizated Allocation of Data Variables To PCM/DRAM-based Hybrid Main Memory For Real-Time Embedded Systems
Vini Vinay
Noch keine Bewertungen
Efficient Acceleration of Asymmetric Cryptography On Graphics Hardware
Dokument17 Seiten
Efficient Acceleration of Asymmetric Cryptography On Graphics Hardware
Domenico Argenziano
Noch keine Bewertungen
DDR3 Memory Controller Proposal
Dokument3 Seiten
DDR3 Memory Controller Proposal
RMD
Noch keine Bewertungen
DDR Sdram: Double Data Rate Synchronous Dynamic Random-Access Memory
Dokument8 Seiten
DDR Sdram: Double Data Rate Synchronous Dynamic Random-Access Memory
Toma95
Noch keine Bewertungen
A GPGPU Compiler For Memory Optimization And: Parallelism Management
Dokument12 Seiten
A GPGPU Compiler For Memory Optimization And: Parallelism Management
hira
Noch keine Bewertungen
Graphic Processing Unit
Dokument20 Seiten
Graphic Processing Unit
Prashant Barve
100% (1)
TABLE 3.1 Optimized Designs Provide Better Area - Time Performance at The Expense of Design Time. Type of Design Design Level Relative Expected Area × Time
Dokument6 Seiten
TABLE 3.1 Optimized Designs Provide Better Area - Time Performance at The Expense of Design Time. Type of Design Design Level Relative Expected Area × Time
Alex Postiniuc
Noch keine Bewertungen
Cufft Performance Graphs
Dokument10 Seiten
Cufft Performance Graphs
api-12797690
Noch keine Bewertungen
Lesson 1
Dokument25 Seiten
Lesson 1
BRIANA BELOSTRINO
Noch keine Bewertungen
CUDA Occupancy Calculator
Dokument44 Seiten
CUDA Occupancy Calculator
Laury Sofy
Noch keine Bewertungen
Rodrigo Freire - Rhel 6 Performance & Tuning
Dokument37 Seiten
Rodrigo Freire - Rhel 6 Performance & Tuning
Filipe Luciano
Noch keine Bewertungen
A Brief Overview of The Graphics Pipeline: Cedric Lee
Dokument33 Seiten
A Brief Overview of The Graphics Pipeline: Cedric Lee
jkonduru
Noch keine Bewertungen
Memory Interference Characterization Between CPU
Dokument10 Seiten
Memory Interference Characterization Between CPU
Gary Ryan Donovan
Noch keine Bewertungen
CHMA Unit - V
Dokument25 Seiten
CHMA Unit - V
Sayyan Shaikh
100% (1)
Multicore Processor
Dokument15 Seiten
Multicore Processor
Phani Kumar
Noch keine Bewertungen
Side-Channel Power Analysis of A GPU AES Implementation: Chao Luo, Yunsi Fei, Pei Luo, Saoni Mukherjee, David Kaeli
Dokument8 Seiten
Side-Channel Power Analysis of A GPU AES Implementation: Chao Luo, Yunsi Fei, Pei Luo, Saoni Mukherjee, David Kaeli
Anupam Das
Noch keine Bewertungen
Comp Arch Project 2 Final
Dokument29 Seiten
Comp Arch Project 2 Final
Archit
Noch keine Bewertungen
409 Part 2
Dokument30 Seiten
409 Part 2
omotoso femi
Noch keine Bewertungen
Computer Systems: CS553 Homework #2
Dokument2 Seiten
Computer Systems: CS553 Homework #2
Hariharan Shankar
Noch keine Bewertungen
GPU Model: Cedric Nugteren February 2, 2010
Dokument8 Seiten
GPU Model: Cedric Nugteren February 2, 2010
proxymo1
Noch keine Bewertungen
Hadoop Capacity Planning and Dimensioning
Dokument9 Seiten
Hadoop Capacity Planning and Dimensioning
Uneq Solutions
Noch keine Bewertungen
Nintendo 64 Architecture: Architecture of Consoles: A Practical Analysis, #8
Von Everand
Nintendo 64 Architecture: Architecture of Consoles: A Practical Analysis, #8
Rodrigo Copetti
Noch keine Bewertungen
Game Boy Advance Architecture: Architecture of Consoles: A Practical Analysis, #7
Von Everand
Game Boy Advance Architecture: Architecture of Consoles: A Practical Analysis, #7
Rodrigo Copetti
Noch keine Bewertungen
Preliminary Specifications: Programmed Data Processor Model Three (PDP-3) October, 1960
Von Everand
Preliminary Specifications: Programmed Data Processor Model Three (PDP-3) October, 1960
Digital Equipment Corporation
Noch keine Bewertungen
9 - SMB Azure BCDR How-To Active Directory Guide
Dokument26 Seiten
9 - SMB Azure BCDR How-To Active Directory Guide
Pedro
Noch keine Bewertungen
Schneider
Dokument98 Seiten
Schneider
haitan981
Noch keine Bewertungen
Guidelines With The Lxr-Opscan 6
Dokument6 Seiten
Guidelines With The Lxr-Opscan 6
subramanyam62
Noch keine Bewertungen
6 Linear Relations BLM Extra Practice Sheets Answer Keys
Dokument2 Seiten
6 Linear Relations BLM Extra Practice Sheets Answer Keys
api-349184429
Noch keine Bewertungen
Nodeb LMT User Guide (v200r013 - 04) (PDF) - en
Dokument205 Seiten
Nodeb LMT User Guide (v200r013 - 04) (PDF) - en
pr3m4n
100% (5)
DocFetcher Manual
Dokument5 Seiten
DocFetcher Manual
sergio_gutman
Noch keine Bewertungen
08 MDS Smart Commander RSUDSidoarjo 3
Dokument29 Seiten
08 MDS Smart Commander RSUDSidoarjo 3
Ulma Hudin
Noch keine Bewertungen
Difference Between Browsing and Surfing
Dokument2 Seiten
Difference Between Browsing and Surfing
Minal Fegade
Noch keine Bewertungen
PICPro3 User's Guide
Dokument381 Seiten
PICPro3 User's Guide
Dan Foster
100% (1)
Infoplc Net Sitrain 06 Symbolic
Dokument14 Seiten
Infoplc Net Sitrain 06 Symbolic
Bijoy Roy
Noch keine Bewertungen
Users Guide Vxworks
Dokument470 Seiten
Users Guide Vxworks
gem
Noch keine Bewertungen
Romberg Rule of Integration: Major: All Engineering Majors Authors: Autar Kaw, Charlie Barker
Dokument27 Seiten
Romberg Rule of Integration: Major: All Engineering Majors Authors: Autar Kaw, Charlie Barker
prasenajita
Noch keine Bewertungen
Spatial COupling
Dokument45 Seiten
Spatial COupling
Surajkumar Harikumar
Noch keine Bewertungen
Introduction To Information Visualization
Dokument44 Seiten
Introduction To Information Visualization
José María Raya Bejarano
Noch keine Bewertungen
VPR User Manual 6.0
Dokument38 Seiten
VPR User Manual 6.0
kbmn2
Noch keine Bewertungen
Project Synopsis Project Title:: Design and Verification of Soc Bus Bridge
Dokument5 Seiten
Project Synopsis Project Title:: Design and Verification of Soc Bus Bridge
Vishwath Bhandary
Noch keine Bewertungen
Lab X - Building A Machine-Learning Annotator With Watson Knowledge Studio
Dokument27 Seiten
Lab X - Building A Machine-Learning Annotator With Watson Knowledge Studio
Manoj Kumar
Noch keine Bewertungen
Blue Prism - Guide To OLEDB v2 PDF
Dokument6 Seiten
Blue Prism - Guide To OLEDB v2 PDF
bnanduri
Noch keine Bewertungen
How To Set An Oracle Env
Dokument103 Seiten
How To Set An Oracle Env
Mohan Kumar
Noch keine Bewertungen
CH03 5C 4
Dokument37 Seiten
CH03 5C 4
Faisal Rahman
Noch keine Bewertungen
ArchModels Volumes 1-60
Dokument0 Seiten
ArchModels Volumes 1-60
Bogdan Andrei
100% (1)
Local Control Unit DCS PDF
Dokument44 Seiten
Local Control Unit DCS PDF
Saravanakumar K
Noch keine Bewertungen
Memory Organization
Dokument22 Seiten
Memory Organization
siva
Noch keine Bewertungen
Usm Appliance User Guide
Dokument399 Seiten
Usm Appliance User Guide
camelo2010
Noch keine Bewertungen
Harvard Architecture
Dokument11 Seiten
Harvard Architecture
pratham gunj
Noch keine Bewertungen
BCS 051
Dokument2 Seiten
BCS 051
AnkitSingh
Noch keine Bewertungen
Information Gathering With: Maximiliano Soler
Dokument82 Seiten
Information Gathering With: Maximiliano Soler
KartsnyenaSankrityayan
100% (1)
Whitepaper: Autocad Plant 3D Performance - Maximizing Speed
Dokument4 Seiten
Whitepaper: Autocad Plant 3D Performance - Maximizing Speed
Neel Kadakiya
Noch keine Bewertungen
Exam 2004
Dokument20 Seiten
Exam 2004
kib6707
Noch keine Bewertungen