Το Πανεπιστήμιο Δυτικής Αττικής | T.E.I ΠΕΙΡΑΙΑ εγκαινίασε πρόσφατα ένα νέο έργο με τίτλο «Ανάπτυξη UNIPA Υποδομής για Έρευνα και Καινοτομία στην Τεχνητή Νοημοσύνη και τις Εφαρμογές της» (UNIPA AI Innovation Hub – https://ai-innohub.uniwa.gr/) που αφορά τη δημιουργία πρότυπης υποδομής παροχής υπολογιστικών πόρων απευθυνόμενη σε ερευνητές του Πανεπιστημίου αλλά και μικρομεσαίες επιχειρήσεις της Αττικής. Αποτελεί ένα οικοσύστημα υποδομών αιχμής για ένα ευρύ φάσμα τομέων δραστηριότητας με κεντρικό άξονα την αξιοποίηση τεχνολογιών Τεχνητής Νοημοσύνης. Το UNIWA-CloudAI αποτελείται από δύο διακριτές υποδομές, σχεδιασμένες να παρέχουν υπηρεσίες σύμφωνα με το μοντέλο IAAS, η πρώτη παρέχει υπηρεσίες νεφοϋπολογιστικής που βασίζεται στην πλατφόρμα ανοικτού κώδικα OpenStack και η δεύτερη περιλαμβάνει υπολογιστές υψηλής απόδοσης για εφαρμογές τεχνητής νοημοσύνης που βασίζονται σε GPU. Επί του παρόντος, το σύνολο των υποδομών παρέχει 840 CPUs και 16 GPUs NVIDIA A100.
Η υλοποίηση του Data Center Cloud χρησιμοποιηθεί το OpenStack (Yoga) μέσω του λειτουργικού συστήματος Ubuntu (20.04.04 LTS), αποτελείται από 18 εξυπηρετητές και μπορεί να κλιμακωθεί έως και ~200 κόμβους χωρίς να απαιτείται επανασχεδιασμό της αρχιτεκτονικής. Το υλικό βασίζεται σε περιλαμβάνει εξυπηρετητές Dell PowerEdge R640 και Dell PowerEdge R740. Η ανάπτυξη ακολούθησε το παράδειγμα της hyper converged αρχιτεκτονικής που περιλαμβάνει συγκεκριμένα προφίλ κόμβων για διαφορετικούς ρόλους στο cloud. Οι κόμβοι υποδομής διαθέτουν υποστηρικτικές λειτουργίες όπως καταγραφή συμβάντων, παρακολούθηση πόρων και αυτόματη ειδοποίηση.
Severs (PowerEdge R740) | |
CPU | Gold 6238R: 2x 28 cores, 2.2 GHz |
RAM | 768GB |
HDD | 6 * 8 TB + 2x 480GB |
NETWORK | 2*1Gb + 2x 10Gb + 2x 25Gb |
HPC Cloud βασίζεται σε ένα cluster αποτελούμενο από δύο DGX A100 της NVIDIA. Το DGX A100 είναι σύστημα που περιέχει NVIDIA A100 Tensor Core GPU, και υποστηρίζεται από πάνω από μια δεκαετία καινοτομίας AI από την NVIDIA. Κάθε διακομιστής NVIDIA DGX A100 διαθέτει οκτώ NVIDIA A100 Tensor Core GPU, οι οποίες προσφέρουν εξαιρετικές επιδόσεις και είναι πλήρως βελτιστοποιημένος για το λογισμικό NVIDIA CUDA-X™ και τις λύσεις που παρέχονται από την NVIDIA για κέντρα δεδομένων. Οι GPU της NVIDIA A100 υποστηρίζουν το Tensor Float 32 (TF32), το οποίο λειτουργεί ακριβώς όπως το FP32, αλλά παρέχει βελτιομένη απόδόση.
HPC Nodes (DGX A100) | |
GPUs | 8x NVIDIA A100 40 GB GPUs |
GPUs Memory | 320GB |
Performance | 5 petaFLOPS AI |
CPU | Dual AMD Rome 7742, 128 cores |
Networking |
8x Single- Port Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand 1x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200 Gb/s Ethernet |
Storage |
2x 1.92TB M.2 NVME drives 15 TB (4x 3.84 TB) U.2 NVMe drives |
Software | Ubuntu |
Οι χρήστες κατόπιν αιτιολογημένης αίτησης, αποκτούν πρόσβαση σε εικονικές μηχανές ή/και στους κόμβους HPC για προκαθορισμένο χρονικό διάστημα. Το πλήθος των πόρων που παρέχονται ανά χρήστη εξαρτάται από την αίτησή του και την διαθεσιμότητα πόρων την δεδομένη χρονική στιγμή. Αναφορικά με τις εικονικές μηχανές (VMs) οι χρήστες αιτούνται συγκεκριμένο πλήθος μηχανών, επιλέγοντας ένα από τα υποστηριζόμενα profiles (πχ. 1 VM, OS: Ubuntu 20.04 LTS, vCPUs: 4, RAM: 4GB, Disk: 50GB). Το HPC cloud υποστηρίζει την τεχνολογία Mutli-Instance GPU (MIG), η οποία δίνει την δυνατότητα διαμοιρασμού των πόρων μιας φυσικής A100 GPU σε έως επτά διαφορετικά τμήματα τα οποία μπορούν να χρησιμοποιηθούν από διαφορετικούς χρήστες. Με αυτό την τρόπο κάθε χρήστης δεσμεύει το πλήθος των πόρων που απαιτούνται για την εκτέλεση της εργασίας του με μέγιστο όριο την δέσμευση μιας φυσικής GPU.