Η ΤΝ δεν μιλάει όλες τις γλώσσες το ίδιο καλά. Και
αυτό δεν είναι μια ποιητική υπερβολή, αλλά μια τεχνική και πολιτισμική
πραγματικότητα. Ανάμεσα στις γλώσσες που βρίσκονται συχνά στο περιθώριο των
μεγάλων γλωσσικών μοντέλων βρίσκεται και η ελληνική, που είναι μια γλώσσα με
ιστορία χιλιάδων ετών αλλά με περιορισμένη ψηφιακή εκπροσώπηση
Δημήτρης Χατζηγιαννάκης
Σήμερα, για να μείνει ζωντανή μια γλώσσα, πρέπει
να έχει όχι μόνο γραπτό και προφορικό λόγο, δηλαδή ομιλητές και συγγραφείς,
αλλά και «λόγο Τεχνητής Νοημοσύνης», δηλαδή δεδομένα για να εκπαιδεύσουν
μοντέλα που παράγουν κείμενα από ψηφιακό περιεχόμενο που διαβάζουν.
Η ελληνική γλώσσα, με 3.000 χρόνια αδιάλειπτης Ιστορίας και περίπου 13-14 εκατομμύρια ομιλητές παγκοσμίως, βρίσκεται σήμερα ενώπιον μιας πρωτόγνωρης πρόκλησης: της ψηφιακής παρουσίας στις βάσεις των μεγάλων γλωσσικών μοντέλων (LLMs), όπως το ChatGPT, το Grok, το Claude και το Gemini. Οι γλώσσες με περιορισμένα ψηφιακά δεδομένα (οι λεγόμενες γλώσσες χαμηλών πόρων – «low-resource languages»), όπως η ελληνική, κινδυνεύουν είτε να περιθωριοποιηθούν είτε να αλλοιωθούν, καθώς η Τεχνητή Νοημοσύνη, εκπαιδευμένη κυρίως σε αγγλικά δεδομένα, παράγει κείμενα που συχνά δεν περιλαμβάνουν ιδιωματισμούς, διαλέκτους και πολιτισμικές αποχρώσεις.
ΤΝ και ελληνική γλώσσα, μια σχέση σε
εξέλιξη
Η ΤΝ δεν μιλάει όλες τις γλώσσες το ίδιο καλά. Και
αυτό δεν είναι μια ποιητική υπερβολή, αλλά μια τεχνική και πολιτισμική
πραγματικότητα. Ανάμεσα στις γλώσσες που βρίσκονται συχνά στο περιθώριο των
μεγάλων γλωσσικών μοντέλων βρίσκεται και η ελληνική, που είναι μια γλώσσα με
ιστορία χιλιάδων ετών αλλά με περιορισμένη ψηφιακή εκπροσώπηση στον κόσμο της
ΤΝ, και σαν τέτοια, αντιμετωπίζεται ως τεχνολογικά λιγότερο υποστηριζόμενη
γλώσσα.
Η πρώτη φορά που βρέθηκα μπροστά στο «πρόβλημα της
ψηφιακής ελληνικής γλώσσας» ήταν το 1994, όταν φέραμε στην Ελλάδα το SAP, που είναι το μεγαλύτερο επιχειρησιακό
λογισμικό (business software) του κόσμου) και ήμουν υπεύθυνος της
«ελληνικοποίησής» του. Τότε κατανόησα ότι για το SAP η ελληνική γλώσσα ήταν γλώσσα επιπέδου 3 (καθώς
με επίπεδο 1 ήταν τα αγγλικά, τα κινέζικα και τα ισπανικά, με επίπεδο 2 τα
γαλλικά και τα ρωσικά) και έτσι μεταφράσαμε μόνο τα short texts από τη μητρική αγγλική γλώσσα, π.χ. τη λέξη «customer» σε «πελάτης», και όχι τα long texts, που εξηγούν τι είναι ο πελάτης, π.χ. σε ένα τιμολόγιο πώλησης.
Εκείνη την περίοδο συνειδητοποίησα κάτι που σήμερα
επανέρχεται με μεγαλύτερη ένταση. Η «κατάταξη» μιας γλώσσας δεν είναι
γλωσσολογικό ζήτημα, αλλά τεχνολογικό και οικονομικό. Αν μια γλώσσα δεν
θεωρείται στρατηγικής σημασίας για την αγορά, δεν επενδύεται σε αυτήν το ίδιο
βάθος υποστήριξης. Στο SAP
αυτό σήμαινε λιγότερα μεταφρασμένα πεδία, λιγότερη τεκμηρίωση, λιγότερη
λειτουργική ακρίβεια, πάντα με σχέση κόστους-οφέλους.
Τότε το πρόβλημα περιοριζόταν στις οθόνες ενός
επιχειρησιακού λογισμικού. Σήμερα, όμως, αφορά τα ίδια τα συστήματα που
παράγουν γνώση, λόγο και αποφάσεις. Αν το 1994 η ελληνική γλώσσα βρισκόταν στο
«επίπεδο 3» ενός λογισμικού, το ερώτημα είναι σε ποιο επίπεδο βρίσκεται σήμερα
μέσα στα παγκόσμια γλωσσικά μοντέλα.
Η διαφορά είναι ότι τότε η ελληνικοποίηση ήταν μια
διαδικασία μετάφρασης. Σήμερα είναι ζήτημα εκπαίδευσης μοντέλων. Δεν αρκεί μόνο
να αποδοθεί σωστά μια λέξη, αλλά κάτι πολύ πολύπλοκο, καθώς πρέπει το σύστημα
να κατανοεί τη δομή, τη λογική, τη σημασιολογική πολυπλοκότητα της γλώσσας. Και
αυτό απαιτεί δεδομένα, επένδυση και στρατηγική επιλογή.
Η ελληνική γλώσσα έχει επιπρόσθετα κάτι μοναδικό:
ιστορική συνέχεια, πλούσια μορφολογία, σύνθετη σύνταξη και τεράστιο
σημασιολογικό βάθος, πλούσια κλιτική μορφολογία, χρήση τόνων και πτώσεων,
ποικιλία διαλέκτων, συνύπαρξη της καθαρεύουσας με τη δημοτική σε ιστορικά
κείμενα. Ακριβώς όμως αυτά τα χαρακτηριστικά την καθιστούν «δύσκολη» για τα
συστήματα ΤΝ.
Τα σύγχρονα μοντέλα γλώσσας (όπως αυτά που
χρησιμοποιούμε σε εργαλεία μετάφρασης, φωνητικούς βοηθούς ή chatbots) εκπαιδεύονται κυρίως σε τεράστιους
όγκους κειμένων από το διαδίκτυο. Και εδώ προκύπτει το πρόβλημα: το ελληνικό
περιεχόμενο είναι περιορισμένο, συχνά χαμηλής ποιότητας, ανομοιογενές και χωρίς
τυποποίηση.
Με απλά λόγια, η ΤΝ «διαβάζει» λιγότερα ελληνικά.
Αρα τα καταλαβαίνει χειρότερα. Βέβαια, δεν φταίει η ελληνική γλώσσα. Φταίει το
γεγονός ότι τα περισσότερα μοντέλα σκέφτονται πρώτα στα αγγλικά και μετά
«μεταφράζουν» στα ελληνικά. Το αποτέλεσμα είναι συχνά λειτουργικό, αλλά όχι
φυσικό. Και τις περισσότερες φορές, όχι πολιτισμικά ακριβές.
Εφαρμογές και προοπτικές
Οι πρακτικές εφαρμογές της ΤΝ στην ελληνική γλώσσα
είναι ήδη ορατές: από αυτόματες μεταφράσεις και εργαλεία ορθογραφικού ελέγχου,
μέχρι συστήματα αναγνώρισης φωνής και chatbots εξυπηρέτησης πελατών. Στον εκπαιδευτικό τομέα,
εφαρμογές εκμάθησης της ελληνικής ως ξένης γλώσσας αξιοποιούν την ΤΝ για
εξατομικευμένη διδασκαλία.
Ωστόσο, η μεγαλύτερη πρόκληση παραμένει η
διατήρηση της γλωσσικής ταυτότητας. Η υπερίσχυση των αγγλικών στην ψηφιακή
σφαίρα δημιουργεί τον κίνδυνο «ψηφιακής υποβάθμισης ή ακόμα και εξαφάνισης» για
μικρότερες γλώσσες.
Η
γλώσσα ως ζήτημα ψηφιακής κυριαρχίας
Το θέμα, όμως, δεν είναι απλώς γλωσσικό ή
τεχνολογικό. Είναι βαθιά πολιτικό και πολιτισμικό.
Αν η ελληνική γλώσσα δεν εκπροσωπείται επαρκώς στα
συστήματα Τεχνητής Νοημοσύνης:
η δημόσια διοίκηση θα εξαρτάται από «ξένα»
γλωσσικά μοντέλα,
η εκπαίδευση θα χρησιμοποιεί εργαλεία που δεν
κατανοούν πραγματικά το ελληνικό περιεχόμενο,
οι επιχειρήσεις θα προσαρμόζονται σε τεχνολογίες
που δεν σχεδιάστηκαν για αυτές,
και, τελικά, η ίδια η γλώσσα θα πιέζεται να
«απλοποιηθεί» για να γίνει κατανοητή από τις μηχανές.
Αυτό δεν είναι απαραίτητα εξέλιξη. Μπορεί να
εξελιχθεί σε γλωσσική απλοποίηση που δεν επιλέξαμε εμείς.
Υπάρχει λύση; Ναι, αλλά απαιτεί πολλά από
εμάς τους Ελληνες
Η ΤΝ δεν είναι μια φυσική δύναμη. Είναι αποτέλεσμα
επιλογών. Και οι επιλογές αυτές μπορούν να αλλάξουν. Χρειάζονται:
Πολλά και ποιοτικά ελληνικά δεδομένα.
Ψηφιοποιημένα, επιμελημένα, καθαρά σώματα κειμένων, που αφορούν λογοτεχνία,
διοικητικά έγγραφα, νομικά κείμενα, επιστημονικά άρθρα, εκπαιδευτικό υλικό
κ.λπ.
Συνεργασία κράτους, πανεπιστημίων και
επιχειρήσεων. Οχι με αποσπασματικά έργα, αλλά με εθνική στρατηγική για την
επαρκή συμμετοχή της ελληνικής γλώσσας στην ΤΝ.
Εξειδικευμένα γλωσσικά μοντέλα για τα ελληνικά,
που δεν είναι ξένα «μεταφρασμένα» μοντέλα, αλλά συστήματα που εκπαιδεύονται
εξαρχής, με γνώμονα τη δομή και τη λογική της ελληνικής γλώσσας.
Ενεργή συμμετοχή των ίδιων των χρηστών. Οσο
περισσότερο χρησιμοποιούμε σωστά ελληνικά στα ψηφιακά εργαλεία, τόσο
περισσότερο και τόσο καλύτερα «μαθαίνουν».
Η διατήρηση της ελληνικής γλώσσας στην εποχή της
ΤΝ δεν είναι υπόθεση μόνο των ειδικών και της Πολιτείας. Ο καθένας μας μπορεί
να συμβάλει με απλές, καθημερινές πράξεις:
Χρησιμοποιήστε σωστά ελληνικά στα ψηφιακά μέσα,
δηλαδή: γράφετε με ορθογραφία και σύνταξη στα social media, τα email και τα blogs, αποφεύγοντας τα greeklish, καθώς κάθε σωστό ελληνικό κείμενο που
δημοσιεύεται online γίνεται
μέρος των δεδομένων εκπαίδευσης της ΤΝ.
Επικοινωνείτε στα ελληνικά με το ChatGPT, το Claude, το Gemini.
Διορθώνετε λάθη που βλέπετε στις μεταφράσεις (Google Translate, DeepL).
Υποστηρίξτε ελληνικό ψηφιακό περιεχόμενο.
Διαβάστε ελληνικά sites και blogs, αντί να στηρίζεστε μόνο σε αγγλικές πηγές.
Γράψτε κριτικές και σχόλια στα ελληνικά (π.χ. σε
βιβλία, εστιατόρια, υπηρεσίες).
Δημιουργήστε περιεχόμενο (blog, podcast, βίντεο) στα ελληνικά. Ενθαρρύνετε τη χρήση
ελληνικών στην εργασία σας. Χρησιμοποιείτε ελληνικές διεπαφές χρηστών (user interfaces) σε λογισμικά που χρησιμοποιείτε.
Προτιμήστε εταιρείες που προσφέρουν υποστήριξη στα
ελληνικά.
Διαμαρτυρηθείτε όταν μια υπηρεσία έχει κακή ή
ανύπαρκτη ελληνική έκδοση.
Να συμμετέχετε σε ερευνητικά προγράμματα ως
εθελοντές, καθώς πολλά πανεπιστήμια και ερευνητικά κέντρα (όπως το «Αθηνά»)
ζητούν εθελοντές για ηχογραφήσεις φωνής, επικύρωση μεταφράσεων ή συλλογή
διαλέκτων.
Διδάξτε σωστά ελληνικά στους γύρω σας και στα
παιδιά σας.
Μιλήστε ελληνικά στο σπίτι, ακόμα και αν ζείτε στο
εξωτερικό.
Χρησιμοποιήστε ελληνικά βιβλία, ταινίες και
εφαρμογές.
Η νέα γενιά είναι αυτή που θα καθορίσει αν η
ελληνική θα είναι «ζωντανή» ψηφιακή γλώσσα.
Επικοινωνήστε με εταιρείες τεχνολογίας όταν τα
προϊόντα τους έχουν ελλιπή ελληνική υποστήριξη.
Υποστηρίξτε
πρωτοβουλίες για ελληνικά ανοιχτά δεδομένα.
Ενημερώστε τις τοπικές αρχές για τη σημασία της
ψηφιακής διατήρησης της γλώσσας.
Η λογική είναι απλή: Κάθε ελληνική λέξη που
γράφετε online, κάθε διάλογος
που κάνετε με έναν φωνητικό βοηθό στα ελληνικά, κάθε διόρθωση που υποβάλλετε,
γίνεται «πρώτη ύλη» για την εκπαίδευση και προσαρμογή των μελλοντικών γλωσσικών
μοντέλων. Με απλά λόγια: γράφουμε ελληνικά, άρα υπάρχουμε ψηφιακά.
Η Ελλάδα που αντιστέκεται, η Ελλάδα που
επιμένει
Ωστόσο, η Ελλάδα δεν μένει αδρανής. Τα τελευταία
δύο χρόνια, ερευνητικά ιδρύματα, πανεπιστήμια και η Πολιτεία έχουν ξεκινήσει
μια συστηματική προσπάθεια να «βάλουν» την ελληνική γλώσσα στην καρδιά της
Τεχνητής Νοημοσύνης.
Τα πρώτα ελληνικά LLMs, Meltemi και Krikri, είναι
γεγονός. Το Meltemi, που
παρουσιάστηκε τον Μάρτιο του 2024 από το Ινστιτούτο Επεξεργασίας του Λόγου
(ΙΕΛ) του Ερευνητικού Κέντρου «Αθηνά», ήταν το πρώτο ανοιχτό Μεγάλο Γλωσσικό
Μοντέλο ειδικά για τα ελληνικά. Εκπαιδευμένο σε δεκάδες δισεκατομμύρια ελληνικά
tokens, ξεπέρασε τα διεθνή
μοντέλα σε κατανόηση και παραγωγή ελληνικού λόγου, μειώνοντας σημαντικά τις
«παραισθήσεις».
Εναν χρόνο αργότερα, στις αρχές του 2025, και με
αφορμή την Παγκόσμια Ημέρα Ελληνικής Γλώσσας (9 Φεβρουαρίου), το ΙΕΛ παρουσίασε
το Llama-Krikri-8B, που υποστηρίζει σύγχρονα και αρχαία ελληνικά, πολυτονικό κείμενο και
κατανόηση πολύσημων λέξεων (όπως π.χ. το ρήμα «χτυπάω» με τις δεκάδες έννοιές
του).
Το εθνικό οικοσύστημα: Φάρος και Δαίδαλος
Η πραγματική «στροφή» έρχεται με το Φάρος (Pharos), το εθνικό Εργοστάσιο Τεχνητής
Νοημοσύνης, που εγκρίθηκε ως ένα από τα επτά Εργοστάσια ΤΝ (AI Factories) της Ευρωπαϊκής Ενωσης. Στόχος του είναι η δημιουργία αξιόπιστων, διαφανών
και γλωσσικά επαρκών συστημάτων ΤΝ για την ελληνική γλώσσα, με έμφαση σε υγεία,
πολιτισμό και βιώσιμη ανάπτυξη. Συνδεδεμένο με τον υπερυπολογιστή Δαίδαλος (Daidalos) –είναι η μεγαλύτερη επένδυση σε
υπολογιστική υποδομή στη χώρα μας–, το Φάρος θα παρέχει την απαραίτητη ισχύ για
επεξεργασία τεράστιων όγκων ελληνικών δεδομένων, εκπαίδευση νέων LLMs και ανάπτυξη εφαρμογών.
Οι επενδύσεις αυτές έχουν τεράστια σημασία για:
Την πολιτισμική μας ταυτότητα, καθώς η ΤΝ μπορεί
να γίνει εργαλείο διαφύλαξης διαλέκτων, αρχαίου κειμένου και πολιτισμικών
αναφορών, αντί να τις ισοπεδώνει.
Την παγκόσμια Ελληνόφωνη Διασπορά, καθώς
εκατομμύρια Ελληνες στο εξωτερικό θα έχουν πρόσβαση σε υπηρεσίες που
«σκέφτονται» ελληνικά.
Την οικονομία και τη δημόσια διοίκηση, καθώς η
σωστή ορολογία, η ακριβής μετάφραση, η αυτοματοποίηση διαχείρισης και
επεξεργασίας εγγράφων, η νομική ανάλυση, η εκπαίδευση κ.λπ. θα γίνονται όλα με
γλωσσική ακρίβεια.
Την ψηφιακή κυριαρχία, καθώς, όπως τόνισε ο
καθηγητής Γιάννης Εμίρης (πρόεδρος Athena RC), «η ανάπτυξη
εγχώριων γλωσσικών εργαλείων συνδέεται άμεσα με την ψηφιακή επιβίωση της
ελληνικής γλώσσας».
Η ΤΝ ως ευκαιρία αναγέννησης
Παραδόξως, η ΤΝ μπορεί να αποτελέσει και μια
τεράστια ευκαιρία για την ελληνική γλώσσα:
να ψηφιοποιηθεί συστηματικά,
να διασωθεί και να διαδοθεί,
να γίνει εργαλείο εκπαίδευσης και πολιτισμού,
να αποκτήσει νέα δυναμική στον παγκόσμιο ψηφιακό
χώρο.
Αρκεί να μη θεωρήσουμε δεδομένο ότι «κάποιος
άλλος» θα το κάνει για εμάς.
Το πραγματικό ερώτημα
Το ερώτημα δεν είναι αν η ΤΝ θα μιλάει ελληνικά ή
αν θα επηρεάσει την ελληνική γλώσσα, αλλά πώς θα διαμορφώσουμε εμείς αυτή την
επίδραση για να καθορίσουμε τι ελληνικά θα μιλάει.
Μόνο έτσι η γλώσσα που έδωσε στον κόσμο λέξεις
όπως «λογική», «φιλοσοφία» και «δημοκρατία» θα μπορέσει να διατηρήσει τη
ζωτικότητά της και στην εποχή των αλγορίθμων και των νευρωνικών δικτύων.
Ας ξεκινήσουμε σήμερα, γράφοντας την επόμενη
σελίδα της ελληνικής γλώσσας online.
Και να μην ξεχνάμε ότι στην εποχή της Τεχνητής
Νοημοσύνης, η γλωσσική αδράνεια δεν είναι ουδετερότητα. Είναι απουσία. Και αν
δεν εκπαιδεύσουμε εμείς τις μηχανές στη γλώσσα μας, οι μηχανές θα εκπαιδεύσουν
εμάς σε μια πιο φτωχή εκδοχή της γλώσσας μας.
Πηγή:
Protagon. gr

Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου