«Καμπανάκι» από νέα μελέτη: Το ChatGPT Health μπορεί να υποεκτιμά επείγοντα περιστατικά
Εκατομμύρια άνθρωποι χρησιμοποιούν το εργαλείο τεχνητής νοημοσύνης καθημερινά, για πληροφορίες και καθοδήγηση σε θέματα υγείας
Ένα από τα πιο δημοφιλή εργαλεία τεχνητής νοημοσύνης για θέματα υγείας, το ChatGPT Health, βρίσκεται στο επίκεντρο επιστημονικής συζήτησης μετά από νέα μελέτη που εγείρει σοβαρά ερωτήματα για την ασφάλεια και την αξιοπιστία του σε κρίσιμες καταστάσεις. Σύμφωνα με ερευνητές από το η Ιατρική Σχολή Icahn του Mount Sinai (Icahn School of Medicine at Mount Sinai), σε αρκετές περιπτώσεις, το σύστημα ενδέχεται να μην κατευθύνει σωστά τους χρήστες προς τα επείγοντα, ακόμη και όταν πρόκειται για σοβαρά περιστατικά.
Η μελέτη, η οποία αποτελεί την πρώτη ανεξάρτητη αξιολόγηση ασφάλειας του συγκεκριμένου εργαλείου από την κυκλοφορία του, δημοσιεύτηκε στο έγκριτο επιστημονικό περιοδικό Nature Medicine. Στο πλαίσιο αυτό, οι ερευνητές επιχείρησαν να απαντήσουν σε ένα απλό αλλά κρίσιμο ερώτημα: «Αν κάποιος αντιμετωπίζει μια επείγουσα ιατρική κατάσταση και ζητήσει βοήθεια από το ChatGPT Health, θα του συστήσει ξεκάθαρα να πάει στο νοσοκομείο;».
Πώς έγινε η έρευνα
Οι ερευνητές δημιούργησαν 60 ρεαλιστικά κλινικά σενάρια, που κάλυπταν 21 διαφορετικές ιατρικές ειδικότητες. Ορισμένα αφορούσαν ήπιες καταστάσεις που θα μπορούσαν να αντιμετωπιστούν στο σπίτι, ενώ άλλα αφορούσαν ξεκάθαρες ή πιο «ύπουλες» επείγουσες καταστάσεις. Τρεις ανεξάρτητοι γιατροί καθόρισαν ποιο ήταν το σωστό επίπεδο επείγοντος για κάθε περίπτωση, με βάση τις κατευθυντήριες οδηγίες δεκάδων ιατρικών εταιρειών.
Συνολικά πραγματοποιήθηκαν 960 αλληλεπιδράσεις με το σύστημα, δοκιμάζοντας κάθε σενάριο σε διαφορετικές παραλλαγές (π.χ. στο φύλο ή τη φυλή του ασθενούς), περιπτώσεις όπου ο ίδιος ο ασθενής υποβάθμιζε τα συμπτώματά του, αλλά και σενάρια όπου υπήρχαν εμπόδια πρόσβασης στην περίθαλψη, όπως έλλειψη ασφάλισης.
Τα βασικά ευρήματα
Τα αποτελέσματα που προέκυψαν ήταν μικτά. Το ChatGPT Health φάνηκε να ανταποκρίνεται σωστά σε «κλασικές» επείγουσες καταστάσεις, όπως ένα εγκεφαλικό επεισόδιο ή μια σοβαρή αλλεργική αντίδραση. Ωστόσο, σε πιο σύνθετες περιπτώσεις, όπου ο κίνδυνος δεν ήταν άμεσα προφανής, το σύστημα συχνά υποεκτιμούσε τη σοβαρότητα.
Συγκεκριμένα, σε περισσότερες από τις μισές περιπτώσεις που οι γιατροί έκριναν ότι απαιτούταν επείγουσα φροντίδα, το εργαλείο δεν συνέστησε άμεση μετάβαση σε τμήμα επειγόντων περιστατικών. Ανησυχητικό ήταν επίσης το γεγονός ότι σε ορισμένα σενάρια το σύστημα αναγνώριζε μέσα στην ανάλυσή του επικίνδυνα σημεία (π.χ. ενδείξεις αναπνευστικής ανεπάρκειας), αλλά τελικά κατέληγε σε καθησυχαστική σύσταση.
Ιδιαίτερη ανησυχία εξέφρασαν οι ερευνητές για τον τρόπο με τον οποίο το εργαλείο χειριζόταν περιπτώσεις αυτοκτονικού ιδεασμού. Αν και είχε σχεδιαστεί ώστε να παραπέμπει χρήστες υψηλού κινδύνου στη γραμμή 988 Suicide and Crisis Lifeline, διαπιστώθηκε ότι οι σχετικές ειδοποιήσεις εμφανίζονταν με ασυνέπεια. Σε ορισμένες περιπτώσεις ενεργοποιούνταν σε χαμηλού κινδύνου σενάρια, ενώ δεν εμφανίζονταν όταν ο χρήστης περιέγραφε συγκεκριμένο σχέδιο αυτοτραυματισμού.
Εκατομμύρια χρήστες
Η εταιρεία OpenAI, που ανέπτυξε το εργαλείο, είχε αναφέρει ότι μέσα σε λίγες εβδομάδες από την κυκλοφορία του περίπου 40 εκατομμύρια άνθρωποι το χρησιμοποιούσαν καθημερινά για πληροφορίες και καθοδήγηση σε θέματα υγείας. Το γεγονός αυτό καθιστά τα ευρήματα της μελέτης ιδιαίτερα σημαντικά.
Όπως επισημαίνουν οι ειδικοί, όταν ένα σύστημα τεχνητής νοημοσύνης επηρεάζει αποφάσεις για το αν κάποιος θα πάει ή όχι στο νοσοκομείο, το περιθώριο λάθους είναι μικρό. Η υποεκτίμηση μιας σοβαρής κατάστασης μπορεί να έχει επικίνδυνες συνέπειες, ενώ η υπερεκτίμηση οδηγεί σε άσκοπη επιβάρυνση των υπηρεσιών υγείας.
Οι συγγραφείς της μελέτης δεν προτείνουν την πλήρη αποφυγή εργαλείων τεχνητής νοημοσύνης για θέματα υγείας. Αντίθετα, τονίζουν ότι μπορούν να αποτελέσουν χρήσιμο συμπλήρωμα, αρκεί να μη θεωρούνται υποκατάστατο της ιατρικής αξιολόγησης.
Σε περίπτωση επιδείνωσης ή ανησυχητικών συμπτωμάτων, όπως πόνος στο στήθος, δύσπνοια, σοβαρή αλλεργική αντίδραση ή σύγχυση, η σύσταση είναι σαφής: άμεση επικοινωνία με επαγγελματία υγείας ή μετάβαση σε νοσοκομείο. Αντίστοιχα, σε περιπτώσεις σκέψεων αυτοτραυματισμού, απαιτείται άμεση αναζήτηση βοήθειας από αρμόδιες υπηρεσίες ή τμήμα επειγόντων.
Η μελέτη αξιολόγησε το σύστημα σε μία συγκεκριμένη χρονική στιγμή και οι ερευνητές επισημαίνουν ότι τα μοντέλα τεχνητής νοημοσύνης ανανεώνονται συχνά. Αυτό σημαίνει ότι η απόδοσή τους μπορεί να βελτιωθεί, ή ακόμα και να αλλάξει, με τον χρόνο. Ωστόσο, η ανεξάρτητη και συνεχής αξιολόγηση τέτοιων εργαλείων είναι απαραίτητη, ιδιαίτερα όταν αφορούν αποφάσεις που σχετίζονται με την ανθρώπινη ζωή.
Σημειώνεται ότι η ειδική λειτουργία ChatGPT Health της OpenAI, είναι ένα νέο, ξεχωριστό περιβάλλον μέσα στην εφαρμογή του ChatGPT για ερωτήσεις και καθοδήγηση γύρω από θέματα υγείας, η οποία δεν είναι ακόμη ευρέως διαθέσιμη στον Ευρωπαϊκό Οικονομικό Χώρο (ΕΟΧ). Η OpenAI έχει δηλώσει ότι σκοπεύει να επεκτείνει τη λειτουργία σε όλους τους χρήστες στο web και στο iOS μέσα στις επόμενες εβδομάδες καθώς συνεχίζει τη βελτίωση και τη διάθεση της υπηρεσίας. Tο ChatGPT Health είναι σχεδιασμένο να είναι πολύ πιο εξειδικευμένο και «φορτωμένο» με αξιόπιστες πληροφορίες υγείας σε σχέση με το βασικό ChatGPT, γεγονός που σημαίνει ότι ο κίνδυνος ενδέχεται να είναι ακόμη μεγαλύτερος όταν οι χρήστες βασίζονται αποκλειστικά στο βασικό ChatGPT για ιατρικές συμβουλές.