Trong y học, một trong những nhiệm vụ then chốt nhất nằm ở việc xác định chính xác căn bệnh mà người bệnh đang mắc phải thông qua thăm khám và khai thác bệnh sử chi tiết. Tuy nhiên, thách thức lớn hơn - đồng thời cũng mang ý nghĩa quan trọng không kém - là khả năng dự đoán những căn bệnh mà bệnh nhân có thể gặp phải trong tương lai. Đây chính là mục tiêu mà nhóm nghiên cứu đứng sau mô hình trí tuệ nhân tạo (AI) mới mang tên Delphi-2M hướng tới, và họ khẳng định đã đạt được thành công bước đầu trong công trình vừa được công bố trên tạp chí Nature ngày 17/9.
Dù chưa sẵn sàng để ứng dụng ngay tại bệnh viện, các nhà sáng tạo hy vọng Delphi-2M một ngày nào đó sẽ giúp bác sĩ dự đoán 1.000 loại bệnh, bao gồm Alzheimer, ung thư hay nhồi máu cơ tim – những căn bệnh ảnh hưởng đến hàng triệu người mỗi năm.
Ngoài việc hỗ trợ xác định nhóm bệnh nhân có nguy cơ cao, công cụ này còn có thể giúp cơ quan y tế phân bổ ngân sách hiệu quả hơn cho các loại bệnh có khả năng bùng phát mạnh trong tương lai.
Mô hình được phát triển bởi nhóm tại Phòng thí nghiệm Sinh học Phân tử châu Âu (EMBL) ở Cambridge và Trung tâm Nghiên cứu Ung thư Đức tại Heidelberg. Ý tưởng xây dựng xuất phát từ các mô hình ngôn ngữ lớn (LLM) - như GPT-5 của OpenAI - vốn có khả năng sáng tạo văn bản mạch lạc. LLM được huấn luyện bằng kho dữ liệu khổng lồ từ internet, qua đó phát hiện các mẫu ngôn ngữ và dự đoán từ tiếp theo trong câu. Các nhà nghiên cứu cho rằng, một AI được “nuôi” bằng dữ liệu y tế có thể sở hữu sức mạnh dự báo tương tự.
Về cơ bản, thiết kế của các LLM đã khá phù hợp với nhiệm vụ này. Tuy nhiên, cần một điều chỉnh quan trọng, đó là huấn luyện mô hình hiểu được yếu tố thời gian giữa các sự kiện trong đời bệnh nhân. Trong văn bản, các từ nối tiếp nhau liền mạch, nhưng trong hồ sơ bệnh án, điều đó không hẳn là đúng. Ví dụ, huyết áp cao xuất hiện sau khi thử thai dương tính sẽ có ý nghĩa rất khác nếu hai sự kiện chỉ cách nhau vài tuần - khi thai kỳ có thể bị ảnh hưởng - so với nhiều năm.
Điều chỉnh này được thực hiện bằng cách thay thế phần mã hóa vị trí từ trong LLM bằng thông tin về độ tuổi bệnh nhân. Dù vậy, quá trình không tránh khỏi sai sót. Ở phiên bản đầu, hệ thống đôi khi dự đoán bệnh mới sau khi bệnh nhân đã qua đời. Delphi-2M sau đó được huấn luyện trên dữ liệu của 400.000 người trong UK Biobank, kho dữ liệu sinh học người được xem là toàn diện nhất thế giới. Mô hình sử dụng chuỗi thời gian và mã bệnh ICD-10, hệ thống ký hiệu y khoa quốc tế, để nhận diện 1.256 bệnh xuất hiện trong cơ sở dữ liệu. Tiếp đến, mô hình được kiểm chứng trên dữ liệu của 100.000 người còn lại trong Biobank, trước khi thử nghiệm tiếp với hồ sơ y tế của 1,9 triệu người Đan Mạch từ năm 1978 - một nguồn dữ liệu lâu dài và phong phú hơn nhiều.
Để đánh giá hiệu quả, các nhà khoa học đo chỉ số AUC, trong đó giá trị 1 thể hiện dự báo hoàn hảo, còn 0,5 tương đương với đoán ngẫu nhiên. Với khả năng dự đoán bệnh trong vòng 5 năm sau chẩn đoán trước đó, Delphi-2M đạt trung bình 0,76 trên dữ liệu Anh, thấp hơn một chút, 0,67 với dữ liệu Đan Mạch.
Các sự kiện có mối liên hệ chặt chẽ - chẳng hạn tử vong sau nhiễm trùng máu - được dự báo chính xác hơn so với những yếu tố ngẫu nhiên từ bên ngoài, như lây nhiễm virus. Không ngạc nhiên khi độ chính xác giảm dần theo thời gian, khi dự đoán 10 năm sau, chỉ số trung bình còn 0,7.
Dù triển vọng lớn, ứng dụng thực tế vẫn còn xa. Delphi-2M cần trải qua quá trình thử nghiệm lâm sàng nghiêm ngặt để kiểm chứng khả năng cải thiện kết quả điều trị. Tiến trình này có thể kéo dài nhiều năm. Nhóm nghiên cứu cũng đang cập nhật mô hình để xử lý dữ liệu phức tạp hơn ngoài danh sách chẩn đoán, như hình ảnh y khoa hay giải trình tự gene, vốn cũng được lưu trong UK Biobank để nâng cao độ chính xác.
Ngay cả khi bệnh nhân chưa thể hưởng lợi trực tiếp, phiên bản sơ bộ của Delphi-2M đã mang lại kho thông tin quý giá cho các nhà sinh học. Dự báo theo phong cách Delphi-2M giúp phát hiện những căn bệnh thường đi kèm, từ đó gợi mở các mối liên hệ chưa từng được khám phá.
Đáng chú ý, Delphi-2M không phải là công cụ dự báo sức khỏe duy nhất. Một mô hình khác có tên là Foresight, được phát triển tại King’s College London từ năm 2024, cũng sử dụng hồ sơ bệnh án để dự đoán. Tuy nhiên, dự án mở rộng đã bị tạm dừng hồi tháng 6 do lo ngại NHS Anh chưa xin đầy đủ giấy phép trước khi cung cấp dữ liệu cho nhóm nghiên cứu. Tại Đại học Harvard, dự án ETHOS cũng đang theo đuổi mục tiêu tương tự.
Trong tương lai, những mô hình AI mạnh mẽ có thể đưa nghiên cứu này tiến xa hơn nữa.
“Khả năng là vô tận", nhà di truyền học Ewan Birney tại EMBL chia sẻ đầy hứng khởi.