Tiến bộ vượt bậc trong đào tạo AI
Đây không phải là thuật toán phân loại ho liên quan đến COVID đầu tiên được phát triển, nhưng mô hình của RMIT tốt hơn các hướng tiếp cận hiện có, đồng thời có một lợi thế quan trọng khiến công nghệ này mang tính thực tiễn hơn khi dùng ở các vùng miền khác nhau – đó chính là cách nó học hỏi.
Đồng tác giả nghiên cứu Giáo sư Flora Salim cho biết dự định ban đầu của nhóm là phát triển công nghệ này, như công nghệ ở MIT hay Cambridge, dựa vào khối lượng dữ liệu dán nhãn cực lớn và hết sức tỉ mỉ để huấn luyện hệ thống AI.
“Đoạn ghi chú tiếng thở đòi hỏi kiến thức đặc thù từ chuyên gia khiến công nghệ này đắt đỏ và mất thời gian, mà còn phải xử lý các thông tin y tế nhạy cảm”, bà nói. “Dùng bộ dữ liệu xác định chi tiết, chẳng hạn như mẫu ho từ một bệnh viện hay một khu vực, để huấn luyện thuật toán cũng giới hạn những gì AI có thể thể hiện bên ngoài bộ dữ liệu đó”.
Giáo sư Salim cho biết giới hạn này chính là thách thức cho đến thời điểm hiện nay đối với tính ứng dụng thực tế của công nghệ trong thế giới thật.
“Điều lý thú nhất trong công việc của chúng tôi là cả nhóm phải vượt qua vấn đề này bằng cách phát triển phương pháp huấn luyện thuật toán dùng những dữ liệu tiếng ho không dán nhãn”, bà nói. “Bộ dữ liệu này có thể thu thập khá dễ dàng và trên quy mô lớn từ các quốc gia, nhóm giới tính và độ tuổi khác nhau”.
Suốt đại dịch, nhiều kênh thu thập thông tin từ đám đông đã được thiết kế để thu thập ghi âm âm thanh đường hô hấp từ cả nhóm khoẻ mạnh cũng như những người dương tính với COVID-19 cho mục đích nghiên cứu.
Nhóm nghiên cứu tiếp cận bộ dữ liệu từ hai trong số các kênh này là COVID-19 Sounds App và COSWARA để huấn luyện cho thuật toán dùng phương thức học tự giám sát đối lập – phương pháp theo đó hệ thống sẽ làm việc độc lập để giải mã điều gì khiến cho hai thứ tương tự hay khác nhau.
Hiện nhóm nghiên cứu sẵn sàng hợp tác với đối tác tiềm năng trong việc phát triển công nghệ và mở rộng ứng dụng của công nghệ này cho hàng loạt công cụ chẩn đoán các bệnh về hô hấp.
Nghiên cứu “Tìm hiểu tập hợp đại diện học tự giám sát để phân loại tiếng ho do mắc COVID-19” hiện có bản thảo sơ bộ trước ngày được trình bày tại hội thảo khoa học dữ liệu uy tín KDD 2021 tại Singapore vào tháng 8 này.
Nghiên cứu được hỗ trợ bởi Dự án khám phá DP190101485, Hội đồng Nghiên cứu Úc.
Bài: Michael Quin