Medvoice – Ứng dụng chuyển đổi giọng nói thành văn bản y tế theo thời gian thực

Giải pháp ứng dụng AI tự động hóa việc chuyển đổi giọng nói thành văn bản trong lĩnh vực y tế.

Người thực hiện

An Đo, Nhân Trần, Quan Vũ, Anh Nguyễn, Phong Hà

Chương trình

Cử nhân Công nghệ Thông tin

Thành tựu nổi bật

Được tài trợ bởi cuộc thi Đổi mới Sáng tạo RMIT Vietnam Grand Challenge; Lọt vào vòng chung kết Vietnam AI4VN 2024; Là một trong các dự án tiêu biểu của RMIT trong lĩnh vực Chăm sóc sức khỏe và Công nghệ

Bối cảnh và động lực phát triển

Việc ghi chép và quản lý hồ sơ bệnh án chính xác đóng vai trò then chốt trong hoạt động điều trị, chẩn đoán và chăm sóc người bệnh. Tuy nhiên, trong môi trường thực tế tại bệnh viện, bác sĩ và nhân viên y tế thường gặp khó khăn khi phải vừa khám chữa bệnh, vừa ghi âm hoặc ghi chú bằng tay, dễ dẫn đến sai sót hoặc mất dữ liệu. Đặc biệt, các quy trình nhập liệu thủ công không chỉ tốn thời gian mà còn ảnh hưởng đến hiệu suất và chất lượng dịch vụ y tế.

Dự án MedVoice được triển khai nhằm cải thiện hiệu quả của việc ghi chép y tế bằng cách sử dụng công nghệ trí tuệ nhân tạo để tự động chuyển đổi giọng nói thành văn bản. Nhóm phát triển xây dựng một hệ thống xử lý ngôn ngữ tích hợp hai thành phần chính: (1) pipeline chuyển giọng nói thành văn bản (ASR) và (2) chatbot RAG (Retrieval-Augmented Generation) để tra cứu dữ liệu y tế.

Bên cạnh hiệu quả kỹ thuật, nhóm cũng chú trọng đến yếu tố bảo mật, tuân thủ quy trình nghiệp vụ y tế và nâng cao trải nghiệm người dùng thông qua thiết kế giao diện trực quan, dễ sử dụng cho bác sĩ và nhân viên y tế.

Kiến trúc hệ thống

Hệ thống được xây dựng với cấu trúc chia tầng rõ ràng, gồm ba thành phần chính:

Quy trình tương tác với nhân viên y tế

  • Bác sĩ hoặc nhân viên y tế khởi tạo tài khoản, đăng nhập, và xác thực qua email OTP
  • Có thể ghi âm buổi tư vấn khám bệnh trực tiếp qua giao diện ứng dụng hoặc tải lên file âm thanh sẵn có
  • Hệ thống xử lý, phiên âm và lưu trữ nội dung vào cơ sở dữ liệu bảo mật
  • Sau đó, chatbot có thể sử dụng dữ liệu này để hỗ trợ truy xuất thông tin, giải đáp các câu hỏi chuyên môn từ bệnh án đã lưu

Pipeline xử lý giọng nói (LLMs pipeline)

  • Dữ liệu giọng nói được chuyển thành văn bản bằng công cụ Google Cloud
  • Văn bản được tinh chỉnh và định dạng chuẩn (JSON) nhờ Whisper và các mô hình ngôn ngữ hỗ trợ
  • Các mô-đun xử lý sau đó phân tích ngữ nghĩa và tách cấu trúc dữ liệu nhằm hỗ trợ cho việc truy xuất nhanh, chính xác

Thử nghiệm và kết quả

Dự án bao gồm hai thử nghiệm chính:

Thử nghiệm 1: Pipeline xử lý giọng nói (LLM for Recording)

Mục tiêu

Đánh giá độ chính xác của mô hình chuyển đổi giọng nói sang văn bản phục vụ ghi chép y tế

Bộ dữ liệu

  • Bản ghi tư vấn khám bệnh thực tế với bác sĩ
  • Tập dữ liệu mô phỏng từ phần mềm dữ liệu y tế nhân tạo (AIND)
  • Bộ tiêu chuẩn JSON hóa văn bản y tế

Chỉ số đánh giá

  • Tỷ lệ chính xác khi chuyển đổi (Word Error Rate – WER)
  • Tỷ lệ đúng định dạng và chia đoạn thông tin (format fidelity)
  • Độ chính xác ngữ nghĩa khi so sánh với bản ghi do chuyên gia biên tập

Mô hình sử dụng

Google Whisper, Meta SeamlessM4T, và các mô hình mã nguồn mở cho phiên âm y tế tiếng Anh – tiếng Việt

 

Thử nghiệm 2: Chatbot RAG

Mục tiêu

Tăng khả năng phản hồi chính xác và hiệu quả của hệ thống chatbot truy vấn y tế bằng kiến trúc RAG

Bộ dữ liệu

  • Cơ sở dữ liệu bệnh án tổng hợp từ bệnh viện mô phỏng
  • Tập câu hỏi chuyên ngành về tình huống khám chữa bệnh
  • Dữ liệu vector hóa dùng để huấn luyện mô hình truy xuất

Chỉ số đánh giá

  • Tỷ lệ chính xác trả lời (Answer Accuracy): tỷ lệ câu trả lời đúng với thông tin gốc trong bệnh án
  • Độ liên quan nội dung (Embedding Relevance): đo mức độ phù hợp của truy vấn với phản hồi
  • Tính logic và mạch lạc của phản hồi (Coherence & Clarity)

Mô hình sử dụng

  • Mistral 7B-RAG và các mô hình embedding phổ biến (OpenAI, Cohere)
  • Vector DB cho việc tìm kiếm và so khớp câu hỏi – câu trả lời trong hệ thống

Thiết kế nguyên mẫu

Giao diện chính: Màn hình khởi động và ghi âm cuộc trò chuyện y tế Giao diện chính: Màn hình khởi động và ghi âm cuộc trò chuyện y tế
Thư viện âm thanh: Lưu trữ các bản ghi khám chữa bệnh, truy xuất theo thời gian Thư viện âm thanh: Lưu trữ các bản ghi khám chữa bệnh, truy xuất theo thời gian
Chatbot RAG: Giao diện nhắn tin thân thiện, cho phép người dùng đặt câu hỏi dựa trên dữ liệu y tế đã lưu Chatbot RAG: Giao diện nhắn tin thân thiện, cho phép người dùng đặt câu hỏi dựa trên dữ liệu y tế đã lưu

Liên hệ đội ngũ nghiên cứu của khoa

Các dự án khác của sinh viên