意見 新聞報導 科技
2026 年 1 月 15 日

從掃描到語音:Google如何重新定義語音識別defi寧醫療保健人工智慧

簡單來說

谷歌更新了其開源醫療人工智慧 MedGemma,使其具備解讀 CT 和 MRI 等掃描影像的能力,同時也發布了開源的 MedASR 語音轉文字工具。

谷歌MedGemma升級標誌著人工智慧驅動的醫療診斷進入新時代

科技公司 Google 宣布對其 MedGemma AI 模型進行更新,增強對醫學影像應用的支援。 

新的 MedGemma 1.5 4B 模型融合了開發者社群的回饋,以更好地支援多種醫學影像模式,包括 CT 和 MRI 等高維度掃描、組織病理學影像、胸部 X 光時間序列等縱向成像以及解剖定位任務。 

它還能提升對醫療文件的理解能力,從而能夠從實驗室報告中提取結構化數據。與先前的 MedGemma 1 4B 版本相比,1.5 4B 更新版本在文字、醫療記錄和二維影像的識別精度方面均有所提升,同時仍保持足夠的體積,支援離線運行。 

對於更複雜的文字應用程序,開發人員可以繼續使用參數量更大的 27B 參數 MedGemma 模型。完整詳情和基準測試結果請參閱 MedGemma 1.5 模型卡。

MedGemma 最初被設計為一個多模態系統,旨在反映醫學領域複雜的資料環境。早期版本支援解讀二維醫學影像,例如胸部 X 光片、皮膚病影像、視網膜掃描和組織病理學樣本。最新版本 MedGemma 1.5 擴展了這些功能,使其能夠處理高維度醫學影像,包括三維 CT 和 MRI 資料以及全切片組織病理學資料。現在,開發人員可以建立應用程序,將多個影像切片或影像區塊與特定任務的提示相結合,從而實現更高級的診斷和分析應用。

根據內部評估,MedGemma 1.5 在多個領域均展現出顯著的性能提升,包括 CT 和 MRI 檢查結果分類、組織病理學分析、胸部 X 光片解剖定位、縱向圖像回顧以及從實驗室報告中提取結構化數據。該模型在醫學文本理解和電子病歷問答方面也取得了顯著進步,反映出其在視覺和語言能力方面的全面提升。

這項擴展功能基於Google早期的CT基礎工具,是首批能夠處理高維度醫學資料以及傳統文字和二維影像的公開開源多模態模型之一。雖然這些功能仍在不斷完善,但Google希望開發者能夠透過針對特定領域的微調,進一步改進這些功能。 Hugging Face和Model Garden上新發布的CT和組織病理學應用教學及資源將為此提供支援。

谷歌推出 MedASR,旨在增強醫療語音辨識和人工智慧臨床工作流程

此外,Google還發布了 MedASR,這是一個針對醫療聽寫進行微調的開放式自動語音識別模型,它可以將語音轉換為文本,並與 MedGemma 配合使用以執行高級推理任務。 

雖然文本仍然是大型語言模型的主要介面,但口語交流在臨床實踐中仍然發揮著核心作用,從醫生口述到即時患者諮詢,使得準確的語音識別成為一項至關重要的能力。

MedASR專為醫學語言設計,能夠更可靠地轉錄特定領域的術語,並可作為MedGemma的自然輸入方法。在與通用型Whisper large-v3模型的比較測試中,MedASR展現出顯著更高的準確率,在胸部X光片聽寫和涵蓋多個醫學專科及說話人特徵的廣泛內部基準測試中,其轉錄錯誤率均大幅降低。

所有 HAI-DEF 模型,包括 MedGemma 1.5、MedASR 和 MedSigLIP 影像編碼器,均可免費用於研究和商業用途,並可在 Hugging Face 上存取或整合到 Vertex AI 上的可擴展應用程式中。

隨著醫療系統和研究人員擴大人工智慧的應用,MedGemma 在全球範圍內獲得廣泛關注。

根據 GoogleMedGemma 的採用率正在全球醫療技術新創公司和研究團隊中不斷提高,該模型越來越多地用於加速各種醫療應用的開發。 

在馬來西亞,Qmed Asia已將MedGemma整合到askCPG平台中。 askCPG是一個對話式系統,旨在提供超過150項國家臨床實踐指南的存取權限。據馬來西亞衛生部稱,該介面提高了這些指南在日常臨床決策中的易用性,而早期試點計畫也報告稱,用戶對MedGemma驅動的平台多模態醫學影像功能給予了高度評價。

在台灣,中央健康保險署已將MedGemma應用於肺癌手術的術前評估分析。該計畫透過從數萬份病理報告和其他非結構化臨床數據中提取結構化訊息,支持大規模統計分析,旨在為政策制定提供依據,並改善手術方案和患者預後。

自今年稍早發布以來,MedGemma 也已被學術界廣泛引用。 醫療人工智能 研究表明,該模型在醫學文本理解、多學科臨床決策支援和乳房X光檢查報告等任務中表現出色,是基礎模型的理想選擇。

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Alisa,一位熱心記者 MPost,專注於加密貨幣、零知識證明、投資以及廣泛的領域 Web3。她對新興趨勢和技術有著敏銳的洞察力,提供全面的報道,讓讀者了解並吸引讀者了解不斷發展的數位金融領域。

更多文章
艾莉莎戴維森
艾莉莎戴維森

Alisa,一位熱心記者 MPost,專注於加密貨幣、零知識證明、投資以及廣泛的領域 Web3。她對新興趨勢和技術有著敏銳的洞察力,提供全面的報道,讓讀者了解並吸引讀者了解不斷發展的數位金融領域。

Hot Stories
加入我們的時事通訊。
最新消息

Solana 風暴前的寧靜:圖表、鯨魚和鏈上訊號現在在說什麼

Solana 表現出色,受到日益普及的採用、機構興趣和關鍵合作夥伴關係的推動,但同時也面臨潛在的…

了解更多

2025 年 XNUMX 月加密貨幣:關鍵趨勢、轉變以及未來展望

2025 年 XNUMX 月,加密領域專注於加強核心基礎設施,以太坊正在為 Pectra 做準備…

了解更多
閱讀更多
閱讀更多
OKX調查發現,三分之二的成年人認為金融知識是一項有吸引力的特質。
新聞報導 科技
OKX調查發現,三分之二的成年人認為金融知識是一項有吸引力的特質。
2026 年 2 月 10 日
2026年流動性展望:全球機構在數位資產和交易金融的未來發展方向上的共識
新聞報導 科技
2026年流動性展望:全球機構在數位資產和交易金融的未來發展方向上的共識
2026 年 2 月 10 日
Isomorphic Labs 的下一代 IsoDDE 引擎推進了複雜和難以靶向分子的 AI 驅動設計
新聞報導 科技
Isomorphic Labs 的下一代 IsoDDE 引擎推進了複雜和難以靶向分子的 AI 驅動設計
2026 年 2 月 10 日
墨西哥城(MEXC)人工智慧交易套件用戶成長迅速,用戶數突破2.3萬。
新聞報導 科技
墨西哥城(MEXC)人工智慧交易套件用戶成長迅速,用戶數突破2.3萬。
2026 年 2 月 10 日
CRYPTOMERIA LABS PTE。 有限公司