Von Scans zu Sprache: Wie Google …defiKI im Gesundheitswesen
In Kürze
Google hat seine Open-Source-Medizin-KI MedGemma um Funktionen zur Interpretation von Scans wie CT und MRT erweitert und außerdem das Open-Source-Spracherkennungstool MedASR veröffentlicht.
Technologieunternehmen Google kündigte ein Update seines MedGemma-KI-Modells an, das die Unterstützung für medizinische Bildgebungsanwendungen verbessert.
Das neue MedGemma 1.5 4B-Modell berücksichtigt Rückmeldungen aus der Entwicklergemeinschaft, um verschiedene medizinische Bildgebungsverfahren besser zu unterstützen, darunter hochdimensionale Scans wie CT und MRT, histopathologische Bilder, longitudinale Bildgebung wie Röntgen-Zeitserien des Brustkorbs und anatomische Lokalisierungsaufgaben.
Es verbessert außerdem das Verständnis medizinischer Dokumente und ermöglicht die Extraktion strukturierter Daten aus Laborberichten. Im Vergleich zur Vorgängerversion MedGemma 1 4B bietet das Update 1.5 4B eine höhere Genauigkeit bei Texten, Patientenakten und 2D-Bilddaten und ist gleichzeitig kompakt genug für den Offline-Betrieb.
Für komplexere textbasierte Anwendungen können Entwickler weiterhin das größere MedGemma-Modell mit 27 Milliarden Parametern verwenden. Ausführliche Informationen und Benchmarks finden Sie in der Modellbeschreibung MedGemma 1.5.
MedGemma wurde ursprünglich als multimodales System entwickelt, um die komplexe Datenlandschaft der Medizin abzubilden. Frühe Versionen unterstützten die Interpretation zweidimensionaler medizinischer Bilder wie Röntgenaufnahmen des Brustkorbs, dermatologische Bilder, Netzhautscans und histopathologische Proben. Die neueste Version, MedGemma 1.5, erweitert diese Funktionen um hochdimensionale medizinische Bildgebung und integriert dreidimensionale CT- und MRT-Daten sowie Ganzpräparat-Histopathologie. Entwickler können nun Anwendungen erstellen, die mehrere Bildschnitte oder -ausschnitte zusammen mit aufgabenspezifischen Eingabeaufforderungen verarbeiten und so fortgeschrittenere diagnostische und analytische Anwendungsfälle ermöglichen.
Internen Auswertungen zufolge weist MedGemma 1.5 in mehreren Bereichen deutliche Leistungsverbesserungen auf, darunter die Klassifizierung von CT- und MRT-Befunden, die histopathologische Analyse, die anatomische Lokalisierung in Röntgenaufnahmen des Thorax, die longitudinale Bildanalyse und die strukturierte Datenextraktion aus Laborberichten. Das Modell zeigt zudem erhebliche Verbesserungen beim Verständnis medizinischer Texte und bei der Beantwortung von Fragen aus elektronischen Patientenakten, was die allgemeinen Fortschritte in der visuellen und sprachlichen Leistung widerspiegelt.
Diese erweiterte Funktionalität baut auf Googles früheren CT-Grundlagenwerkzeugen auf und stellt eines der ersten öffentlich verfügbaren offenen multimodalen Modelle dar, das hochdimensionale medizinische Daten neben herkömmlichem Text und 2D-Bildern verarbeiten kann. Obwohl diese Funktionen noch weiterentwickelt werden, erwartet das Unternehmen, dass Entwickler durch domänenspezifische Feinabstimmung weitere Verbesserungen erzielen werden. Unterstützt werden sie dabei von neu veröffentlichten Tutorials und Ressourcen für CT- und Histopathologieanwendungen auf Hugging Face und Model Garden.
Google stellt MedASR zur Verbesserung der medizinischen Spracherkennung und KI-gestützter klinischer Arbeitsabläufe vor.
Darüber hinaus hat Google MedASR veröffentlicht, ein offenes automatisiertes Spracherkennungsmodell, das speziell für medizinische Diktate entwickelt wurde, Sprache in Text umwandelt und mit MedGemma für fortgeschrittene Denkaufgaben kombiniert wird.
Während Text nach wie vor die dominierende Schnittstelle für große Sprachmodelle darstellt, spielt die gesprochene Kommunikation weiterhin eine zentrale Rolle in der klinischen Praxis, von der ärztlichen Diktierfunktion bis hin zu Patientenkonsultationen in Echtzeit, wodurch eine genaue Spracherkennung zu einer unerlässlichen Fähigkeit wird.
MedASR wurde speziell für die medizinische Sprache entwickelt und ermöglicht eine zuverlässigere Transkription fachspezifischer Terminologie. Es dient als natürliche Eingabemethode für MedGemma. In Vergleichstests mit dem universellen Modell Whisper large-v3 zeigte MedASR eine deutlich höhere Genauigkeit und produzierte wesentlich weniger Transkriptionsfehler sowohl bei Diktaten von Röntgenaufnahmen des Brustkorbs als auch bei einem umfassenden internen Benchmark, der verschiedene medizinische Fachrichtungen und Sprecherprofile abdeckt.
Alle HAI-DEF-Modelle, einschließlich MedGemma 1.5, MedASR und des Bildcodierers MedSigLIP, bleiben für Forschungs- und kommerzielle Zwecke kostenlos und können über Hugging Face abgerufen oder in skalierbare Anwendungen auf Vertex AI integriert werden.
MedGemma gewinnt weltweit an Bedeutung, da Gesundheitssysteme und Forscher die KI-Nutzung ausweiten.
Gemäß GoogleDie Nutzung von MedGemma nimmt weltweit unter Startups und Forschungsteams im Bereich Gesundheitstechnologie zu, wobei das Modell zunehmend zur Beschleunigung der Entwicklung in einer Vielzahl medizinischer Anwendungen eingesetzt wird.
In Malaysia hat Qmed Asia MedGemma in askCPG integriert, ein dialogbasiertes System, das Zugriff auf über 150 nationale Leitlinien für die klinische Praxis bietet. Laut dem malaysischen Gesundheitsministerium hat die Benutzeroberfläche die Anwendbarkeit dieser Leitlinien im klinischen Alltag verbessert. Erste Pilotprojekte berichteten zudem von besonders positivem Feedback zu den multimodalen Bildgebungsfunktionen der Plattform, die von MedGemma unterstützt werden.
In Taiwan nutzt die Nationale Krankenversicherungsverwaltung MedGemma zur Analyse präoperativer Befunde bei Lungenkrebsoperationen. Durch die Gewinnung strukturierter Erkenntnisse aus Zehntausenden von Pathologieberichten und anderen unstrukturierten klinischen Daten unterstützt die Initiative groß angelegte statistische Analysen, die als Grundlage für politische Entscheidungen dienen und die Operationsplanung sowie die Patientenergebnisse verbessern sollen.
Seit seiner Veröffentlichung Anfang dieses Jahres wurde MedGemma auch in akademischen Publikationen häufig zitiert. medizinische KI Forschungsarbeiten, in denen es sich als solides Fundamentmodell für Aufgaben wie das Verstehen medizinischer Texte, die multidisziplinäre klinische Entscheidungsunterstützung und die Mammographie-Befundung bewährt hat.
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Alisa, eine engagierte Journalistin bei der MPost, ist auf Kryptowährungen, Zero-Knowledge-Proofs, Investitionen und den weitreichenden Bereich spezialisiert Web3. Mit einem scharfen Blick für neue Trends und Technologien liefert sie eine umfassende Berichterstattung, um die Leser über die sich ständig weiterentwickelnde Landschaft des digitalen Finanzwesens zu informieren und einzubeziehen.
Weitere Artikel
Alisa, eine engagierte Journalistin bei der MPost, ist auf Kryptowährungen, Zero-Knowledge-Proofs, Investitionen und den weitreichenden Bereich spezialisiert Web3. Mit einem scharfen Blick für neue Trends und Technologien liefert sie eine umfassende Berichterstattung, um die Leser über die sich ständig weiterentwickelnde Landschaft des digitalen Finanzwesens zu informieren und einzubeziehen.