Vorträge
Property Modelling for Product Ontology using Vector Embeddings driven by LLMS and OCR
21. März 2024
Nikhil Acharya
PoolParty Summit
Die Identifizierung von Entitäten und Beziehungen aus heterogenen Datenquellen im Zusammenhang mit der technischen Dokumentation ist ein wichtiger Teil des Aufbaus einer Wissensdatenbank. Technische Daten bestehen aus Tabellen, Rohtexten und Bildern zu verschiedenen Produkten. Wir verwenden vortrainierte LLM- und OCR-Modelle, um Produkte und Produkteigenschaften aus diesen Quellen zu identifizieren. Die extrahierten Produktinformationen werden nun mithilfe von Vektoreinbettungen disambiguiert und auf spezifische Entitäten und Beziehungen in unserer PIM-Ontologie abgebildet.