Der Kunde hat beschlossen, seine vertraulichen Daten zu schützen
Andersens Kunde ist ein Bankinstitut, das Finanzdienstleistungen anbietet und aktive Marktforschung betreibt.
In diesem Geschäftsfall war unser Kunde ein Bankinstitut, das Finanzdienstleistungen anbietet und aktive Marktforschung betreibt. Unser Auftrag bestand darin, ein internes Suchsystem zu entwickeln, das dem Kunden ermöglicht, durch eine Vielzahl von Unterlagen zu navigieren, darunter technische Dokumente, Artikel aus Finanzzeitschriften, Anweisungen und operative Akten. Die größte Herausforderung bestand darin, dass die Dokumente über einen langen Zeitraum in verschiedenen - auch lokalen - Repositories gespeichert waren, was ihre Auffindbarkeit erschwerte.
Das logische Diagramm der Wissensaustauscharchitektur
Die Herausforderung des Kunden bestand darin, dass seine enorme Sammlung von Dateien in verschiedenen Formaten (Word, PDF, TXT, Cloud usw.) gespeichert war und daher schlecht strukturiert war. Der Kunde plante, seine Kapazitäten zu verzehnfachen, und benötigte daher dringend IT-Unterstützung. Bei raschem Wachstum könnte die chaotische Datenspeicherung zu einer ernsthaften Bedrohung werden.
Unser Team hat eine Lösung vorgeschlagen, bei der alle Daten in einem einheitlichen Technologie-Stack zusammengeführt werden. Dadurch ist es möglich, Dateien über REST-APIs auf der Rohdatenschicht zu laden, wobei die Unveränderlichkeit eine Schlüsselfunktion ist. Anschließend werden die Dateien in das Repository hochgeladen und einer ETL-Verarbeitung unterzogen. Die operative Datenschicht generiert eine Liste von Tags, Lexemen und Terminologie, die für die Suche verwendet werden sollen.
Unser Ansatz kann sowohl auf den Servern des Kunden als auch in der Cloud umgesetzt werden.
Ein zweistufiger Datenkatalog ist verfügbar. Er fungiert als Speicherdienst für Konfigurationsmetadaten und enthält einen Suchpfad für die Rohdatenschicht. Dadurch können die Daten entsprechend der Terminologie in der Betriebsdatenschicht zugeordnet werden.
Physisches Layout der Wissensaustausch-Architektur
Das Back-End wurde mit Flask und Python entwickelt, während React für das Front-End verwendet wurde. Das Hadoop-Ökosystem wurde für die kalte Schicht gewählt, und Python sowie Apache Airflow kamen in der ETL-Schicht zum Einsatz. Diese Schicht ist dafür verantwortlich, Dateien zu scannen und den Wert von Tokens und Lexemen in ihnen zu berechnen.