Die Datenbank der Contentfiltration ist eine Datenbank, die eine Liste (Baum) von Kategorien mit x-beliebiger Anzahl von enthaltenen Ebenen darstellt, die aufgrund der Wahrscheinlichkeitsrechnung und mathematischer Methoden hierarchisch organisiert ist und Wörter und Redewendungen enthält, deren Vorhandensein im Dokument ermöglicht, die Thematik und Vertraulichkeitsgrad der Informationen zu bestimmen.
Mit dieser Methode erfolgt die automatische Bestimmung der Thematik des Textes aufgrund der zuvor erstellten Basis der Contentfiltration (BCF). Die BCF kann nicht nur die Kategorien der Informationen beschreiben, die im Unternehmen zirkulieren, sondern auch verschiedene Attribute ihrer Vertraulichkeit berücksichtigen, darunter die Spezifikationen der Unternehmenstätigkeit und deren Anforderungen an die Sicherheit. Nach den Ergebnissen der linguistischen Analyse werden dem Text diese oder jene Kategorien zugeordnet, die Thematik und Inhalt entsprechen. In den zu analysierenden Informationen können Begriffe aus verschiedenen Kategorien erscheinen (Wörter und Wortgruppen), deswegen können diese einer oder mehreren Kategorien von BCF zugeordnet sein.
Daher ist es wichtig, eine Datenbank zu erstellen, die zuverlässige Filtrationsergebnisse nach Kategorien ermöglicht. Die Hauptmethode der linguistischen Analyse mithilfe der BCF ist die Suche von Wörtern und Wortgruppen im zu analysierenden Fragment, die vertrauliche Daten beschreiben und nach Kategorien strukturiert sind.