https://www.epo.org/de/searching-for-patents/helpful-resources/patent-knowledge-news/technologiefrueherkennungsplattform-2

Technologiefrüherkennungsplattform

Bild
Decorative image

Harmonisierung der Anmeldernamen

In den ersten drei Artikeln unserer Reihe zur Technologiefrüherkennungsplattform (TIP) haben wir einzelne Gebiete der Technik und ihre Evolution untersucht und haben uns anschließend mit Zeitreihenprognosen für Patente befasst. Die entsprechenden Notizbücher haben – durch die Nutzung von PATSTAT-Daten und deren Kombination mit den Datenverarbeitungs- und Visualisierungsmöglichkeiten der TIP – wertvolle Einblicke in die Entwicklung von Technologiebereichen geliefert und gezeigt, dass die TIP zur Vorhersage von Innovationstrends eingesetzt werden kann.

In diesem Artikel widmen wir uns nun einem Problem der Patentdokumentation: Inkonsistenzen bei den Anmeldernamen und ihrer Handhabung. In Patentdokumentationsdatenbanken wird jede Patentanmeldung dem entsprechenden Anmelder und seiner Anschrift zugeordnet, wobei diese genau so erfasst werden, wie sie auf der Originalanmeldung angegeben sind. Entsprechend häufig gibt es Abweichungen in der Schreibweise der Anmeldernamen und -anschriften. Diese resultieren z. B. aus einer unterschiedlichen Wortreihenfolge, Unterschieden in der Groß- und Kleinschreibung, der Schreibweise mit oder ohne Akzent, verschiedenen Abkürzungen für die Rechtsform oder einfach aus Schreibfehlern.

Will man nach allen Anmeldungen eines bestimmten Unternehmens suchen, stellen diese Inkonsistenzen eine Herausforderung dar, denn Computer interpretieren die unterschiedlichen Schreibweisen als jeweils eigene Zeichenfolge und erkennen nicht, dass immer derselbe Anmelder gemeint ist. Auch nach Auffassung der OECD ist die Harmonisierung der Anmeldernamen von entscheidender Bedeutung für die Untersuchung von Innovation.

In PATSTAT gibt es bereits Bemühungen zur Harmonisierung der Anmeldernamen. PATSTAT Standardised Name (PSN), entwickelt von der Universität Löwen (Belgien), und Harmonised Applicant Name (HAN) der OECD wenden bereits einen Standardisierungsprozess auf die Anmeldernamen an.

Wir haben ein Notizbuch entwickelt, das von vornherein einen Harmonisierungsalgorhithmus für den Anmeldernamen erstellt. Basierend auf einer typischen Datenabfrage in PATSTAT Global und der Anwendung verschiedener Methodologien lassen wir die Anmeldernamen nach potenziellen Duplikaten "clustern". Erkunden Sie das Notizbuch und lernen Sie, wie sich standardisierte Listen der unterschiedlichsten Abkürzungen für Rechtsformen, Python-Bibliotheken zur Deduplizierung von Datensätzen und weitere Methoden nutzen lassen, um ihren eigenen Harmonisierungsalgorhithmus anzulegen. 




Abbildung 1: Visualisierung der Gesamtzahl von Namen vor und nach der Standardisierung mit jeder der drei Methoden (Notizbuch, PSN und HAN)

 

Das Notizbuch soll keine endgültige oder vollständig optimierte Lösung liefern. Es soll vor allem praktikable Methoden aufzeigen und ihre Auswirkungen anhand der verringerten Datensatzgröße nach dem Clustering messbar machen. Zudem werden die Ergebnisse mit den bereits eingesetzten PSN- und HAN-Standardisierungsverfahren verglichen, um seine relative Effektivität zu veranschaulichen. 

Gerne dürfen Sie das Notizbuch auch klonen und anpassen.


Schlagwörter: Datenverarbeitung, Visualisierung, Patentdatenanalyse, PATSTAT