https://www.epo.org/fr/searching-for-patents/helpful-resources/patent-knowledge-news/plateforme-de-veille-technologique-2

Plateforme de veille technologique

Image
Decorative image

Harmonisation des noms des demandeurs

Dans les trois premiers articles de la série Plateforme de veille technologique (TIP), nous avons exploré les domaines technologiques et leur évolution, pour ensuite nous concentrer sur les prévisions de séries temporelles pour les dépôts de demandes de brevet. En tirant parti des données PATSTAT et en les combinant aux capacités de traitement et de visualisation des données de la TIP, les carnets associés ont permis de mieux comprendre l'évolution des domaines techniques et ont démontré comment la TIP peut être utilisée pour anticiper des tendances en matière d'innovation.

Dans cet article, nous nous intéressons à un aspect essentiel de la documentation de brevets : la gestion des incohérences dans les noms des demandeurs. Dans les bases de données relatives à la documentation de brevets, chaque demande de brevet est associée aux demandeurs correspondants et à leurs adresses, enregistrés exactement tels qu'ils apparaissent dans la demande initiale. Par conséquent, les variations dans la représentation des noms et des adresses des demandeurs sont fréquentes. Ces divergences sont notamment dues à des différences dans l'ordre des mots, à des préférences en matière de capitalisation, à l'inclusion ou à l'omission d'accents, à des variations dans les désignations d'entités juridiques et à des erreurs typographiques.

Ces incohérences posent un problème lorsqu'il s'agit de retrouver toutes les demandes déposées par une entreprise donnée. Comme les ordinateurs interprètent ces variations comme des chaînes distinctes, ils ne les reconnaissent pas comme appartenant à la même entité. L'OCDE considère que l'harmonisation des noms de demandeurs est essentielle pour l'étude de l'innovation.

Des efforts sont déjà déployés dans PATSTAT pour harmoniser les noms des demandeurs. Le PATSTAT Standardised Name (PSN), développé par l'Université de Louvain, et le Harmonised Applicant Name (HAN), fourni par l'OCDE, appliquent un processus de normalisation aux noms des demandeurs.

Nous avons produit un carnet qui crée un algorithme d'harmonisation des noms de demandeurs dès le départ. Sur la base d'une requête de recherche de données typique dans PATSTAT Global, nous appliquons un ensemble de techniques pour regrouper les noms des demandeurs en doublons potentiels. En explorant le carnet, vous pouvez apprendre à utiliser des listes standard de variations d'abréviations pour les entités juridiques, des bibliothèques python pour la déduplication des enregistrements et d'autres couches pour créer votre propre algorithme d'harmonisation.




Figure 1 : Visualisation du nombre total de noms avant nettoyage et après nettoyage avec chacune des trois techniques : celle présentée dans le carnet, la normalisation PSN et l'harmonisation HAN.

 

Ce carnet n'est pas destiné à fournir une solution définitive ou entièrement optimisée. Il s'agit plutôt d'illustrer des techniques pratiques et d'évaluer leur impact en mesurant la réduction de la taille de l'ensemble de données après le regroupement. Les résultats sont également comparés aux méthodes de normalisation PSN et HAN existantes afin de mettre en évidence leur efficacité relative. 

N'hésitez pas à cloner le carnet et à le personnaliser.


Mots-clés : traitement des données, visualisation, analyse sur les données brevets, harmonisation, PATSTAT