Plateforme de veille technologique

Harmonisation des noms des demandeurs
Dans les trois premiers articles de la série Plateforme de veille technologique (TIP), nous avons exploré les domaines technologiques et leur évolution, pour ensuite nous concentrer sur les prévisions de séries temporelles pour les dépôts de demandes de brevet. En tirant parti des données PATSTAT et en les combinant aux capacités de traitement et de visualisation des données de la TIP, les carnets associés ont permis de mieux comprendre l'évolution des domaines techniques et ont démontré comment la TIP peut être utilisée pour anticiper des tendances en matière d'innovation.
Dans cet article, nous nous intéressons à un aspect essentiel de la documentation de brevets : la gestion des incohérences dans les noms des demandeurs. Dans les bases de données relatives à la documentation de brevets, chaque demande de brevet est associée aux demandeurs correspondants et à leurs adresses, enregistrés exactement tels qu'ils apparaissent dans la demande initiale. Par conséquent, les variations dans la représentation des noms et des adresses des demandeurs sont fréquentes. Ces divergences sont notamment dues à des différences dans l'ordre des mots, à des préférences en matière de capitalisation, à l'inclusion ou à l'omission d'accents, à des variations dans les désignations d'entités juridiques et à des erreurs typographiques.
Ces incohérences posent un problème lorsqu'il s'agit de retrouver toutes les demandes déposées par une entreprise donnée. Comme les ordinateurs interprètent ces variations comme des chaînes distinctes, ils ne les reconnaissent pas comme appartenant à la même entité. L'OCDE considère que l'harmonisation des noms de demandeurs est essentielle pour l'étude de l'innovation.
Des efforts sont déjà déployés dans PATSTAT pour harmoniser les noms des demandeurs. Le PATSTAT Standardised Name (PSN), développé par l'Université de Louvain, et le Harmonised Applicant Name (HAN), fourni par l'OCDE, appliquent un processus de normalisation aux noms des demandeurs.
Nous avons produit un carnet qui crée un algorithme d'harmonisation des noms de demandeurs dès le départ. Sur la base d'une requête de recherche de données typique dans PATSTAT Global, nous appliquons un ensemble de techniques pour regrouper les noms des demandeurs en doublons potentiels. En explorant le carnet, vous pouvez apprendre à utiliser des listes standard de variations d'abréviations pour les entités juridiques, des bibliothèques python pour la déduplication des enregistrements et d'autres couches pour créer votre propre algorithme d'harmonisation.
Ce carnet n'est pas destiné à fournir une solution définitive ou entièrement optimisée. Il s'agit plutôt d'illustrer des techniques pratiques et d'évaluer leur impact en mesurant la réduction de la taille de l'ensemble de données après le regroupement. Les résultats sont également comparés aux méthodes de normalisation PSN et HAN existantes afin de mettre en évidence leur efficacité relative.
N'hésitez pas à cloner le carnet et à le personnaliser.
Mots-clés : traitement des données, visualisation, analyse sur les données brevets, harmonisation, PATSTAT
Informations liées

Analyses approfondies fondées sur l'expertise de l'OEB et sur des données brevets du monde entier

Ne manquez pas la dernière conférence sur la connaissance des brevets de 2024 !

Plus de potentiel pour les utilisateurs : l'essor des technologies de traitement du langage

NOUVEL ARTICLE : PATSTAT EP Register documentation

NOUVEL ARTICLE: Point sur l'évolution des événements juridiques INPADOC relatifs à la protection par brevet unitaire

Fêter la Journée internationale du bonheur avec un sourire

Prévision des dépôts de demande

Donnez votre avis avant le 17 mars pour contribuer à orienter les activités à venir de l'Observatoire

Faire le tour du monde pour la journée de Pi : un petit quiz pour tous !

Découvrez des fonctions utiles qui rendent vos recherches de brevets plus rapides, plus précises et plus productives

Le rôle de l'Europe en matière de technologies émergentes

Participez au concours et soumettez votre proposition avant le 16 mars !

Le rôle des femmes et des filles dans les communautés scientifiques et technologiques mis à l'honneur

Exploiter la pleine puissance des données sur les brevets : analyse des technologies émergentes

De la perte dans la traduction à la réflexion – Partie II : Les notifications officielles au format lisible par machine du Dossier mondial de l'OEB

Premier exposé de l'année consacré aux Registres du brevet européen et du brevet unitaire

Exploiter la pleine puissance des données sur les brevets

Nous souhaitons à tous nos lecteurs et lectrices de très bonnes fêtes de fin d'année et une nouvelle année prospère et dans la paix !

Les enregistrements de la manifestation et les présentations sont désormais disponibles !

Comment l'information sur les brevets peut aider à suivre les tendances émergentes et les technologies vertes dans le domaine des transports

Analyses approfondies fondées sur l'expertise de l'OEB et sur des données brevets du monde entier

Ne manquez pas la dernière conférence sur la connaissance des brevets de 2024 !

Plus de potentiel pour les utilisateurs : l'essor des technologies de traitement du langage

NOUVEL ARTICLE : PATSTAT EP Register documentation

NOUVEL ARTICLE: Point sur l'évolution des événements juridiques INPADOC relatifs à la protection par brevet unitaire

Fêter la Journée internationale du bonheur avec un sourire

Prévision des dépôts de demande

Donnez votre avis avant le 17 mars pour contribuer à orienter les activités à venir de l'Observatoire

Faire le tour du monde pour la journée de Pi : un petit quiz pour tous !

Découvrez des fonctions utiles qui rendent vos recherches de brevets plus rapides, plus précises et plus productives

Le rôle de l'Europe en matière de technologies émergentes

Participez au concours et soumettez votre proposition avant le 16 mars !

Le rôle des femmes et des filles dans les communautés scientifiques et technologiques mis à l'honneur

Exploiter la pleine puissance des données sur les brevets : analyse des technologies émergentes

De la perte dans la traduction à la réflexion – Partie II : Les notifications officielles au format lisible par machine du Dossier mondial de l'OEB

Premier exposé de l'année consacré aux Registres du brevet européen et du brevet unitaire

Exploiter la pleine puissance des données sur les brevets

Nous souhaitons à tous nos lecteurs et lectrices de très bonnes fêtes de fin d'année et une nouvelle année prospère et dans la paix !

Les enregistrements de la manifestation et les présentations sont désormais disponibles !

Comment l'information sur les brevets peut aider à suivre les tendances émergentes et les technologies vertes dans le domaine des transports

Analyses approfondies fondées sur l'expertise de l'OEB et sur des données brevets du monde entier

Ne manquez pas la dernière conférence sur la connaissance des brevets de 2024 !

Plus de potentiel pour les utilisateurs : l'essor des technologies de traitement du langage