データベース収録確認ワード(その1)

2021年3月15日

アジア特許情報研究会:伊藤徹男

1.はじめに

2009年頃に中国特許情報を英語で検索できる中国特許庁のSIPO English(SIPO En)やCNPAT、C-Pat、SooPATなど無料中国英語データベースが、ワールドワイドな英語データベースでもfreepatents online、Patent Lensなどが次々と現れてきました。まだ商用英語データベースに中国、韓国の登録特許や実用新案は収録されておらず、台湾特許に至っては公開特許情報も満足に収録されている商用データベースもない時代でした。
「韓国特許調査では公開になる前に登録となる「公開前登録特許」の公開公報は発行されませんので登録特許情報が収録されていないと検索漏れを生じますよ」と指摘させていただいたのは2011年のJPO主催韓国特許情報セミナーでした。韓国特許庁関係者も「韓国では当然の事実なのに日本で周知されてはいないのですか?」と。

DWPIやCAPlusなど出力料金が従量制の高額な商用英語データベース(現在では定額制となっていますが)などは気軽に使えませんでしたので、書誌、抄録情報のみの(クレームは収録していない)無料データベースを予備検索的に使っていました。
最近ではEspacenetやWIPOのPATENTSCOPEもアジアの情報なども収録されて英語だけでなく原語検索もできるようになり、PatSnap(商用)や台湾特許庁のGlobal Patent Search System(GPSS)なども英語と原語でハイブリッド検索できるデータベースとして出現しました。

そのような中、化学系の研究会で昔お世話になった方から「そういえば昔、データベースの収録確認ワードを紹介していましたよね。今でも活用できるのでしょうか」という問い合わせがありました。PC内にほこりをかぶっていたデータを見つけてお送りしましたが、「今でも活用できるのだろうか」と疑問に思ったと同時に最近はまっているGPSSの収録状況についても確認したいと思い、ほこりを払って使ってみることにしました。
DWPIやCAPlus、Orbit.comなどの商用データベースやPATENTSCOPEには抄録やクレームの収録確認コードが用意されていますが、多くの無料データベースにはそのような確認コードはありません。

2009年に検証した「データベース収録確認ワード」が新たに出願したデータベース、特に英語と原語を共に収録してハイブリッド検索可能となっている台湾特許庁のGlobal Patent Search System(GPSS)、PATENTSCOPEおよび、まだわずかですが原語を収録し始めたEspacenetでの英語情報と原語情報の収録状況を再検証し、ハイブリッド検索に活用できるか調べてみました。

2.データ収録確認用ワード(2009年検証)

2009年当時に検証した収録確認ワードと収録率データの一部を表1に示しました。抄録で示された英語情報を見ながら出現率の高そうな用語をトライ&エラー的に確認したものです。中国特許庁英語データベースSIPO EnとC-PATから原始的で非効率な方法で求めたものです。(現在、C-PATは存在しません)

表1.英語抄録収録確認ワードと収録率(2009年CN公開特許:280,990件)

もちろん、アルファベット1文字や「i%」「in%」「inv%」など確認ワードの用語数が少ないものを並べて検索した方が収録率は高くなりますがEspacenetなど他のデータベースとの収録率を比較するためには3文字以上が必要であり、検索フィールドへの入力文字数も10語まで、という制限もあることから以下の用語を候補として挙げました。

「com% + con% + pro% + inv% + met%」 ⇒ 中国特許庁英語DB SIPO En収録率(99.1%)

その当時は、前方一致検索ができないデータベースの場合には、同様に公報頻出用語をトライ&エラー的に抽出し、以下の用語を使うこととしました。

「invention + method + provide + using + high + system + included + according + improved + products + time + operate + direct + surface + position + other」
⇒ SIPO En収録率(98.6%)

中国語(簡体字)収録について確認した検索用語と検証結果を表2に示しました。中国特許庁のSIPO CN(中国語データベース)ではSIPO Enのように要約までしか収録していませんので、クレームや全文の収録が100%であるCNIPR(現在の中国版)を使ってクレームや全文用語についてみたものです。

表2.簡体字収録確認ワードと収録率(2007年CN公開特許)

収録率が70%以上のワード部分にはマークしましたが、抄録(要約)収録率が高い用語が必ずしもクレーム収録も高いとは言えませんでした。中国語の場合には1文字でも検索が可能なのでやはり頻出すると思われる用語で各フィールドから確認したのが以下です(表3)。

表3.中国語収録確認ワードと収録率(2007年CN公開特許:208,345件)

その結果、簡体字データベース(CNIPR)の要約、クレーム、全文の収録確認ワードとしては以下の用語で問題ないことがわかりました。

2007年CN公開特許:208,345件
AB (种 or 一 or 发 or 的 or 用 or 在) 208,332件(≒100%)
CL (种 or 一 or 1 or 的 or 中 or 于 or 在) 208,325件(≒100%)
FULL (种 or 一 or 1 or 的 or 用 or 和 or 中 or 上 or 于 or 在) 208,331(≒100%)

台湾特許の繁体字での収録確認ワードも同様に検証した結果を表4に示しました。

表4.繁体字収録確認ワードと収録率(2007年TW公開/公告特許)

2007年公開特許/公告特許:46986件/22218件(TWPAT)
AB 一 or 種 or 發 or 的 or 用 or 以 or 含 or 具 or 其 or 之 or 本 or 。
⇒ 公開46981件(≒100%)/公告22218件(=100%)
CL 一 or 1 or 種 or 的 or 用 or 以 or 下 or 含 or 具 or 其 or 之 or 。
⇒ 公開46759件(≒100%)/公告22218件(=100%)
FULL  一 or 1 or 種 or 發 or 的 or 用 or 以 or 下 or 具 or 其 or 之 or 本 or 。
⇒ 公開46766件(≒100%)/公告22214件(≒100%) 句読点も収録確認ワードとして使えることもわかりました。

3.データベース収録確認ワードの再検証

10年以上前に検証したデータベース収録確認ワードが今でも有用なのか、を確認することが本稿の目的です。無料、商用を問わずデータベースの多彩な機能に目を奪われる前に「収録内容を調査前に把握しておくことが最も重要」として調査に当たってきました。最近ではPATENTSCOPEやEspacenetにCN, TW, KRなどの東アジアだけでなくASEAN各国からも英語情報と原語情報が収録されてハイブリッド検索できるようになってきましたが、英語や原語情報の収録状況は確認しないまま過ごしてきました。(単に発行日からの出願推移についてはASEAN各国も含め、検索Tips「【別表】東アジアおよびASEAN6か国の公開特許収録状況」で紹介しています1)

2,3年前には台湾特許庁データベースTWPATとは別にGlobal Patent Search System (GPSS)も現れ、TW以外のワールドワイドな情報が収録されています。TWPATでも発明の名称に英語情報が入るようになってからは、英語情報を元に台湾の繁体字を検索用言語として抽出してきましたが、同じ台湾情報でもGPSSの方が何となく英語情報収録が多いように感じながら、「ではどのぐらいの収録率」なのかについては確認しないまま使っています。

昔の収録確認ワードを使って英語および原語収録を確認してもいいのですが、GPSSではアルファベット1文字からでも検索できたりするので改めて各データベースの収録確認ワードについて検証してみました。

1)英語収録確認ワード

10年前の英語収録確認ワードを用いてGPSSで2020年公開特許の収録を確認してみると、以下のように97%となりました。この程度で満足すべきかを検証してみたいと思います。
ID=2020 and (com* or con* or pro* or inv* or met*)@ab 45308件/46569件(97%)

アルファベット1文字から検索できる、ということであればA~Zまでを全部並べて検索すればよいのですが、ワード文字数が少ないと英訳文が収録されていなくても公報中の略称、単位などのアルファベットなども拾ってしまいます。
(a* or b* or c* or d* or e* or f* or g* or h* or i* or j* or k* or l* or m* or n* or o* or p* or q* or r* or s* or t* or u* or v* or w* or x* or y* or z*)

英語か原語いずれかが収録されていればよい、とすればそれでもいいのですが、英訳情報がどの程度収録されているのかを確認する場合には不充分となります。

また、GPSSで「ID=2020 not (a* or b* or ・・・ or y* or z*)@ti」と、「発明の名称」中に英語情報を含まないものとしてnot演算しても「Semiconductor device」「POLISHING APPARATUSES」など英訳が付与された「発明の名称」が19036件も抽出されますので、アルファベット1文字検索では不具合があるものと思われます。これはTWPATでも同様で、発明の名称や要約中に英訳が付与されたものも抽出されます。

そこで、公報原語中の「PC, PE, ABS, Xn, R(1~4), a), A1 ~A16, ℃」などの略称、単位のアルファベットも避けつつ英語収録を確認できるワードとしてアルファベット3文字について検証しました。アルファベット2文字でも略称や単位のアルファベットとの重複は避けられず、また、データベースによっては「Abstracts」「Claims」などのフィールド名があるのみで中身がない、というものもありますので「AB」「CL」なども避けて、GPSSで台湾公開特許中の英語情報2020年発行分から1000件以上収録する3文字ワードを抽出してみました。その結果が表6です。
(英語情報がほぼ100%収録されている日本版CNIPRが利用できれば中国公開特許からの検証でもいいのですが、無料のGPSSで検証しました。)

表6.アルファベット3文字ワードの要約中出現率(TW2020年公開特許:46829件)

そこで、ここで得られた59件のワード集合(以下、英語ワード集合と略)を英語収録ワードとして以下のようにして検索し、GPSSとTWPATの台湾特許、およびGPSSにおける中国や韓国公開特許について発明の名称、要約、クレームの出現率を求めて表7に示しました。

ID=2020 and (acc* or aci* or act* or ada* or add* or adj* or aro* or arr* or acc* or ass* or can* or com* or con* or cos* or def* or det* or dis* or eac* or ele* or ena* or enc* or end* or exa* or ext* or fib* or fil* or fir* or hav* or inc* or inv* or loa* or loc* or met* or mor* or pho* or pla* or plu* or pol* or por* or pre* or pro* or rea* or rec* or rep* or ret* or sea* or sec* or sem* or sep* or ser* or str* or sub* or sup* or sur* or ther* or tra* or tre* or use*)@ab

アルファベット3文字の全候補すべてを並べて抽出した方が確実なようですが、データベースへの入力制限で(入力できない、文字数が一定数以上では検索時間が異常に長くなったり、エラーとなる)、2020年TW公開特許1000件以上出現するワードに限定して検索しました。ちなみに500件~1000件未満のアルファベット3文字ワード185件を加えても収録率への影響は1%未満です。

アルファベット3文字ワードの収録率を検証する中で「are be do for have he is me of on the that this to」などは、発明の名称、要約、クレームのいずれからもGPSSでは検索できません(検索件数 0件)。検索には利用できないストップワードのようです。

表7.英語ワード集合による収録率確認

台湾特許庁データベースTWPATおよびGPSSのいずれもクレームには原則として英訳は付与されていませんから、英語ワード集合をここまで並べても10%未満のノイズが入ることは避けられないようです。その程度の手法でしかないとあきらめています。データベースへの英訳付与の概略を知る程度だと思った方がよさそうです。

その前提で見てみると、従来からの台湾特許庁データベースTWPATに比べ、GPSSの発明の名称や要約への英語付与率は高いことがわかります。また、GPSSでは「韓国特許の全文は収録していない」との記述がありますが、公告特許も含め、現時点では韓国特許(実案を含む)のクレームも収録されていないことが確認できました。

表7の情報を裏付けるデータとして、図1に同一案件でもGPSSの要約には英語が付与されているが、TWPATには英語の付与がないケースを示しました。

図1.GPSSとTWPAT要約中の英語付与の違い

GPSS(AN:109128576) ・・要約に英語付与

TWPAT(AN:109128576)  ・・要約に英語付与なし

また、「英語ワード集合での検索」では以下のように要約やクレーム、全文中に物質名や化合物名のみが英訳されていたり(図2)、アルファベット略号が含まれるものもあります(図3)。

図2.要約全体に英訳はないが特定の用語のみ英訳が付与されているもの

図3.化合物の示性式など

図4.アルファベット1文字検索では全文中の記号等を拾う。

2)データベースの英訳収録状況

東アジア各国特許庁から発行される特許情報は各国言語ですが、それらが英訳されてEPOに送られたものはDOCDBとしてEspacenetや商用英語データベースの基となり、WIPOに送られたものはPATENTSCOPEとして収録されています。GPSSに収録されている情報も含めて上記で検証したアルファベット3文字英語ワード集合を用いて各データベースの英訳情報を見てみました。

a)中国特許英語情報

日本版CNIPRの英語情報は要約、クレームとも問題なく100%収録していますが、GPSSでは2008年発行以前の公開情報の要約英語収録は極めて悪いことが確認できました。表8のGPSSクレームの4%未満の英語収録は、既に紹介したように物質名や化合物名の部分的な英訳によるものでクレームそのものが英訳されている訳ではありません。

表8.中国特許情報の英訳

b)台湾特許英語情報

表9から、従来から存在する台湾特許庁TWPATの要約英訳が予想外に低く、GPSSの収録が極めて高いことがわかりました。台湾特許庁データベースにおけるクレームではいずれもクレームでは物質名、化合物名からの収録数ですが、図5に示すように例示物質名の英訳を網羅的に英訳してくれているので用語辞書として関連の用語を集める場合には効率的で助かっています。
いずれにしても物質名や化合物名の英訳を期待しなければクレーム中から英語検索しようと思わない方がいいでしょう。

表9.台湾特許情報の英訳

図5.クレーム中の英語用語

c)PATENTSCOPEおよびEspacenetにおける東アジア各国の英語要約収録状況

台湾特許はPATENTSCOPEに収録されていないので中国と韓国特許に限定してEspacenetと共に英語収録状況を確認しました。英語ワード集合で要約、クレーム、全文の収録も確認しました。
PATENTSCOPEの中国特許は書誌情報自体が2013年以降、収録も悪く(2019年調査と同様)、英語要約は2012年以降の収録が悪いことが確認できました(表10)。韓国特許の書誌収録がKIPRISより多いことは不明ですが、要約は2011年以降、あまりよくありません(表11)。
PATENTSCOPEでは完璧とは言えないまでも59の英語ワード集合で収録率を求めましたが、Espacenetでは検索入力制限のため「com* or con* or dis* or inc* or pro*」の5ワードによるもので収録率も不充分なものとなっています。そこで次節に紹介する具体的なタームで収録比較しました。

表10.PATENTSCOPE、Espacenetの中国特許収録

表11.PATENTSCOPE、Espacenetの韓国特許収録

また、PATENTSCOPEのクレームや全文中からの英語ワード集合での抽出では、各年代数1000件の収録があり、収録率も数%を示していますが、やはり物質名、化合物名等の部分訳であり、クレームや全文の英訳は収録されていないことも確認しました(図9, 図10)。

図6.クレームや全文などを収録していない場合のPATENTSCOPE詳細情報画面TOP

図7.クレーム、全文などを収録している場合の詳細情報画面TOP

図8.要約は書誌情報(National Biblio Data)中に表示される。

図9.クレームや全文中から英語ワード集合で抽出したものは物質名など部分訳を拾う(CN)

図10.クレームや全文中から英語ワード集合で抽出したものは物質名など部分訳を拾う(KR)

政治的な関係から台湾特許情報はPATENTSCOPEには収録されていませんが、Espacenetには収録されています。そこで参考情報として台湾のEspacenetの要約収録状況を表12に示しました。収録ワードは中国、韓国と同様、「com* or con* or dis* or inc* or pro*」の5ワードです。

表12.Espacenetの台湾特許収録

中国、韓国のEspacenet収録状況からするとかなり収録率も高く、ほぼすべてのレコードに要約が収録されていそうです。次項の具体的検索タームの収録検証でも確認したいと思います。
公開日から求めたEspacenetの2003年、2004年の公開数が台湾特許庁TWPATより多くなっている理由については未検証です。

ちなみに、Espacenetでの以下の5個の英語ワード集合のNOT演算から得られる(要約が収録されていない)レコードを確認したところ、英訳要約が存在しなければほとんどで図11に示すようなアナウンスが表示されますので(極めてわずか)、ほぼ英訳要約は存在するものと思われます。
(pn=TWA AND pd=2020) NOT ab=(com* OR con* OR dis* OR inc* OR pro*)

図11.要約が未収録である、との表示

中国や韓国のEspacenet要約の英訳未収録についても同様に確認したところ、図12のように英語要約があるものは見つかっていません。案外、この5ワードでそこそこカバーできているのかもしれません。
(pn=CNA AND pd=2020) NOT ab=(com* OR con* OR dis* OR inc* OR pro*)

図12.要約は収録されているが原語のみで英訳要約はない。

d) 検索タームによる東アジア各国の英語要約収録状況

収録検証用英語ワード集合に制限のあるEspacenetの英語要約収録状況を別の観点から確認するために出願人名、IPCなどの書誌情報と共に要約中の英語ワードの出現数を調べました。
Espacenet における中国、台湾、韓国の書誌収録については、既に「Espacenetで東アジアの特許調査(その1)」 2)で紹介していますが、単に発行日からの検索であり、要約やクレームの収録については触れていません。
CNIPRとWIPS GLOBALの商用データベースとも比較してみました(表13)。

表13.要約中の英語用語(laminate*)の確認

Espacenetを含み、5種のデータベースで発行年ごとの公開特許の存在数です。各データベースの略称は次の通りです。
CNIPR:日本版CNIPR(商用)
GPSS:台湾特許庁Global Patent Search System
PS:WIPO PATENTSCOPE
Espace:EPO新Espacenet
WIPS GL:WIPS GLOBAL PATENT(商用)
TWPAT:台湾特許庁データベース
KIPRIS:韓国特許情報院KIPRIS
KPA:韓国特許情報院英語データベース

マークした部分は他のデータベースに比べ異常な数値を示すものです。差分の検証はしていません(宿題です)。台湾のTWPATの収録数が少ない点は、前にも触れましたようにGPSSに比べ要約英訳が少ないためです。
KIPRISの要約収録数も異常に低くなっていますが、発明の名称の英訳に比べ要約の英訳率は低いようです。2020年発行の公開特許では「laminate」の発明の名称では823件の英訳が存在するのに要約は21件です。他の用語「“3D print”」でも発明の名称136件に対し、要約は1件となっています。
KIPRISには英語要約までを収録したKPAというデータベースもありますが、本稿ではハイブリッド検索を対象に英訳収録率について検証しているため対象にしていません。英語情報のみから韓国特許を予備的に検索するにはKPAはKIPRISより有効です。 WIPS GLOBALでも2015年、2020年の韓国特許の要約数が突出している理由は未検証です。

要約中の英訳収録率とは関係ありませんが、用語以外での各データベースの収録状況を参考表として示しました。

参考表1.出願人収録比較

それぞれ各国における2020年のTOP出願人です。
CN:HUAWEI TECH*
TW:TAIWAN SEMICONDUCTOR
KR:SAMSUNG ELECTRONICS

参考表2.IPC(B32B-027*)収録比較

さらに、参考情報としてWIPS GLOBALで中国、台湾、韓国の公開特許収録率をEspacenetで使用した5ワード(要約①)とその他データベースで使用した59ワード(要約②)について検証した結果を参考表3として示しました。

参考表3.WIPS GLOBALの英語ワード集合の違いによる収録率

要約①:(com* or con* or dis* or inc* or pro*).AB.
要約②:(acc* or aci* or act* or ada* or add* or adj* or aro* or arr* or acc* or ass* or can* or com* or con* or cos* or def* or det* or dis* or eac* or ele* or ena* or enc* or end* or exa* or ext* or fib* or fil* or fir* or hav* or inc* or inv* or loa* or loc* or met* or mor* or pho* or pla* or plu* or pol* or por* or pot* or pre* or pro* or rea* or rec* or rep* or ret* or sea* or sec* or sem* or sep* or ser* or str* or sub* or sup* or sur* or ther* or tra* or tre* or use*).AB.

次回は「データベース収録確認ワードの再検証」(その2)として東アジア各国原語での要約、クレーム、全文中からの収録数および英語+原語ハイブリッド検索における収録について紹介します。
英語+原語検索で互いに補完して収録率が上がればいい訳で、英語、原語の収録を別々に扱う必要もありませんが、新たに出現するデータベースで英語のみの収録、原語のみの収録を確認しておきたいときに活用していただければ幸いです。

データベースの収録確認ワードで問い合わせいただきましたH氏の協力で、上記検証中の日本版CNIPRのデータをお寄せいただきました。ここに感謝申し上げます。

1)【別表】東アジアおよびASEAN6か国の公開特許収録状況

2) Espacenetで東アジアの特許調査(その1)

以上