データベース収録確認ワード(その2)

2021年3月25日
アジア特許情報研究会:伊藤徹男

1.はじめに

ワールドワイドに各国をカバーしているデータベース、特に商用データベースでは収録国数の多さと古い年代から収録していることに加え、データベース全体の収録数を誇らしげに示されることが多いようですが、調査担当者の立場からは調査対象国のデータが100%収録され(対象国のデータベースと同じ収録)、書誌情報はもちろん、クレームや全文も検索対象になっているかどうかがデータベース選択の重要なポイントだと思っています。

東アジア諸国のデータは英語で提供されるものが多くなりましたが、原語も収録されるようにもなり、英語+原語のハイブリッド検索が可能となっています。ASEAN各国のデータはまだ原語のままのものもありますが、5年ほど前のPATENTSCOPEには原語も収録されていませんでしたので、それに比べれば収録しているだけでもありがたいです。

要約情報の収録が一部だけであるのに気がつかず、調査した結果、目的の情報が得られずに「調査しましたがありませんでした」と報告するのは悲しいことです。報告を受ける側はデータベースの収録状態など「そんな細かなことまで把握できない」のです。
収録が不完全な状態を認識して調査するのであれば(そのような前提も報告して)、まだ幸いです。収録の把握は調査担当者の責任です。

前回は、2009年に検証した「データベース収録確認ワード」として東アジア3国データベースの収録を英語と原語から確認していた方法を紹介すると共に、その手法が最近のワールドワイドなデータベースについて適用可能かどうかを英語ワードで再検証しました。
本稿では、さらに東アジア3国原語の収録確認ワードが各種データベースに適用可能かどうかを確認したいと思います。

商用英語データベースでさえ、原語から英語への翻訳の過程で誤訳したり(外国からの出願では英語情報から原語に翻訳する際にも誤訳が生じます)、英語のスペルミスのために「英語情報だけを検索していては検索洩れを生じる」ことについては、これまでにもあちこちで指摘してきました。
英語+原語情報からハイブリッド検索で洩れを如何に防ぐことができるか、を担保するためにも原語情報の収録がどの程度かも把握することは重要です。

2.データベース収録確認ワードの再検証

ここでは前回の英語収録確認ワードの検証に引き続き、原語ワード集合について議論します。
2009年時点では、原語データベースの収録確認ワードとして以下のものを使っていました。

中国大陸特許収録確認ワード
2007年CN公開特許:208,345件
AB (种 or 一 or 发 or 的 or 用 or 在) 208,332件(≒100%)
CL (种 or 一 or 1 or 的 or 中 or 于 or 在) 208,325件(≒100%)
FULL (种 or 一 or 1 or 的 or 用 or 和 or 中 or 上 or 于 or 在) 208,331(≒100%)

台湾特許収録確認ワード
2007年公開特許 46986件/公告特許 22218件
AB 一 or 種 or 發 or 的 or 用 or 以 or 含 or 具 or 其 or 之 or 本 or 。
⇒ 公開46981件(≒100%)/公告22218件(=100%)
CL 一 or 1 or 種 or 的 or 用 or 以 or 下 or 含 or 具 or 其 or 之 or 。
⇒ 公開46759件(≒100%)/公告22218件(=100%)
FULL 一 or 1 or 種 or 發 or 的 or 用 or 以 or 下 or 具 or 其 or 之 or 本 or 。
⇒ 公開46766件(≒100%)/公告22214件(≒100%)
句読点も収録確認ワードとして使えることもわかりました。

韓国特許特許収録確認ワード
1+2+3+1+의+본+발명+이+및+을+를+에+수+제공+용
2007年公開特許 122581件
AB 122428件/CL 116759件/FULL 122552件

1)原語収録確認ワードの再検証

上記原語収録確認ワードは参考情報として、2020年発行公開特許数を基に中国、台湾、韓国データベースで出現頻度の高い用語を試行錯誤的に抽出し、発行日書誌を100とした出現頻度を求めました。Espacenetのように検索タームの入力制限がなければ確認用語は多いほど収録率は高くなりますが、ワード集合に追加しても収録率に変化ない場合にはできるだけ少ない用語数としました。
中国、台湾、韓国ともいずれも1語で検索できますし、2007年の台湾検証では句読点からも収録を確認できましたので3国とも句読点や出現頻度の高そうな記号なども加えて検証しました。

その結果、以下のワード集合を収録確認ワードとすることとしました。(算出根拠:表1~表3)
①中国 2020年公開特許(1517113件): 表1
AB:的* or 一* or 本* or 种* or 发* or 明* or 用* or 和* or 于* or 及* or 有* or 在* or 中* or 以* or 所* or 内*(1517108件(≒100%))
CL:的* or 其* or 所* or 一* or 述* or 在* or 于* or 种* or 中* or 和* or 有* or 用* or 上* or 以* or 内*(1517013件(≒100%))
FULL:的* or 本* or 一* or 在* or 所* or 种* or 中* or 有* or 和* or 于* or 述* or 上* or 其* or 用* or 内*(1517017件(≒100%))

台湾 2020年公開特許(46829件) 表2
AB:。 or 一 or 的 or 種 or 以 or 之 or 本(46824件(≒100%))
CL:1 or 。 or 一 or 種 or 其 or 以 or : or 、 or 之(46827件(≒100%))
FULL:。 or 一 or 本 or 以 or 用(46828件(≒100%))

韓国 2020年公開特許(146030件) 表3
AB:하* or 이* or 및* or 의* or 제* or 본* or 발* or 한* or 기* or 있*
(145972件(≒100%))
CL:하* or 및* or 의* or 이* or 제* or 기* or 1* or 전* or 있* or 한*
(145726件(≒100%))
FULL:하* or 이* or 있* or 한* or 1* or 의* or 본* or 기* or 제* or 발*
(146027件(≒100%))

表1.中国公開特許収録確認ワード出現率(CNIPR要約出現率でソート)

中国特許データベース中には句読点として句点「,」、読点「。」を含みます。CNIPRでは検索できませんが、PATENTSCOPEやTWPAT、Global Patent Search System(GPSS)では収録率100%として検索できますが、収録確認ワード集合には採用していない。

図1.CNIPR要約中の句点、読点(検索不可)

図2.PATENTSCOPE要約中の句点、読点(検索可)

PATENTSCOPEで原語要約が欠落している場合は要約部分が空白か以下のように収録待ちのアナウンスがあります。

図3.PATENTSCOPEで原語要約が欠落している例

表2.台湾公開特許収録確認ワード出現率(TWPAT要約出現率でソート)

いずれも読点(。)だけでほぼ100%を示しますが。

表3-1.韓国公開特許収録確認ワード出現率(WIPS GLOBAL要約出現率でソート)

半角ドット、半角カンマのみで高い収録率を示したが、収録確認ワードとして採用していません。

表3-2.韓国公開特許収録確認ワード出現率(PATENTSCOPE要約出現率でソート)

データベースが異なると若干、収録確認ワード集合にも差があるようです。

2)データベースの原語収録状況

上記検証で得られた東アジアの原語ワード集合を用いてPATENTSCOPEおよびGlobal Patent Search System(GPSS)などワールドワイドな国を収録しているデータベースの要約、クレーム等の収録状況を確認しました。原語収録が始まったEspacenetについてもどの程度原語が収録されているのか興味あるところですが、現段階では出願人以外に原語検索できないことは前回紹介しました。用語について原語検索可能な状況になったら確認してみたいと思います。

PATENTSCOPEには台湾特許の収録がありませんので中国と韓国について、台湾特許庁のGPSSについては自国台湾の発明の名称~詳細な説明まではTWPAT同様、繁体字は100%収録されていると思いますが、収録確認ワード集合の妥当性を確認するためにも中国と韓国と共に調べました。いずれも公開特許の収録状況を確認することで各データベースの収録状況を推察することにしました。

英語商用データベースに東アジアの登録特許収録が始まった2010年頃(この時点では原語収録している商用データベースはなし)にはその状況が気になって調べたことがありますが、現段階では東アジア3国についてほぼ英語登録特許は収録されているものと思います。権利侵害調査では登録特許の収録状況が重要ですが、次回以降、登録特許の原語収録も確認します。

①PATENTSCOPEの中国、韓国公開特許収録状況

中国特許
英語収録状況では2012~2018年の収録が不完全でしたが、書誌情報そのものが2013年以降不充分な状態です。中国語の書誌に対する要約、クレーム、詳細な説明の収録はほぼ問題ありません。データ更新により書誌情報と共に要約等の収録も充実していくものと思います。

表4.PATENTSCOPE中国特許原語収録

参考までに1985~1999年の公開特許収録をざっくり比較すると以下のようになります。
書誌:(CNIPR 233348/PATENTSCOPE 163406(70%))
PATENTSCOPE書誌に対し、AB:125963(77%)、CL:125952(77%)、DE:125970(77%)です。 どの年代が欠落しているかなども次回報告します。

韓国特許
KIPRISとPATENTSCOPEの書誌情報乖離については未検証です。英語収録状況は2011年以降の要約収録が不完全でしたが、2012~2017年のクレーム、詳細な説明の収録が若干不完全な点を除けば問題ないと言えます。

表5.PATENTSCOPE韓国特許原語収録

中国同様、1980~1999年の韓国公開特許収録をざっくり比較すると以下のようになります。
書誌:(PATENTSCOPE 530838)
PATENTSCOPE書誌に対し、AB:338764(64%)、CL:234784(44%)、DE:234784(44%)です。
やはり古い年代は収録が不充分なようです。

②GPSSの中国、台湾、韓国公開特許収録状況

中国特許
GPSSの中国特許では、2000年以前の「詳細な説明」の収録が(現時点では)ありませんが、全体に素晴らしい収録状況です。前にも紹介しましたようにGPSS(TWPAT共に)では中国と台湾特許は簡体字でも繁体字でも検索・表示できるようになっていますのでその点でも使いやすいです。

表6.GPSS中国特許原語収録

台湾特許
GPSSは台湾特許庁データベースであり、原語(繁体字)収録は台湾データのみを収録している従前から存在しているTWPATと同一であるので繁体字での収録確認も無意味なようであるが、新たに検証した原語収録確認ワードの妥当性を確認する点で敢えて掲載しておくことにしました。
一部100件以上食い違いのある年代もあるが、ほぼ問題ないと判断した。さらなる検討は後日実施したいと思っています。

表7.GPSS中国特許原語収録

韓国特許
GPSSの韓国原語収録は表8を見てわかるように、まったく使い物になりません。クレームや詳細な説明は英語情報も未収録です。

表8.GPSS韓国特許原語収録

③WIPS GLOBALの中国、韓国公開特許収録状況

WIPS GLOBALは韓国のWIPS社が提供するワールドワイドな商用特許データベースですが、韓国特許庁(韓国特許情報院)のKIPRISでは複合検索などで若干使いにくいなどもあり、韓国特許調査だけでなく、最近では中国、台湾特許調査にも利用しています。
韓国のベンダーさんなので韓国特許の原語収録は問題ないとは思いますが、英語情報の収録と併せて確認しました。ここでも確認は公開特許のみです。

中国特許
英語も原語(簡体字中国語)も問題なく収録されているようです。表中の「DSC」は詳細な説明部分からの抽出用検索コマンドです。

表9.WIPS GLOBAL中国特許英語および原語(簡体字)収録

台湾特許
一時、台湾特許の「詳細な説明」部分が未収録でしたが、表10を見る限りは問題なさそうです。

表10.WIPS GLOBAL台湾特許英語および原語(繁体字)収録

韓国特許
原語(ハングル)収録は当然のこととして、英語情報も問題なく収録していることを確認できました。

表11.WIPS GLOBAL韓国特許英語および原語(ハングル)収録

④Espacenetの東アジア原語情報

Espacenetにも2019年から中国特許情報が、2020年から韓国特許情報が原語でも収録され始めました。現時点では中国や韓国の原語が要約やクレームにも部分的に見られるようになりましたが原語から検索できるのは出願人のみです。
台湾特許情報はPATENTSCOPEには収録されていませんが、Espacenetには収録されています。中国、台湾、韓国の東アジア特許情報が原語からも検索できる日も近いでしょう。

図4のようなケースでは、要約中から英語でも原語(簡体字)でも抽出できません。

図4.要約は原語のみで英訳要約がない。
CNB(CN110765673B)

TWB(TWI690923B)

図5.英語要約も未収録である、との表示

3.今後の検証予定

原語収録状況をそれぞれのデータベースで具体的な検索ターム(用語)を基に検索比較してみたいと思っています。

CN:CNIPR/GPSS/PATENTSCOPE/WIPS GLOBAL
TW:GPSS/WIPS GLOBAL
KR:KIPRIS/GPSS/PATENTSCOPE/ WIPS GLOBAL

4.おわりに

「何故、無料データベースにこだわるのか?」
「実務では無料データベースなんか使いません」というのは調査環境に恵まれた大手企業の調査担当者のみです。知財に関心ある企業、研究機関、大学、個人などで有料の商用データベースを利用できる環境にあるのは極めてわずかな企業、団体ではないかと思います。知財情報を必要としながら利用頻度も少ないため、わずか年間10万円程度のデータベース利用料金さえ払えない知財関係者も存在するのです。

ある特許事務所の出願も調査も一人で担当しているという方から「最近は出願依頼が激減し、調査まで自分でやらなければいけなくなった。外国特許調査ではどんなデータベースを使えばよいか」と質問され、しかも今まで商用データベースなどは使ったことがない、というのは驚きでした。特許事務所と銘打っているところであれば外国特許調査ができるデータベースの1つぐらい・・、と思っていました。自分がいかに恵まれた環境にあったかを思い知らされました。業務で無料データベースを駆使しているところもあるんだ、と。

「特許調査の基本」
特許調査ではデータベースを利用して調査しますが、そのデータベースで最も重要なのは対象国の情報が100%収録されているかどうかです。しかも書誌情報だけでなく、少なくとも要約(抄録)が100%収録されており、権利侵害関係調査においてはクレームや全文も100%収録されているかどうかを最初に確認しておくことが重要です。

新興国の特許情報のようにデータが欠落した状態を認知してそれなりに調査せざるを得ない場合もありますが、その場合も欠落が収録のタイムラグであるのかどうかも調査前に確認が必要です。
また、出願日基準で調査する場合には、直近のデータはデータ更新によって情報が追加されることを依頼者に知らせることも必須事項です。

以上