6.PDF書類と母集団の突合項目と突合方法を設定
テスト項目定義画面 では、テスト項目を追加することで母集団と証憑ファイルとの突合方法を設定することができます。
テスト項目には紐づけ、突合などのチェック方式をそれぞれ1つ設定します。
複数のテスト項目を上から順番に実行することで証憑突合を自動化することができます。
突合設定は以下の手順で説明します。
1.サンプルを選択する
母集団のどの範囲をテストするのか設定します。
- サイドメニューの[突合] をクリックし、突合結果画面を呼び出します。
- [新規テスト]ボタンをクリックし、テスト範囲選択画面を呼び出します。
- 母集団には、突合するExcelを選択します。
- 開始日と終了日には、今回の突合の対象となる日付範囲を選択して、[適用]ボタンをクリックしてください。
- 日付を選択すると、自動で選択項目と対象キーコードが表示されます。
※選択項目は、日付範囲で絞りこまれた 母集団のアップロード時に「金額」として設定した列の合計額と行数が表示されます。
※対象キーコードは、日付範囲で絞りこまれた 母集団のアップロード時に「キーコード」として設定した列の値が表示されます。 - テスト対象とするキーコードにチェックし[次へ]ボタンをクリックし、サンプル選択画面 を呼び出します。
- 選択したテスト範囲の母集団の内容が表示されます。
突合対象とする取引を選択し、[次へ]ボタンをクリックしてください。 - テスト項目定義画面 が呼び出されます。
2.紐づけを設定する
テスト項目を設定する前に、左辺の母集団(Excel)の行と右辺の証憑(PDF)ページとの紐づけを行います。
1.チェック方式で[紐づけ]を選択します。
2.左辺(母集団)の[値]で、右辺(証憑)との紐づけに使用したい母集団の列名(ヘッダー)を指定します。
3.右辺(証憑)の[カテゴリー]で紐づけに使用したい証憑ページのカテゴリーを指定します。
4.右辺(証憑)の[値]には、テンプレートのOCR項目が一覧表示されます。この中から、紐づけに使用したいOCR項目を指定します。
5.[比較の種類]で紐づけを行うマッチング方法を指定します。
比較の種類 | 内容 | 例 |
---|---|---|
が右と等しい | 選択した母集団列または定数の値がOCR結果の値等と等しいかテストします。 | 請求書番号、金額、日付、数量など完全一致を判断します。 |
が右に含まれる | 選択した母集団列または定数の値がOCR結果の値等に含まれているかテストします。 | 母集団のセルの品名欄[品名]、証憑の品名欄[商品コード+品名]の場合に一致と判断します。 ※母集団のセルが1つの値で、証憑の項目が複数の場合(表の場合など)にも利用します。 |
が右を含む | 選択した母集団列または定数の値がOCR結果の値等を含んでいるかテストします。 | 母集団のセルの品名欄[商品コード+品名]、証憑の品名欄[品名]の場合に一致と判断します。 |
が右と曖昧照合される | 「株式会社」などの会社種別を除いた場合に、選択した母集団列または定数の値とOCR結果の値との乖離率が一定以下かをテストします。 | 母集団の宛先や発行元のセルが[㈱ABC]、証憑側が[株式会社ABC]の場合に一致と判断します。 |
が右に曖昧照合で含まれる | 「株式会社」などの会社種別を除いた場合に、選択した母集団列または定数の値の一部とOCR結果の値との乖離率が一定以下かをテストします。 | 母集団の宛先や発行元のセルが[㈱ABC]、証憑側が[株式会社ABC 購買部 資材課]の場合に一致と判断します。 ※母集団のセルが1つの値で、証憑の項目が複数の場合(表の場合など)にも利用します。 |
が右を曖昧照合で含む | 「株式会社」などの会社種別を除いた場合に、選択した母集団列または定数の値とOCR結果の値の一部との乖離率が一定以下かをテストします。 | 母集団の宛先や発行元のセルが[㈱ABC 購買部 資材課]、証憑側が[株式会社ABC]の場合に一致と判断します。 |
6.カテゴリーが複数ある場合には、各項目の右下にある[+]ボタンにて列を追加し、各カテゴリーに対しても紐づけ設定を行います。
3.突合のテスト項目を設定をする
紐づけされた母集団の行に対して、紐づけ済みカテゴリーとの突合を設定します。
- 各項目の右下にある[+]ボタンをクリックしてテスト項目を追加します。
- チェック方式で[突合]を選択します。
- 左辺(母集団)の[カテゴリー]で「母集団」を選択します。
- 左辺(母集団)の[値]で突合に使用したい母集団の列名(ヘッダー)を指定します。
- 右辺(証憑)の[値]には、突合に使用したいOCR項目を指定します。
- [比較の種類]で突合を行うマッチング方式を指定します。
その他のオプション機能
クレンジング関数
必要な場合にはクレンジング関数を選択します。
クレンジング関数は、突合の障害となる文字列を分析しやすい状態に統一します。
クレンジング関数 | 内容 | 例 |
---|---|---|
split( | 空白ごとに値を分割したうえで、パラメータで指定した番号の要素を抽出します。 | [アルミホイル 100 RL]の文字列の場合、split(2)を適用すると「100」が、split(2,3)を適用すると「100 RL」が抽出されます。 |
line( | 改行ごとに値を分割したうえで、パラメータで指定した番号の要素を抽出します。 | [アルミホイル 100 RL] の文字列の場合、line(1)を適用すると「アルミホイル」が抽出されます。 |
unit( | パラメータで指定した数量単位の前にある数値を抽出します。 | [アルミホイル 100 RL]の文字列の場合、unit(RL)を適用すると「100」が抽出されます。 |
sum | 値を合計します。 | 各明細行を合計した値が抽出されます。 |
revsign | 値のプラス・マイナスの符号を逆転させます。 | [1,000]の場合、「-1,000」の値に変換します。 |
round | 小数点以下を四捨五入します。 | [12.51]の場合、「13」の値に変換します。 |
month | 日付をその月の1日へ変更します。 ※convert_date_format によって事前に日付タイプに変換する必要があります。 | 文字列[令和5年6月27日]の日付を「Tue, 1 Jun 2023 00:00:00 GMT」に変換します。 |
convert_date_format | データのタイプを日付に変換します。 | 文字列[令和5年6月27日]や数値[20230627]などの場合、「Tue, 27 Jun 2023 00:00:00 GMT」に変換します。 |
convert_parentheses_to_negatives | ()でマイナス表現している数値をマイナス符号へ変換します。 | (10,000)のように丸カッコでマイナスを表現している値を「-10000」に変換します。 |
convert_resembling_characters | OCRエンジンが混同しやすい文字列を置換します。 ※値を揃えるために左辺と右辺の両方へこの関数を適用する必要があります。 | [i/I/l/|]など似た文字をすべて「1」へ統一します。 その他にも[O/o]を「0」に、[8/B]を「3」に、[6/b/c/C/G/h/k/sS]を「5」に変換し、[?/ /,/./、/~/-/§]を削除します。 |
convert_to_lowercase | 文字を小文字に変換します。 | [GENIALTECH]の場合、「genialtech」に変換します。 |
convert_to_uppercase | 文字を大文字に変換します。 | [genialtech]の場合、「GENIALTECH」に変換します。 |
remove_all_except_alnums | 大文字アルファベットと数字以外を除去します。 | [株式会社GENIALTECH12345御中]の場合、「GENIALTECH12345」に変換します。 |
remove_all_except_numbers | 数値部分以外を除去します。 | [ABC12345]の場合、「12345」に変換します。 |
remove_carriage_returns | 改行文字を除去します。 | [アルミホイル 100 RL] の場合、「アルミホイル 100 RL」に変換します。 |
remove_numbers | 数値部分を除去します。 | [ABC12345]の場合、「ABC」に変換します。 |
remove_special_chars | &%$#@の文字を除去します。 | [ABC&1%23#45]の場合、「[ABC12345」に変換します。 |
remove_whitespace | 空白文字を除去します。 | [株式会社 ジーニアルテクノロジー]のように空白文字が含まれる文字列を[株式会社ジーニアルテクノロジー]に変換します。 |
replace_underscore_with_space | アンダースコア(_)を半角スペース( )に置換します。 | [ABC_12345]の場合、「ABC 12345」に変換します。 |
他のチェックでも利用可能オプション
比較の種類を「が右に含まれる」か「が右に曖昧照合で含まれる」にした場合、「他のチェックでも利用」オプションが表示されます。
母集団と表形式のOCR項目との突合に有効です。
チェックを入れると同じ証憑カテゴリーに対する後続のテスト項目において、保存された結果に対応する番号の項目のみが対象となります。
証憑(PDF)上の表の列のOCR結果はリスト形式となるため、特定の行を突合対象としたい場合、何行目にあるかという情報を指定する必要があります。
このオプションをチェックした「突合」では、証憑の表の行番号がジーニアルAI for Webの内部へ保存されます。
同じ証憑カテゴリーに対する後続のテスト項目において、保存された一致結果に対応する番号の項目のみが対象となります。
例えば、母集団と証憑内の表にも品名、商品コード、単価、数量を持っている場合、品名の突合設定時にチェックすれば証憑ページ内の表の何行目と突合するかの情報が保存されるため、後続の商品コード、単価、数量にかかるテスト項目のマッチ対象行を正確に指定することができます。
チェック方式を「条件付き突合」にした場合
母集団の各行について、赤枠で囲んだ箇所に指定した母集団の列が右辺に指定した定数とマッチする場合のみ突合を実施します。
例えば、収益認識時点を示す列がFOB/CFR/CIFの場合は売上計上日と船荷証券の船積日とを突合し、検収基準の場合は検収日と突合したいケースなどに利用できます。
突合設定方法が分からない
お問い合わせフォームより突合したい内容をご連絡頂ければ、テスト項目をご提案させていただきます。