2010
February
04
2010
January
26
前にも書いたかも知れませんが「ている」という付属語の並びは前に来る動詞の性質によって意味が変わります。
「切れている」 過去の結果の状態
「見ている」 現在進行
先日、友人に「奥さんは、いつも何しているんですか」ときかれました。
すぐに私は「太っています」と答えました。
2009
December
28
2009
December
21
2009
December
08
2009
November
18
いい天気なので事務所の近くの後楽園に行ってきました。普通の人は入園料は300円なのですが65歳以上は150円です。紅葉はまだ少し早いようでした。日照りが暖かいためか、人出はかなりありました。でも見回すと私を含めて150円の人ばかりでした。
2009
November
02
2009
October
25
体重が増えていました。ということは私の体重が増えるのはお酒のせいではないことが証明されました。
2009
October
01
シソーラスの一番身近な利用法に検索のときに適切な検索キーワードを見つけることがあります。よく言うのですが、料理の記事には「料理」という用語は使われていません。「下ごしらえ」「和える」「みじん切り」のようなもっと狭義の用語で検索する必要があります。このような狭義の用語は数が多くて検索しているときになかなか思い出せません。そのようなときにシソーラスを使います。
シソーラスを組み込んだ全文検索を出荷しています。ホームページに掲載してありますので、一度ご検討ください。
2009
September
24
歩くのが目的で連休に都立の庭園を3か所も回ってきました。どこも丁度彼岸花が満開でした。老人週間ということで、都立の庭園は老人とその付き添いは無料でした。女房はまだ有料なのですが、私の付き添いということにしてすべて無料でした。(老老付き添い)
2009
September
17
医者にメタボと言われてやむを得ず減量をしました。
お陰で、体が軽くなって血圧まで下がりました。
また、昔着ていた背広が着られるようになりました。
最近ある会での写真を送ってもらったのですが、
久しぶりで自分の顔写真を見たらだいぶしなびていました。
メタボには変わりませんが。
2009
September
12
優遇措置のあるアンケートに、同一人が出したと思われる類似した回答が何件も来ることがあります。
その結果、市場調査が偏ってしまうことがあります。
また、学校の複数の生徒がコピペで同じようなレポートを提出するという話をよく聞きます。
形態素解析して、複数のアンケートに共通の文節の数を数えて類似度を測るシステムです。
一致率を表示します。完全に一致するときは100パーセント
利用者が設定した閾値以上の組み合わせを出力します。
ホムページから無料でダウンロードできます。500件まで
2009
September
11
「依頼」の意図を持つ「付属語連糸」だけでも、丁寧さの違いなのでいくつかの言い方があります。
飲んでほしい
飲んでください
飲んでくださいませんか
飲んでくれ
飲んでくれないか
飲んでくれないです
飲んでくれない
飲んでくれませんか
飲んでくれませんですか
飲んでちょうだい
ここにあげたものは主なものだけで、これ以外にもいくつもの書き方があります。
2009
September
06
来社するお客はほとんど夕方です。手帳を見ると夕方だけがスケジュールが入っています。
当然、最初からビールということになります。何回も来社してくれている人でお茶を飲んだことがない人がずいぶんいると思います。
2009
September
02
我々の解析システムでは「係り受け」と「付属語連糸」とに分けて管理しています。
係り受けには「係り」、と「受け」の組み合わせで、「受け」の自立語の語幹までが収納してあります。それから後に続く付属語の連糸をまとめて収納してあります。「係り受け」の一番の機能は多義語の弁別です。例えば「高い」というよく使う形容詞でも次の二つの場合では異なった意味に使われています。反義語も異なります。
反義語
背が 高い 低い
値段が 高い 安い
もう一つの機能は単語だけでは決められない「良しあし」を決定することです。「寿命」「長い」「短い」単独では良しあしの意味を持っていませんが、組み合わさると「良しあし」の意味が出てきます。
寿命が 長い (良い)
寿命が 短い (悪い)
次に付属語の連糸は「係り受け」に対して書き手の意図を与えます。また人称が推察できます。
意図 人称 例
願望 1人称 飲みたい
意志 1人称 飲もう
許可要求 1人称 飲んでかまいませんか
依頼 2人称 飲んでください
勧誘 2人称 飲みますか
禁止 2人称 飲んではなりません
確認 2人称 飲んだね
伝聞 3人称 飲むそうだ
疑問 飲めますか
義務 飲むべきです
譲歩 飲んでもかまいません
推量 飲むだろう
用語はシソーラスで同義語などを拡張します。
意図の種類は、解析プログラムの適用分野によって、今後追加していきます。
良しあしは、付属語連糸が否定のときには逆になります。
実際には、「係り受け」と「付属語連糸」はここで述べたように独立して決められるものではなく、お互いに干渉する場合もあります。現在干渉する場合の規則を整理しています。
参考 益岡隆志 日本語文法の諸相 第7章 命題とモダリティの境界を求めて くろしお出版
2009
August
20
久しぶりでシソーラスを更新しました。42万語になりました。
20回までは無料で使えます。試用してみてください。
(これまでに20回使い切った方もまた使えるようにしました。)
2009
August
16
2009
August
09
先日ホテルに泊まったら、フロントで抽選があり、大好物の缶ビールが当たりました。その晩は飲みに行く約束があったので、冷蔵庫に入れておきました。翌朝、持って歩くのも荷物になるので、朝食は大好物で済ませました。
2009
August
08
2009
July
17
JR飯田橋の水道橋駅よりのホームには到着電車の行き先案内がありません。待っていると「中央・総武線」行きの電車が入ってきます。
乗ると、車内の電光掲示板も次の停車駅は表示するのですが、電車の行き先は表示しません。社内アナウンスも次の停車駅と乗り換え案内しかしません。私はいつも船橋で降りてしまうのですが、その後きっと宇宙のはてまで行くのではないでしょうか。
と言うのは少し意地の悪い話ですが、電光掲示板に電車の行き先ぐらいは表示するようにできないのでしょうか。出来ないというのであれば、車内アナウンスででも知らせてほしい。そんなに難しい話ではないと思うのですが。
どなたか清野智さんに知らせてください。
2009
July
15
暑くなりました。
今日は外出から事務所に帰って来てから、短パンと下着で仕事をしていました。快適でした。
羞恥心はとっくにどこかにいってしまっているので。
もう少しするとパンツいっちょで仕事をするのではないかと思います。仕事ははかどります。そのうちみんなに蹴飛ばされるのではないかと心配です。
2009
June
13
2009
June
04
競馬で「ウオッカ」という牝馬が活躍しているようです。
私の好きなお酒の方はどの辞書を見ても「ウオツカ」です。
ロシア語では「водка」で、翻字すると「wodka」で、「ウオッカ」のほうが良いと思います。テレビのロシア語講座でも「ウオッカ」といっていました。昔偉い人が「ウオツカ」と決めてしまって、その後だれも直そうとする人がいなかったのだと思います。NHKのアクセント辞典を見ても「ウオツカ」になっています。今度アナウンサーがどういっているか気をつけて聞いてみようと思います。このままでは飲んでも、のどに引っかかりそうです。
2009
May
11
豚インフルエンザが日本にも上陸したようです。
豚インフルエンザという名前の時は私もうつるのではないかと思っていたのですが最近は「新型インフルエンザ」とう名前に変わりました。私のような年寄りには関係のない病気に思えてきました。
2009
May
07
発車を見合わせています。
実施を見送ります。
費用を見積もります。
などのように、「見」という漢字を使いながら「見る」という意味が全くといっていいほどなくなってしまっている言葉があります。私の暴論かも知れませんが、もともとは「見留める」という言葉の組み合わせであったのが「認める」という漢字があったためにこの漢字が当てられたのではないかとつまらないことを考えています。
2009
April
17
先日1日会社を休んで高尾山に山登りをしてきました。八千代台を始発電車で出発して、10時には頂上についてしまいました。ゆっくりと降りてきても麓についたのは12時前でした。朝から何も食べていなかったのでソバをたべました。やはりソバだけというわけに行かずちょっとお酒を飲んでしまいました。いい気持ちになって帰りの電車はぐっすり寝て新宿までつきました。真っ昼間から赤い顔をして寝ている老人を見た人は、ホームレスだと思ったでしょう。
ご存じのように高尾山はミシュランの三つ星です。
2009
April
04
エベレストとチョモランマ(中国名)とは同義語である。このように立場の違いで同じ固有名詞に複数の名前がついていることがある。
話は違うが最近テレビで「はるな愛」とう美人が活躍している。
この「はるな愛」は「大西賢示」と同義語である。さらに広義語を探すと「実業家」「お笑いタレント」「歌手」「女優?」ということになっている。
2009
April
02
日本語なかでも大和言葉にはふだんあまり気がつかないのですが多義語がかなりの数あります。たとえば「高い」という言葉には位置をさす場合と、値段をさす場合の2つの意味があります。それぞれの意味で反義語が異なります。
多義語 反義語
高い 位置 低い
高い 値段 安い
2009
March
27
2009
March
20
「世界のナベサダ」だとか「世界のナベアツ」だとか名前のまえに枕言葉を付けている人がいます。私も何か付けようと思ったのですが、「世界の」をつけるほど有名ではありません。そこで「古きよき」というのを付けようと思います。これから自己紹介の時に付けるつもりです。皆さんも私を呼ぶときに付けてください。
2009
March
13
携帯電話を持たされてからもう10年近くになりますが、いまだによく家に置き忘れます。持ち歩いていてもリュクサックの中に入れっぱなしで、誰かが掛けてきてもほとんど出ません。たまに私がかけようとしても電池が切れています。そんなわけで誰もかけてこなくなってしまいました。若い人がメールで頻繁に使っているのを見るのですが、私は目が遠いのでもしメールを読むにしても老眼鏡を取り出してで大変です。
ほんとに年寄りの無駄遣いです。
2009
March
04
2009
February
22
また年寄りの愚痴になりますが、現状維持の気持ちが強くなり、マイナス指向になりがちです。
ただ、日本語の地所を検査するときには、語末順にソートして処理すると同じ品詞の言葉が揃い、効率がいいです。
例えば、案内書、請求書、稟議書・・・すべて書物です。
アクセントも後ろからマイナスで数えた方が同じものが揃ってチェックが簡単です。
ここだけはマイナス指向がいいようです。
2009
February
10
ユーザーに注意を促すときなどには色を付けてだすと親切です。
我々のシソーラスパケージも、差別語などは赤で、常用漢字以外が含まれているので注意を促す用語はピンクで表示しています。
本当はピンクよりも信号と同じに黄色にしたかったのですが、画面上で文字が見えませんでした。
そういえば、昔「ピンク」は「桃色」と言っていましたが、最近はほとんど見なくなりました。
また「ネズミ色」「ミカン色」などというのもほとんど見ません。
色の名前はもともとは「赤」「黒」「青」「白」の4つしかなかったそうで、それ以外の色の名前は具体的な物の色で表現していたようです。
色の名前もカタカナ語ばかりになってしまって、私にはよく分かりません、
今日の私の服装は「ねずみ色」の上着に「ごきぶり色」ズボンです。
2009
January
08
毎朝、船橋から飯田橋まで総武線で通っています。今朝、前の席に若いいかにも千葉県という女性が座りました。座るとすぐお化粧を始めました。年寄りが来たら席を譲り、しゃがんで化粧を続けていました。私もいつも通り、ずうっと書き物をしていました。
秋葉原で、前の席の女性が私の座っている前を通って降りていきました。その顔を見てびっくりしました。船橋で見たときとは別人のような東京美人になっていました。
2008
December
30
2008
December
18
2008
December
16
2008
December
15
零細企業で辞書を作ってきたためか、辞書を小さくするために複合語をそれぞれの要素で管理しています。たとえば「言語工学研究所」は「言語」「工学」「研究所」と3つの要素に分けで辞書に登録しています。
最近用語に「善しあし」をつけています。そうすると、たとえば「派遣」「切り」という言葉は、単独ではあまり「良しあし」の意味は持っていませんが、「派遣切り」という複合語になると、悪い意味があります。複合語は意味的にも狭くなるためか、「良しあし」の意味がはっきりしてくるものがあります。
2008
November
19
2008
November
05
1.自然な言い回しで検索できます。
2.ノイズが少なく、検索漏れも少なくなります。
ネット上の記事が現在のペースで増えていくとキーワード検索では、早晩限界がくるでしょう。
仕組み
原文章をすべて構文解析して、係り受け(単語とその直接関係する単語との組み合わせ)をデータベースにしておきます。検索文も同様に係り受けにして検索します。このためキーワードだけで検索する方式に比べてノイズが大幅に減ります。またシソーラスを用いて用語の標準化、係り受け関係の正規化をするので、検索漏れも減ります。
よく起こる問題を簡単な例を使って説明します。
原文章(データベース)
紫色の部分をデータベース化します。
① 「田中さんがおいしそうに食べたりんごは青かった」
構文解析、用語標準化、正規化
「田中さん,が,食べ,た」
「おいしそう,に,食べ,た」
「食べ,た,りんご,は」 → 「リンゴ,を,食べ,た」 係り受けを正規化
「りんご,は,青,かった」→ 「リンゴ,が,青,かった」 用語の標準化
② 「佐藤さんは青いお皿のうえの赤い林檎を食べました」
構文解析、用語標準化、正規化
「佐藤さん,は,食べ,ました」
「青,い,お皿,」 → 「お皿,が,青,い」 係り受けを正規化
「お皿,のうえの,林檎,を」 → 「お皿,のうえの,リンゴ,を」用語の標準化
「赤,い,林檎,を」 → 「リンゴ,が, 赤,い」 用語の標準化
「林檎,を,食べ,ました」 → 「リンゴ,を,食べ,ました」 用語の標準化
検索文
検索文も構文解析して係り受けにして、係り受けで検索します。
このときも正規化、用語の標準化をします。紫色の部分を検索キーにします。
「青い林檎を食べた」
構文解析、用語標準化、正規化
「青,い,林檎」 → 「リンゴ,が,青,い」 係り受けを正規化します。
「林檎,を,食べ,た」 → 「リンゴ,を,食べ,た」 用語を標準化します。
このようにして①の文だけが検索されます。
これまでのシステムでは「青い」「林檎」「食べ」という3つの単語で検索することになるので、②の文を取り出してしまいます。
2008
October
27
2008
October
25
望遠鏡・で(係り) 見る(受け) のように係り受けになる組み合わせを収集しています。名詞と動詞があればすべて係り受けになるというわけではありません。慣用句として慣用句辞典に載っている組み合わせもありますが、それ以外にいろいろな組み合わせがあって苦労しております。単語だけでは持っていない性質が係り受けになると出てきます。例えば「カメラを回す」という係り受けは、カメラを振り回すわけではなく、撮影するという意味でつかいます。このような係り受けは辞書もなく、テレビなどで出て来るのを忘れないように書き留めておきて収集するしか方法がありません。さらに「肩の荷がおりた」のように3つの単語でできるものもあります。
構文解析を正確にする、オントリジーを生成するなどが目的です。近い将来コーパスをもとに、構文解析をした結果から取り出そうと思っています。
2008
October
07
お昼に事務所の近くのタイ料理店でカレーライスを食べました。グリーンとレッドのとがありました。どちらが辛いかと聞いたらレッドの方が辛いと言われたので、グリーンの方を頼みました。食べてみたら私には耐えられない辛さでお腹の中まで熱くなってきました。やむを得ずビールを1本飲んでお腹を冷やしました。明日も行こう。
2008
October
06
フランスの小話に「男性が歩くことをウォーキングといい、女性が歩くことをショッピングという」というのがあります。
私はさらに加えて「年寄りが歩くことを徘徊という」という句を加えました。
昨日の朝、私が出かけようとすると女房が「どこへ行くの」と聞いてきたので「徘徊」と答えました。
2008
October
03
検索される記事と検索文を前もって構文解析して用語と直接関係のある用語との組み合わせにして検索するシステムです。用語の標準化、係り受け関係の正規化もします。
青い林檎 → リンゴ,が,青,い
係り受けを出力する構文解析をホームページから試用できます。
これまでの方法
質問文をそのまま検索キーにして全文検索する方式は、ちょっとした言い回しの違いが検索漏れの原因になってしまいます。
キーワードによる検索は、不必要な記事を検索してしまうことが多く本当に必要な記事を探すためにひとつひとつを手作業で調べて見るのが大変でした。現在のペースで記事が増えていくと早晩限界がくるでしょう。
2008
October
02
女房に冥土へのみやげ話に直腸検査をしてくるようにといわれて、検査を受けてきました。痛みは全くなかったのですが、長時間いやな思いをさせられました。今私のまわりの人に検査を受けるように勧めています。
やはりメタボと言われました。
2008
September
18
2008
September
12
用語と用語との関係に、狭義語←→広義語という関係があります。我々のシソーラスでは、同じ属性のものだけにしています。属性の異なるものは、関連語としています。
例 ドア 非常ドア 狭義語
ドア ドアノブ 関連語
「ドアを開ける」 「非常ドアを開ける」と」いう言い方は成り立ちますが「ドアノブを開ける」という言い回しは許されません。
つまり広義語で成り立つ言い方は狭義語でも成り立ちます。
同じ観点でも関係が違うことがあります。
東京|部分 新宿区 狭義語
自動車|部分 ヘッドライト 関連語
2008
September
05
悪のりついでに今度は大阪へシソーラスの話をしに行ってきました。聞いていただいた方には大学の先生もおおぜいおいでになりました。でも私には皆様方に負けないことが一つだけあります。それは年齢です。皆様にが年寄りをいたわっていただき楽しい会合がもてました。普段考えていることとまったくことなり、大変勉強になりました。感謝しております。
2008
September
01
おだてられて、韓国へ講演に行ってきました。
韓国側の先生方のお世話で非常に楽しい旅行で、いい冥土の土産ができました。
感謝しています。
4日間お腹いっぱい食べたのですが、体重が2キロもやせていました。
よく歩いたこと。野菜が多かったこと。辛いものなのでゆっくり食べたなどが原因だと考えられます。
帰ってきたら2日で元に戻ってしまいました。
2008
August
05
2008
July
31
新聞によると、常用漢字が増えるそうです。それでなくても読めない漢字があるのに頭の痛い問題です。見ていたら「唄」という字が常用漢字になるそうです。この字はカラオケにでも行かないと見ない字ですが「歌」という字で代用はできないのでしょうか。おそらくこの字を推薦なさった方は、カラオケによく行ってる方でしょう。
「風光明美」で落ち着いたと思っていたのですがまた「風光明媚」にもどるのでしょうか。
「鬱」という字まで常用漢字になるそうで、漢字に弱い私にはゆうつです。
2008
July
21
毎日リュックサックで通勤していますが、この間旅行をしたときに、リュックサックを前に抱えるようにして歩きました。
歩くたびにお腹の上でゆれるのですが、腰痛に良い歩き方です。あまり都心では見かけないのですが腰痛のかたにお薦めします。頭に日焼け予防の帽子をかぶり、目の疲労防止のサングラスをかけ、短い足でゆっくりあるいている人をみたら、それは私かもしれません。石をぶつけたりしないでください。
2008
July
05
複数の作業の場面を同時に表示しておけるのでメモをとる紙がいらなくなりました。思ったより快調です。
うまくするとわが社はペーパーレスになるかも知れません。トイレを除いて。
2008
June
25
あるえらい先生のお書きになった原稿の校正に付き合ったときに、赤字の入った版下に「撃」の字を凵(箱構え)に車という字に修正するようにという指示が入っていました。
出版社では、先生の指示通りの文字を探してきて印字していました。
これは「撃」の旧字体は左上の「車」の部分がこの「凵」に「車」だったのだそうです。この部分だけを取り出して簡略化した字のようでした。
幸い最近はこのような文字はなくなっています。ワープロ入力は文字の標準化にも貢献しきました。
このような簡略化は他にもあって「箇」の字の左上の部分を取り出して「ヶ」という字にした例などがあります。
どうしたわけかJISでは、この字は片仮名の最後に入っています。
2008
June
23
佐原の水生植物園にアヤメを見に行ってきました。ちょうど満開でした。
交通の便が悪く1時間に1本も便がありませんでした。
また運悪く乗り換えのたびに1時間近くも待たされるはめになりました。1時間ボーっとしていると、どうしてもカンビール1本ということになってしまいます。
家にたどり着くまでに何本飲んだことやら。
みんな交通の便の悪さが原因です。
2008
June
22
昔は書くときに少しでも楽がしたくて、このような文字を使ったのでしょうが、ワープロでは入力しにくい字です。
「いすゞ自動車」の社員の方は入力するのが大変でしょう。
2008
June
08
朝早く八千代台から東京湾まで出て、その後印旛沼のほとりを通って利根川まで行って帰って来るという順路でした。
川沿いの道なので高低はなく快適なコースでした。
月に一度ていどやっていたのですが、あるとき途中の甚兵衛渡しのそばにあるウナギの養殖場を見つけました。
ウナギを食べると当然ビールを飲むことになります。しかし飲んだ後自転車で八千代台まで帰るのが大変でした。
2度ばかり繰り返したのですが、これが原因で中断してしまいました。
どうしても寄らずに通り抜けることができないので、そのままになっています。
2008
May
11
その日の一番最初の客で、お刺身を2人前と、カニ汁を取ってゆっくり食べて来ました。
せっかく来たのだし、もう少し食べようかと思ったのですが、満腹感はないのですがもう魚は受け付けませんでした。
そこで店もすいているので、朝からお酒と言うわけにもいかないのでビールを飲んできました。
不思議なことに別腹というのでしょうかビールなら入りました。
2008
May
05
良しあし、否定、要望、希望、勧誘、義務、確認、単純疑問、疑問詞疑問
しかし、実際には文脈を見ないと決められないことがいろいろあります。
一部はイントネーションが分かれば決定できるのですが、文字の世界ではどうしようもありません。
簡単例で、「見て」という普通の文節もイントネーションを上げて「見て」というと要望になります。
2008
April
18
大学のクラブで表彰されました。私でも表彰されることがあるのです。お酒が飲めるクラブなのですが、一番出席率が良かったのだそうです。場所が事務所から近いこともあって、週2回は行っています。私が事務所にいないと、クラブのほうに電話をかけてくる人がいました。商品にすばらしいサングラスをもらいました。
2008
April
06
ブログや口コミサイトなど、多量のコーパス(例文)が手に入るようになってきました。構文解析が実用化されて、自然言語検索ができるようになってきましたが、ただ係り受けを出力するだけでなくもう少し本当に欲しい記事が手軽に提供できるようにするための手法を考える必要があります。
その一つがこれまで述べてきた良しあしを評価して記事を分類する方法です。
もう一つは、例えば勧誘であるとか、依頼であるとか、実際に書いた人がどのような意図で書いたかを調べてその意図で整理する方法です。いま、我々はこの意図で検出するシステムを開発していますが、どのような意図が必要なのかユーザーを相談しながら決めていく必要があります。
2008
March
24
女房が旅行に行ったので、食っちゃ寝をしていたら、体調を崩してしまいました。
やむを得ず2日ばかりプチ断食をしたら、すぐに体調は戻りました。
断食といっても、水と果物とお酒は断ちませんでしたが。
2008
March
17
慣用句よりも関係の遠い2つの用語の共起(コロケーション)について調べています。
「寿命が 延びる」(良い)
「納入が 延びる」(悪い)
これらの用語は単独では良しあしはありませんが、共起することによって良しあしの性質を持つようになります。
この組み合わせは相当な数になりそうです。
2008
March
08
小浜市がオバマ大統領候補を応援するというニュースをみました。
小浜 オバマ
オバマ オバマ
この二つは、上記のようにアクセントを、変えています。
まず、よく使う言葉のアクセント(小浜)は平板になります。後でオバマ大統領候補の名前を知ったときに意味を区別するために、無意識のうちにアクセントを変えて頭高にしているようです。
2008
February
26
花粉症になったつもりでいましたが、今日はなんともありません。
花粉症でしょうと言われて、またしても暗示にかかってしまっていたようです。
たんなる風邪だったようで、ご心配をかけました。
1月分の薬を買ったのですが、1日飲んだだけで無駄になってしまいました。
2008
February
24
慣用句は構文解析上重要な位置をしめているのでわれわれも力をいれています。使い方で形が変わるものがあります。
機転が利く
機転の利く
機転を利かせる
機転は利かない
慣用句はほとんどのものが、良し悪しの評価がはっきりしています。この「機転が利く」の例は「良い」に分類されます。何か他の慣用句を思い浮かべてみてください。われわれもびっくりしました。慣用句には、いましめたり、はげましたりするものが多いためかもしれません。
2008
February
23
去年は花粉症にならず、年をとると鈍感になるので花粉症も軽くなるかと思っていました。
しかし今年は去年の夏が暑かったためだそうでぶり返してしまいました。それも大分重症で、毎日くしゃくしゃの顔をしています。少ししゃんとしているのは夕方お酒をのんでいるときだけです。
2008
February
19
2008
February
09
一般的に言って良いという点が多いからという理由で記事を推薦したのでは、実用にはならないでしょう。何が良くて何が悪いかは人によって異なります。我々は、利用者ごとに係り受けに、「良しあし」とともに「注目度」を、ユーザーごとの辞書に登録して、ユーザー固有の評価をするシステムを開発しました。これから利用者と一緒に整備するユーザーごとの辞書のできばえによりますが、利用者に不可欠のシステムができるのではないかと思っています。
2008
February
02
1月が終わりましたが、手帳を見てびっくりしました。3日間を除いて毎日夕方に来客がありました。夕方来るお客は必ずお酒を飲むわけで、よく飲んだものだと思いました。今月も7日までは毎晩ふさがっています。
2008
February
01
評判検索などで、利用者に適当な記事を推薦するために、「良い」か「悪い」かを評価する必要があります。
良い 悪い
「涼しい」 「寒い」 個々の単語で
「さっぱりする」 「さっぱりだ」 品詞が変わると
「ビールが冷たい」 「態度が冷たい」 共起する語との関係で
さらに否定かどうかを判定するのは難しいのですが、否定が続くと良し悪しは逆転します。
「ビールが冷たくない」 悪い
「ビールが冷たすぎる」 悪い
2008
January
26
お菓子についてのアンケートのデータを処理する機会がありました。我々の辞書の中には、「あんこ」の仲間の用語がほとんど登録されていませんでした。私が甘いものが嫌いなので、おそらく甘いものが出ている記事や、テレビ番組にまったく興味を持たなかったことが原因と思われます。酒飲みが辞書を作ったことによる思わぬ弊害でした。
2008
January
20
日本語解析は単語の品詞を一番基本の手がかりに進めています。
単語には品詞が決まっていることになっていますが、実際には使われ方で異なります。
動詞 名詞
勉強 よく 勉強する。 歴史の 勉強をする。
生き 長く 生きます 食材の 生きがいい
2008
January
01
明けましておめでとうございます。今年もよろしくお願いいたします。
初詣をしてきましたが寒いですね。寒そうな芸能人を見て、私もやってみました。「オッパッピー」左で10回、右で10回、「そんなの関係ねぇー」も同様に左で10回、右で10回。少し温まりました。
2007
December
24
2007
December
17
この歳をしていまだにプログラムを書いています。もしかしたら最高齢プログラマーかも知れません。昔からの週間で、必ずリスト印刷してそれを見てからでないと考えられません。しかも、目が遠いので、大きな字で。地球に優しくないと思うのですが。
2007
December
10
フランス小話の本を読んでいます。実は前に読んだことのある本です。一度読んだ小話は落ちが分かってしまうので面白くないだろうといわれましたが、読み直しても笑えました。前に読んだ落ちを完全に忘れていて2度楽しめました。
2007
December
02
構文解析のために、1つの文に名詞と用言とがどんな助詞を介在して共存するかを整理しています。例えば「本を読む」という文では「本」という名詞と「読む」という「動詞」とが「を」という助詞を介して共存します。このような整理の仕方を結合化文法といいます。これは一般的な組み合わせですが、「空気が読めない」のように一般的でない組み合わせもあります。
若い人たちの間では「KY」と言うのだそうですが私と女房のイニシャルも「KY」でした。KY夫婦です。
2007
November
24
漢字で書くと違うが、平仮名で書くと同じという名前(姓でないほう)がたくさんあります。平仮名で書いたときの種類は、数えたことはないのですが、あまりないと思います。また平仮名で書いて同じ名前はアクセントも同じです。我々の辞書に「よしひろ」という人名が200以上登録してあります。私はすべて「芳宏」の異表記と思っています。
2007
November
18
日本人は4拍が親しみやすいようで、複合語の頭の2拍ずつを取り出してつないで出来あがる省略語が多数あります。
デパート地下商店街 → デパチカ
デジタル・カメラ → デジカメ
パーソナル・コンピューター → パソコン
小椋・潮田 → オグシオ
出来上がった語が1つの言葉だということを示すためかアクセントがすべて平板型になります。「マスコミ」の語源は何だったかのようにもとの言葉が忘れかけられているものすらあります。このような四文字の言葉のグループに、新しい名前を定義してはどうかと思います。「四字略語」ではどうでしょうか。その「四字略語」は「ヨンリャク」になります。通じないか。
2007
November
12
客先で話していたら、くしゃみと鼻水がでて、風邪をひきはじめたようでした。あわてて駅のガソリンスタンドに飛び込んで補給をしたら幸いに風邪にならずにすみました。百薬の長とは良く言ったものです。いまガソリンスタンドはターミナル駅にしかありません。もっと増えるとよいのですが。
2007
November
02
聞くところによりますと、中国では5千年の歴史の中で朝廷が変わるごとに字体を新しくしてきたそうです。現在の中国も国家設立の後字体を新しくしました。簡体字と呼ばれる字体で台湾のものと異なっています。わが国の文字も古代からの影響でかいろいろな字体があります。
私の名前も戸籍上は「國分」ですが、書くのが面倒なので簡単な「国分」でとおしています。「国」と言う字はJISにこのほかにも「囗」「圀」があります。
また私の個人的な意見ですが、異体字は廃字にしてしまったらどうかと思います。情報の伝達や、検索のためにはそのほうが便利でしょう。よく自分の名前に異体字を使っている人がいますが、あまり難しい字を使っていると誰からも検索してもらえなくなってしまうでしょう。
2007
October
23
2007
October
12
2007
October
09
2007
September
13
「望遠鏡で泳いでいる彼女を見た」という文を読むとき、読んでいる人は「望遠鏡で泳いでいる」というのは読んでいる人の知識に照らし合わせて何かおかしいと気がつきます。読み進めていくうちに「見ていた」という「望遠鏡で」にふさわしい動詞を見つけ、「望遠鏡で泳いでいる」のではなくて「望遠鏡で見ていた」なのだと気づきます。確かに最初から「泳いでいる彼女を望遠鏡で見ていた」と書いてくれればこんな問題は起きないのですが、人は頭に浮かんだ順序で書くのでこのような文が存在するのです。文を読むにも知識が後ろ盾になっています。これは一番簡単な例ですが、もっと複雑な迷路もあります。書くときはなるべく迷路がないようにしたいと思っていますが、思ったまま書こうとするとときどきこんな迷路になってしまいます。
2007
September
09
どうしたわけか、我が社の社員はあまりお酒を飲みません。勇将の下に弱卒ありです。きっと社長のようにはなりたくないと思っているのでしょう。夕方になると社員に白い目で見られながらいつも一人で缶ビールを開けています。家まで帰り着くにはガソリンが必要です。
2007
September
03
いわゆる助詞の機能を補うため、拡張助詞というような付属語があります。例えば「~の代わりに」「~に従って」のようなものです。活用があるので、助動詞というべきなのかもしれません。英語にも同様に「instead of」「according to」のようなものがあります。それぞれが活用するので膨大な数になり、われわれのシステムでも組み合わせの数は500万を超えています。これらの性格を含めて辞書にきちんと整理しておかないと意味のあるある解析結果が得られません。
例えば「人間の代わりのモルモットに」という係り受けを「人間の代わりの」「代わりのモルモットに」という2つの係り受けに分けてしまったのでは、自然言語による検索や、テキストマイニングでは役に立たないでしょう。
2007
September
02
テキストマイニングのために、個々の係り受けが良い意味なのか悪い意味なのかを判断する機能を追加しました。否定表現も考慮して良し悪しを決めるようにしてあります。
キズが 少ない 良い
(「キズが」は悪い意味ですが、述部が否定のため良い意味になります。)
上の例のように普遍的に良し悪しが判断できるものは良いのですが、良し悪しの判断は場合によって異なることがあります。例えば「太る」いう言葉も良い意味のこともあります。
子供が 太る 悪い
家畜が 太る 良い
分野ごとに、そこで使われているコーパス(文例)をもとに、係り受けが良いか悪いかを判定してそのデータベースを作る必要があります。さらには良し悪しだけでなく言葉同士の意味的な関係を記述した形でのデータベース(オントロジー)を作りたいと思っております。一緒にやってくださる相手を探しています。
2007
September
01
先週もやってしまったのですが、かぜを引いてしまい喉が痛くて困っています。夏のかぜは馬鹿が引くというのは真実のようです。
2007
August
31
例えば「で」にはいくつかの種類がありそれぞれ文法的な働きが異なると本には書いてありますが、実際に出てきた「で」がどの種類の「で」なのかは、入力されたテキストにはマークしてありません。
当時──┐ 当時─┐
私は──┤ 私は─┤
学校で─┤ 学生で─┐
講演を─┤ 講演を─┤
楽しみにしていた。 楽しみにしていた。
持っている知識をすべて動員して前後関係から分けようとするのですが、なかなか思うようにはいきません。最近はコンピューターの性能が上がってきたので、以前はあきらめていたような全数検査が簡単に出来るようになりました。辞書の静的な情報は、簡単にとりだせるようにはなりました。しかし、どちらの「で」なのかというような問題は、逐一、人が見て考えないと決められません。
自然言語処理はこれからの検索やテキストマイニングではなくてはならない技術だと思いますが、勝ち目のない巨大な敵に老骨に鞭打って立ち向かっているような気がしてなりません。
2007
August
27
文法的な規則を探してプログラムに組み込み、必要に応じて分類して新しい品詞を定義するということの繰り返しです。いくつかの規則が矛盾するところに、この方が多いだろうと思われる規則を経験的に選んで適用しています。
対策を立てた言い回しを他社のシステムで試して見て、他社のシステムで出来ないのを見つけてしばし優越感にひたるのが年寄りの唯一の楽しみです。おそらく他社の人も同様に我々のシステムを試しているのでしょう。
統計的な手法で構文解析をしているという話を聞きますが、私には信じられません。
2007
August
16
今年の夏は暑いですね。熱中症にならないように水分を多くとるようにしています。しかし、水ばかりだとあまり飲めないので、少しだけ焼酎を入れて飲んでいます。焼酎を少しでも入れると水だけではとても飲めないような多量の水分がとれます。
2007
August
13
理工系離れが進んでいると言われていますが、私の周りに大学は物理だったという人が驚くほどいます。私を含めて物理では飯が食えなかった人たちです。電気をやれば電気科の人に負け、機械をやれば機械科の人に負け、という結果でしょう。
2007
August
06
ある温泉で地酒のどぶろくがあると聞いたので、夕飯のときに頼みました。180ccのものと500ccのものがあると言う話しでした。180ccでは足りないと思い、500ccのものを頼みました。どぶろくを飲み終わったあと、どぶろくだけでお腹が一杯になってしまい折角の料理が食べられませんでした。
2007
August
03
付属語を整理していて「書いて」というときの「て」が、数多く出現するので苦労します。
5段動詞には、この「て」との接続のために音便形という特別な形が用意してあります。
というより、連用形に接続して使われていたものが非常に多く使われるので音がくずれた結果、音便形ができたと考えるのが妥当でしょう。
さらに前に来る動詞によって濁音化するものがあります。
「書いて」
「飲んで」
これに似たものに
「書いた」のときの「た」](終止・連体形)
「書いたり」のときの「たり」(連用形)
「書いたらば」のときの「たら」(仮定形)
などがあります。
本当に、てがかかります。
2007
July
25
書いた文と出力された構文木が思っていたのとは違った形になることがあります。
私の場合では、独りよがりになっていて、書いた文を客観的に見られなかったことが原因のことがよくありました。
もちろんコンピューターの解析は完全ではありません。
しかし、お書きになった文章を読む人がコンピューターがしたような読み間違いをするかもしれません。
なるべくならコンピューターにも解釈してもらえるような文章を書きたいと思っています。
構文解析サイトで簡単に構文解析をしてみることができます。試してみてください。
2007
July
17
私は小学校のクラスのクラス会がいまだに続いています。先日も3年ぶりで一泊旅行をしました。60人のクラスで、20人近くが集まりました。 女性陣はますます元気です。
かつての少年少女はどこへ行ってしまったか50年という時間の恐ろしさを思い知らされました。羞恥心はとっくに磨り減ってかけらも残っていません。朝食が終わると、みんな薬を取り出し、お前は何種類だ、おれは何種類だといってつまらないことで話がつきませんでした。
だんだん家の中で遊んでくれる家族がいなくなってきて、このような会を続けてくれる幹事の方々に心から感謝しています。
2007
July
12
2007
July
07
ある先生に見ていただくことになったので、まじめに辞書のチェックをしていたらいろいろ手抜きが見つかりました。
急いで手当てをしたところ辞書のサイズがまたぶくぶく増えてしまいました。私の体重と同じで一様増加関数です。辞書サイズのほうはコンピューターが大きくなることを頼りにできますが、体重のほうはどうしようもありません。
2007
July
02
先週の金曜日に名古屋で時間が空いたので明治村に行ってきました。
入場料3千円のところが65歳以上の人は、2千円でした、初めて老人になってのご利益にあずかりました。
ウイークデーだけでも結構ですから、このような割引をもっとやってほしいと思います。
ういた千円でお昼にビールを飲みました。
2007
June
28
終止形だけ語幹までが変わる動詞があります。
ゆう(言う)
ゆく(行く)
うる(得る)
おそらく古い形が残っているのでしょう。
数は少ないのですが非常に良く使う動詞なので無視できません。
2007
June
27
ある人に年寄りのブログは自虐的な話が多いといわれました。私がこれまでに書いたブログを読み直してみると確かにそのとおりでした。残念ながらこんなことを書くよりないようです。
南無阿弥陀仏
南無阿弥陀仏
2007
June
26
お蔭様で構文解析の評判は良いようで、この後、照応、用語の標準化などの付属システムを組み込んで行こうと思っています。
ホームページの構文解析の試用サイトに、アンケート記入欄を設けました。
今後の我々の発展のために、解析結果に対するせひ厳しい忌憚のない意見をお寄せください。
ご意見を無駄にしないで、いろいろ改良を進めて行きたいと思っています。
2007
June
22
日本語の文法では、否定の重複を禁止していません。その結果「美しくなくなくない」などという言い方が間違いだとは言えないそうです。我々の構文解析でも許してしまっています。
読みやすい文章を書くためには禁止するべきでしょう。私は二重否定も使わないようにしています。それでも文章を書いていて困ることはないこともないこともありません。
2007
June
14
今から22年前、会社を設立したときにお祝いに電池を換えないで10年動く時計をいただきました。そのときは電池が切れるまで会社が持つかと本当に考えていました。幸い時計の電池のほうが先になくなってしまって、会社のほうは電池を換えたあとも持っています。そろそろ2回目の交換です。
2007
June
04
土曜日の夜
女房と娘が旅行に行き、せがれも夜、遊びに行って10年振りで独身になりました。
一升瓶をかたわらにテレビの前に寝転んで見ながら晩酌をしました。
前から楽しみにしていたのですが、すぐに寝入ってしまって、お酒の量は以外に進みませんでした。
2007
June
01
電車で座っていたら前に立っているきれいな女性がズボンのファスナーのあたりを触っていました。
女性にしては珍しい動作だなあと思って見ていました。
会社について机に座って自分の前をみたら、私のズボンのファスナーが開いていました。私に教えてくれていたようです。
(このファスナーという言葉は、私はチャックと書いて書き直しました。)
2007
May
31
さんざん抵抗をしたのですが、私もとうとう65歳になり完全に老人の部類になりました。
そういえば昔「老人力」という本がありました。
この本が出る前までは「力」という接尾辞は「推進力」「行動力」のようにサ変動詞に付いて「~する力」という意味のものと、「単語力」「英語力」のように能力の意味のものだけでした。
この本が出てからいろいろな言葉につくようになり、あまりはっきりしない意味のものを見受けるようになりました。
「鈍感力」「社長力」
追伸:新たにシソーラスの本格的なサイトを開設しました。
10日まで無料だそうです。急いで一度使って見てください。
2007
May
19
昔の仲間の中村正三郎さんに私のブログを紹介していただきました。ありがとうございました。
昔一緒に話し合うときはいつもひざを突き合わせて話し合っていました。
というのは背の高さが20センチぐらい違うので、立って話すと私の首が疲れるからです。
座って話せば目の高さは変わりませんでした。
もう亡くなられましたが、当時もう一人中村紀三郎さんというかたがいました。
非常に良く似た名前で1字しか違わないのですが、連濁とアクセントの形がまったく違いました。
正三郎 ショーザブロー
紀三郎 キサブロー
2007
May
12
2007
May
07
ここ二,三年のことですが、「定年になる」ということを「定年する」という言い方を耳にします。
団塊の世代が定年を迎えて、定年の話が多く話題になるためではないかと思います。
昔「お茶する」という言い方がはやったことがありますが、良く使う言葉がサ変動詞になるようです。
2007
May
03
意味の違いを説明するのに外国語に置き換えてみるとうまくいくことがよくあります。
次の「ている」の機能は、動詞の種類によって、変わります。
書いている → 現在進行形
終わっている → 過去
翻訳するときに注意をしなければならない問題です。
2007
May
01
零細企業は連休中も出勤しています。(うちにいても遊んでくれるひとがいないので)
連休明けに会いましょうという約束がいっぱいたまっています。
それも皆なぜか、4時からになっています。
2007
April
30
「日本語は主語が省略される。」とよく言いますが、日本語では敬語で主語を表していることがよくあります。
例えば「申し上げたことは、おっしゃっていることとは違います。」という文は
「(私が)申し上げたことは、(あなたが)おっしゃっていることとは違います。」と暗黙のうちに主語が指定されたことになります。
これがまた日本語の照応の難しさの原因です。
2007
April
18
4連休の後2日あけて3連休というのは今年のゴールデンウイークの話ではなく
今月に入ってから私がお酒を飲まなかった日である。
こんなに空けたのは、数年前に二日酔いで人間ドックに行って検査レベルのCを取ってしまい
精密検査までの間、お酒を飲まなかったときいらいである。そのときは飲まなかったらすぐAに戻りました。
夕べはまた飲んでしまいました。
2007
April
13
大リーグでイチローが活躍しているようですが、
野球を始める前は「イチロー」は「いちろう」と仮名をふっていたはずです。
胡瓜(きゅうり)→キューリ
餃子(ぎょうざ)→ギョーザ
のようにオ段、ウ段のあとの長音を「う」であらわすという変則的な規則が原因です。カタカナ表記のときはよく長音でかいたものをよく見ます。
長音は長音記号で表すようにするべきだと、いつも思っています。
2007
April
12
来週は、飲む約束がずうっと続いているのですが、どうしたわけか今週は一度も飲む機会がありませんでした。
きょう久しぶりといっても4日ぶりですが、ビールを飲みまして元気がでました。
やはり、ブログを書き、仕事をするためにはお酒が必要なのです。
2007
April
07
構文解析をやっていますが、やればやるほど興味深い規則が見つかります。
普段だれも遊んでくれないので、ついつい規則を見つけて、その規則を組み込むことを考えています。
自立語と付属語の収集分類が主な仕事です。
下の例で言うと赤い部分が、自立語で青い部分を付属語です。
例「文法について研究しています。」
現在我々の場合、自立語の数が23万語、付属語の数は200万以上になっています。
これから先ブログなどで使われている、崩れた言い方に強くするためには辞書の追加が必要になります。
2007
March
31
2007
March
30
視覚障害者は、最初から文字のない世界で暮らしているので点字は、晴眼者の仮名の表記より音声に近い記述方をします。
仮名 点字 発音
空港へ くうこうへ くーこーえ くーこーえ
平成は へいせいは へいせいわ へーせーわ
拗音(キャ) 2文字 2枡 1音
文節分かち書きで、文節の間に1枡の空白をいれます。
「を」は「お」とは区別しています。
2007
March
27
缶ビールの缶の上の部分に下の絵のような点字が書いてあります。
○ ● ● ○ ● ●
● ○ ○ ● ● ○
○ ○ ○ ● ○ ●
これは点字で「オサケ」と読みます。最近は、駅の券売機やエレベーターのボタンのところにも点字の表示がでています。おそらく点字について知る機会もないと思うので少し触れておくことにします。点字は基本的に文節分かち書きの仮名表記で、それほど難しいものではありません。
点字は6点でできています。
母音 ○ ○
○ ○
○ ○ 子音
母音
あ い う え お
● ○ ● ○ ● ● ● ● ○ ●
○ ○ ● ○ ○ ○ ● ○ ● ○
○ ○ ○ ○ ○ ○ ○ ○ ○ ○
子音
か さ た な は ま ら
● ○ ● ○ ● ○ ● ○ ● ○ ● ○ ● ○
○ ○ ○ ● ○ ● ○ ○ ○ ○ ○ ● ○ ●
○ ● ○ ● ● ○ ● ○ ● ● ● ● ○ ○
や行、わ行は特殊です。
や ゆ よ わ ゐ ゑ を
○ ● ○ ● ○ ● ○ ○ ○ ○ ○ ○ ○ ○
○ ○ ○ ○ ○ ● ○ ○ ● ○ ● ● ○ ●
● ○ ● ● ● ○ ● ○ ● ○ ● ○ ● ○
濁音・半濁音・拗音は前に1枡付け加えます
濁音 半濁音 拗音
○ ○ ○ ○ ○ ●
○ ● ○ ○ ○ ○
○ ○ ○ ● ○ ○
撥音 促音 長音 読点 句点
ん っ - 、 。
○ ○ ○ ○ ○ ○ ○ ○ ○ ○
○ ● ● ○ ● ● ○ ● ● ●
● ● ○ ○ ○ ○ ○ ● ○ ●
点字は6点しかないので、英字、数字は前にシフトコードをいれます。
英字開始 数字開始
○ ○ ○ ●
○ ● ○ ●
○ ● ● ●
1 2 3 4 5 6 7 8 9 0
● ○ ● ○ ● ● ● ● ● ○ ● ● ● ● ● ○ ○ ● ○ ●
○ ○ ● ○ ○ ○ ○ ● ○ ● ● ○ ● ● ● ● ● ○ ● ●
○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
上の表を見てもらえば分かるように6点とも打ってある文字は「め」です。
これだけ分かっていれば、駅やエレベーターに書いてある点字は読めます。
2007
March
25
「本契約」という言葉があります。文字で書くと一とおりなのですが
ホンケイヤク 正式な契約
ホンケイヤク 今結ぼうとしている契約
とアクセントによって2つの意味があります。
日本語には「本」という接頭辞が2種類あり、アクセントで弁別しています。
書き言葉では文脈を考えてどちらかを決めているのでしょう。
2007
March
19
昔、私はヘビースモーカーでした。それがあるときに、ぴったりと止めました。あまり急だったのでびっくりして昭和天皇が死んでしまいました。今でもかわいそうなことをしたと思っています。長生きの秘訣に「決して死なないこと」という話がありますが、禁煙の秘訣は簡単で「決してタバコをすわないこと」です。
もしこのうえ、お酒を止めると今の天皇まで死んでしまうと困るので、お酒は止めないことにしました。
2007
March
16
話し言葉では、アクセントで区別しているのですが、書き言葉では特に平仮名で書いたときに区別ができない言い方があります。
きる(切る) キル
(着る) キル
動いたものの ウゴイタモノノ 「もの」が形式名詞
ウゴイタモノノ 「ものの」が逆接の接続助詞
どちらと考えるかで、係り先が異なるので、構文解析でよく問題になります。東京以外のアクセントの人はどうしているのでしょうかね。
2007
March
12
2007
March
08
構文解析の泣き所
「遊んでいたのは公園でで」
という簡単な文に「で」が3回でてきます。すべて違う「で」です。
ここでは細かい説明は避けますが、どの種類と考えるかで文の構造が変わってきます。
文脈が分からないと決定できないので、構文解析をしていて一番悩むところです。
2007
March
06
今日歯を抜いてきました。今日はブログは休もうかと思っていました。
歯医者に今晩お酒を飲まないようにと言われたので前回のようにビールにしました。
夕飯がすんだ後、やはり物足りなくて結局焼酎を飲んでしまいました。
焼酎を飲んだら元気がでてブログを書く気になり、書いています。
考えてみると、ブログに書く話は大体お酒を飲んだときに考えることがほとんどです。
2007
March
05
否定疑問文に「はい」(Yes)、「いいえ」(No)の答の意味が英語と日本語とで異なるのはご存知のとおりです。ここで日本語の勧誘文を含めて考えて見ましょう。
質問 答 動作
お酒を飲まないか(勧誘) はい 飲む
お酒を飲めないか(否定疑問) はい 飲めない(結果としては飲まない)
Don’t you drink? (否定疑問) Yes 飲む
3つの質問文に「はい」(Yes)と答えた場合の後の動作を示したものです。
日本語のこの違いはその動作が意思で決定できるかどうかで決まります。「お酒を飲む」というのは意思で決められますが、「お酒が飲める」というのは意志で決められません。日本人は良く間違えずに応答しているものだと思います。日本語を勉強している外国人が理解するのは難しい問題でしょう。
2007
March
02
2007
March
01
人名、地名、機関名など個々のものを指す固有名詞といわれているものがあります。どこまでが一般名詞で、どこからが固有名詞かという問題もあります。新しい用語がどんどん生産されます。と同時に消えていく用語もあります。そのため辞書にすべての固有名詞を登録するのは不可能です。日本語処理システムでは、どうしても未知語になってしまい精度を上げられない最大の原因になっています。辞書の補修で最後まで手が抜けずてこずる問題です。
・普通名詞と紛らわしい表記の語もあります。
ブルドックソース (製品にはBull・Dogと書いてあります。)
英雄(ひでお) (野茂英雄)
勝利(かつとし)
御茶ノ水(地下鉄)、お茶の水(JR)
・同じ表記にいくつかの読みがあります。なおかつ決められた読み方しか許されません。そのため正確に読ませるためには人手によるチェックが必要になります。
卓 たかし、たく、すぐる
中谷 なかたに なかや なかのや
日本電気(にっぽん) 日本芸術院(にほん)
相生町(あいおいちょう、あいおいまち)どの県かで読み方が異なります。
・発音や表記が普通の用語と表記法がずれているものがあります。これはおそらく会社名をきめたころ、仮名小文字がなかったためだろうと思います。
キヤノン、富士フイルム
・企業名などでは、普通名詞のときと意味と変わります。
例 「電気」は物です「日本電気」は機関でする。
「証券」は物です「新日本証券」は関の意味になります)
・異体字を含むものがあります。
逆に異体字があったら固有名詞だとも言えます。
また「岡」「埼」のように固有名詞でしか使わない漢字があります。
ゐゑヰヱヲヂヅ も固有名詞でしか使いません。
2007
February
27
2007
February
26
JIS用語では、「コンピューター」を「コンピュータ」と最後の長音をなしで記述します。私が聞いた範囲では、すべての人が「コンピューター」と発音しています。雑誌や新聞にも「コンピューター」と書いてあります。JIS用語を決めた人は、「コンピュータ」と発音しているのでしょうか。
同様に「ソフトウエア」と発音されている言葉もJIS用語では「ソフトウェア」になっています。
ソ フ ト ウ エ ア (5拍) 一般
ソ フ ト ウェ ア (4拍) JIS
一日も早く世の中で多く使われている記述にJIS用語を変更して欲しいと思っています。
2007
February
23
2007
February
21
これまで述べてきた構文解析、照応解析の後、表記の揺れ、同義語を標準化をすませて蓄積しておきます。
例えば「彼は欠勤もないそうで健康な社員に違いない。」という文は
田中 は 社員 に違いない 推量 ① 欠勤 も 非推奨 な いそうで 否定 ② な いそうで 社員 に違いない 推量 健康 な 推奨 社員 に違いない 推量
②非推奨が否定されて、推奨になります。
これまでの文書データを扱う検索システムやテキストマイニングなどは、単語のありなしだけをキーに組み立てられていました。単語の代わりにこれまで述べてきた係り受け関係をキーにして組み立てれば、精度を大幅に上げられるでしょう。またもっと他にいろいろな使い方があるでしょう。
そのためにまずは皆さんの取り扱っている文書を保存しておいてください。
2007
February
20
「今年は暖冬のせいで、もう花粉の飛散が始まった。」というニュースを聞いたらくしゃみが出てきました。
暗示にかかりやすい性格なもので。
でも歳のせいで鈍感になったようで昔よりだいぶ症状が軽くなりました。歳をとってよくなることもあるのです。
2007
February
19
「知的検索のためにシソーラスによる言語解析システムを開発した」という文を構文解析してみます。
知的検索のために──┐
シソーラスによる──┐ │
言語解析システムを──┤
開発した
各文節の修飾関係を詳しく見てみましょう。
係り側 受け側
知的検索 のために 開発 した
シソーラス による 言語解析システム を
言語解析システム を 開発 した
このように修飾する側と修飾される側との関係を対にしたものを「係り受け」といいます。
(構文解析のことを「係り受け解析」ということもあります。)
これまでは単語が日本語処理の基本要素でしたが、これからはこの「係り受け」が日本語処理の基本要素になるでしょう。
2007
February
17
構文解析の試用サイトのバージョンが5.1になりました。
ぜひ使ってみてください。
藤原紀香が結婚したら、かぜを引いてしまいました。
今年は暖冬のおかげで、いままで引かずにいたのですが。
2007
February
16
2007
February
15
一昨日の文例の中の2文目に「そこはすでに紅葉していて、道も込んでいました。」という文があります。
そこは──┐
すでに──┤
紅葉していて、──┐
道も──┤
込んでいました。
後ろ文の「そこ」という場所を指す指示詞は前の文の中には場所は「養老渓谷」しかないので「養老渓谷」を指していることが分かります。「そこは紅葉していた」という代わりに「養老渓谷は紅葉していた」と置き換えたほうが後の処理が便利になります。このように複数の文にわたって、指したり指されたりする関係を解析することを照応解析といいます。
2007
February
14
2007
February
13
次のような2文からな短い文章を例にして文の仕組みを考えてみましょう。
|
今年の夏は暑かったので紅葉は遅いと聞いていましたが、先日、老いた母と妻を連れて養老渓谷へ行ってきました。そこはすでに紅葉していて、道も込んでいました。 |
まず前の文を考えてみましょう。大きく「今年の夏は暑かったので紅葉は遅いと聞いていました」と「先日、老いた母と妻を連れて養老渓谷へ行ってきました」という二つの短文が、「が」という接続助詞でつながっています。それぞれを短文といいます。このように結合されて一つになった文を複文といいます。
構文木
前の文を、構成する文節をその修飾・被修飾関係で整理して図に示します。これを構文木といいます。このように修飾関係(係り受け)で文の構造を整理することを構文解析といいます。
今年の──┐ 夏は──┐ 暑かったので──┐ 紅葉は──┤ 遅いと──┐ 聞いていましたが、──┐ 先日、──┤ 老いた──┐ │ 母と─P┐ │
妻を──┐ │ 連れて──┤ 養老渓谷へ──┤ 行ってきました。
日本文では前の部分が後ろの部分に係ります。最終的には、すべての部分が最後に来る叙述部に係ります。逆の見方をすると、最後が一番重要であるといえます。
母と妻の関係の線に Pと書いてあるのは、「母」と「妻」とが並列の関係であるという意味です。
2007
February
09
秘密保持契約書には「業務遂行上知りえた相手方の秘密をも漏らしてはならない」と書いてあります。ですから、言語工学の契約相手が「言語工学の社長は馬鹿だ」と言って歩いたら守秘義務違反になるのだろうと言ったら、口の悪い友人に公知の事実なのでならないと言われました。
2007
February
08
異音の1種類で子音だけが発音されて、母音の音が消えてしまう現象です。
むしろこれが進んだ形で子音まで消えてしまって、促音だけになる例のほうが身近に感じられるかもしれません。
例 三角形 サンカクケイ → サンカッケイ
更に 時計 という言葉は
トキケイ → トッケイ → トケイ
促音化 欠落
緑で書いた部分が無声化します。
次のようなときに 無声化が起こります。
条件1:無声音である。 (カ行、サ行、タ行、ツァ行、ハ行、ファ行の音)
条件2:イ段、またはウ段である。
条件3:アクセントの滝でない。
条件4:直後が無声音か最後である。
連続して無声化することもあります。
例 福助足袋 フクスケタビ
関西方言にはこのような変化はありません。関西出身の人はアクセントは関東方言でしゃべれてもなかなか無声化の発音ができないようです。
2007
February
07
2007
February
06
仮名で示した音に対応する実際の発音がいくつかに分かれることを言います。
1つの音を発声しているときに口の中は次の音の準備をしています。このため音は次の音の影響を受けて変化します。同じ仮名で書いても実際の音が異なるものがあります。
長音
直前の母音により5種類の音があります。
撥音(ん)
直後の音の影響を受けやすく直後の音によってm、n、などさまざまに変わります。
辛抱 シンボー mの音
感謝 カンシャ nの音
ちなみにお隣の韓国では、別の文字を当てています。
ガ行(口濁音、鼻濁音)
原則的には語頭にあるときは口濁音に、それ以外の時は鼻濁音になります。
方言によってはこの区別はありません。
母音(ア行の音)
語頭(文頭)の時は、軽い破裂が入ります。半母音には入りません。
直前が撥音のとき
促音(ッ)
直後の子音によって音が異なります。
一般に有声音の前には来ません。
破裂音の前 破裂する前の無音状態が維持され、音がありません。
摩擦音の前 摩擦音になります。
2007
February
05
2007
February
02
日本人の姓は農耕民族のせいではないかと思うのですが、地名由来のものを多くみうけます。
一般名と姓とはアクセントで弁別しているものがあります。
一般名詞 人名
谷 タニ タニ
岸 キシ キシ
原 ハラ ハラ
西 ニシ ニシ
地名と人名ともアクセントで弁別しているものがあります。
地名 人名
渋谷 シブヤ シブヤ
奈良 ナラ ナラ
2007
January
31
2007
January
30
アクセントの高い音から低い音に変わる所をアクセントの滝の位置と呼ぶことにします。普通1つの単語に滝は一つしかありませんので、何音目に滝があるかを数字で表すことができます。
食事の時に使う箸のときはハの位置で1、川に掛かっている橋の時はシの位置で2です。
机の端の場合は高い音から低い音に変わる所がないので滝がなく0です。
共通語では第1音と第2音とでは高さが必ず違います。関西方言では同じことがあります。関東人のしゃべる関西方言がうまくないのは、第1音と第2音との高さを変えてしまうことが一因です。
2007
January
29
2007
January
26
具体的なアクセントについてよく例にされる「はし」で説明します。
「ハ」と「シ」という2字の平仮名で表される言葉には、食事の時に使う箸と、川に掛かっている橋と、机の端のというときの端の3つが思い出されます。
最初の食事の時に使う箸は「ハ」を高く「シ」を低く発音します。
残りの川に掛かっている「橋」と机の端の「端」は両方とも「ハ」を低く「シ」を高く発音します。
一見同じように見える、この2つの言葉は実際には区別して使っています。
この違いは両方の言葉のあとに助詞の「が」を付けて見れば分かります。
川に掛かっている橋の時は「ガ」を低く発音します。
机の端の時は「ガ」を高く発音します。
ハとシという2字の平仮名で表される言葉でも、アクセントの違いによって3種類の意味を使い分けています。
音声で示すことが出来ないので高い音を■、低い音を■、の色で示すと、
箸が ハシガ (頭高型といいます。)
橋が ハシガ (尾高型といいます。)
端が ハシガ (平板型といいます。)
2007
January
25
2007
January
24
アクセントをつけるという言い方がありますが、例えば洋服にブローチをつけたりして一点を強調することをさしています。英語のアクセントはこの意味で1つの音を強調することを意味しています。
しかし日本語のアクセントは音の高さのレベルで、ある音を高く、ある音を低く発音することによって意味を区別しています。日本人が英語をしゃべるとアクセントを高さで表現してしまいます。私を含めて日本人が英語の発音がうまくない原因の一つかも知れません。
2007
January
23
2007
January
22
接尾辞は前にある自立語を補助している付属語のように考えられていますが、自立語+接尾辞でできる複合語は意味的にも音声的にも接尾辞が支配しています。例えば「説明書」、「案内書」、「請求書」・・のように「書」という接尾辞を持つ複合語はすべて意味は「書き物」でアクセントも同じです。このことは日本語だけではなく英語起源の外来語についてもいえます。
「スピードボート」、「セールボート」、「スチームボート」、「モーターボート」
2007
January
19
2007
January
18
ものの様子や音などを描写する言葉です。音を描写するものは擬音語といいます。好きな言葉なのですが、私にはなかなか使いこなせません。
使い方によっていくつか変化した形があります。
例えば「きら」で作られるものだけでも次のような形があります。
清音形 濁音形
きらっと ぎらっと 副詞として
きらりと ぎらりと
きらきらと ぎらぎらと 反復形
きらつく ぎらつく 動詞として
きらめく
きらきらだ ぎらぎらだ 形容動詞として
おおざっぱにいうと、濁音形は悪い意味に、清音形は良い意味になります。
形容動詞になる場合は、アクセントが異なり平板形になります。
欧米起源の外来語はすべて擬音語です。
2007
January
17
2007
January
16
興味深い記事があったときに、ほかにもっと類似した記事を検索しようとすることがあります。記事と記事との類似度を測ってなるべく似通った記事をさがします。その元になる用語同士の意味的な距離を測る必要があります。
距離をシソーラスの2つの用語間関係をもとに次のように定義しました。
表記の揺れ 0 インターフェースとインタフェース
同義語 1 犬とドッグ
広義語/狭義語 2 犬と秋田犬
反義語 2 強いと弱い
関連語 4 犬と犬小屋
共起語 1 犬をと飼う
実際には、用語同士の関係は連続的でどの関係にするかで距離が違ってきます。
例えば「明日」と「翌日」との関係を、関連語にするか同義語にするかで大幅に変わってしまいます。
3番目の用語との距離は2つの距離を加算しました。
犬 1 ドッグ
2 2
洋犬 和犬
2 2
シバイヌ アキタイヌ
「犬」と「シバイヌ」の距離は「犬」・「和犬」の距離2に「和犬」と「シバイヌ」の距離2を加算して4としました。
パスが複数あるときは最短のものにしました。
距離を測るときには多義語を区別する必要があります。次の例では、お稲荷さんという用語には2つの意味がありますので、区別しないと稲荷神社と稲荷ずしとの距離が1+1で2になってしまいますが、実際は無限大です。
距離
お稲荷さん - 稲荷神社 1
お稲荷さん - 稲荷ずし 1
稲荷神社 - 稲荷ずし ∞
2007
January
15
2007
January
12
予期していなかった記事を検索してしまう原因の1つに多義語があります。記事を書いた人と検索した人とで別の意味を考えているのが原因です。
英語は多義語が多いといわれますが、日本語も特に大和言葉には多義語が多くあります。ふだんあまり気づかずに使っていますが、外国語に翻訳するときには別の言葉になるのでしょう。
例えば「うめる」という動詞は
穴をうめる。
お風呂をうめる。
借金をうめる。
時間をうめる。
外来語も英語の影響で多義語があります。さらに日本語ではLの音をRの音で発音することによりいくつかの意味が同じ表記になってしまっています。
ライト (L) 光、照明、明るい、軽い
(R) 右、右翼手
権利(コピーライトというとき)
この他にライトには「 書く」という意味がありますが、日本語では使われていません。
2007
January
11
2007
January
10
大勢の人に見せるための文章を書くときには、いろいろ意見はあるようですが私は差別語を使わないように気をつけています。弊社のシソーラスでも、差別語を出力することがないように考慮してあります。差別語がキーとして指定されたときでも差別語でない通常の言葉だけを出力するようになっています。
意外な言葉が差別語として扱われていて「アル中」という言葉も差別語なのだそうです。ですから私を指していうときにも「アルコール依存症」と呼んでください。
2007
January
09
2007
January
05
意味が対立する語の関係です。否定文を扱うときなどに必要になります。日本語では婉曲的な言い方をするときに否定表現がよく使われます。例えば「憎からず思う」。
意味的に対立するので意味的な距離が遠く思われますが、関連語よりも近く、同義語とほぼ同じになります。近い対立の仕方にいくつかあります。
片方を否定すると対立する相手になる語の関係です。例えば「良くないこと」とは「悪いこと」になるような関係です。
善 ←→ 悪
ある中間的な点を中心にして逆の方向になる語の関係です。
上 ←(中)→ 下
一つの行為を対立する立場で捕らえた語の関係です。
売る ←→ 買う
さらに対立軸についても考える必要があります。「兄」に年齢で対立する語として「弟」があります。また性別で対立する語として「姉」があります。どちらも反義語になります。
兄 ←年齢的対立→ 弟
↑
性別的対立
↓
姉
2007
January
01
明けましておめでとうございます。
今年が皆様方にとって、すばらしい年でありますようにお祈りいたします。
今年もたいしたことは書けませんが、日本語処理のシステムに取り組んでいて思いついたことを書いていこうと思っています。
弊社は今年の正月は5日の日を休むと8日まで休めるので、9日よりスタートいたします。
昨年の正月にはお酒が2升なくなってしまいましたので、今年は休みも長いので3升用意しました。
今年もよろしくお願い申し上げます。
2006
December
29
「いいとしを」と言われるたびにその後に「してますね」と聞こえてしまう今日この頃です。
ブログを始めて一月ですが、来年もできるかぎり続けるつもりですので
よろしくお願いいたします。
それでは皆様よいお年をお迎えください。
2006
December
27
2006
December
26
同義語のうち発音も同じものを表記の揺れ(異表記語ともいう)と言います。日本が地震国のためとは思いませんが、日本語では標準とされている表記の他に複数の「表記の揺れ」が許されている語があります。個人により、機関によりいろいろな表記が氾濫しています。極端な場合には同じ著者が書いた記事でも表記法が違うことがあります。複数の機関の記事をもれなく検索しようとする場合には考えられる揺れをすべてキーにして検索しなければなりません。
漢字と仮名による表記の揺れ
犬、イヌ、いぬ
漢字表記の揺れ
沈殿、沈澱 「澱」の字が常用漢字でないので「殿」の字を代用した。
超電導 JIS
超伝導 学術用語
外来語を仮名書きするときの揺れ
インターフェース 新聞 1996年まではインタフェースでした。
インタフェース JIS
インターフェイス 学術用語
インタフェイス
古い記事を扱うときは異体字も問題になります。
國語、国語
送り仮名の違いによる表記の揺れ
行う、行なう
打ち合わせ、打ち合せ、打合わせ、打合せ、打合
(内閣告示の「送り仮名の付け方」の中にも複数の表記が許容されています。)
追伸:言語工学研究所では、同義語や表記の揺れを標準的な表記に置き換えるソフト 「お勧め語SEO」を販売しています。ご興味のあるかたはお問い合わせください。
2006
December
25
四国を旅行して脇町で「うだつの町並み」を見たあと池田までJRで移動したときのことです。時刻表を見ると次にくる特急よりも、先に出る各駅停車のほうが早くつくのが分かったので各駅停車で行くことにしました。その途中で悲劇が起こりました。
各駅停車は一両編成でトイレがありませんでした。どうしても我慢できなくて、やむをえず池田の一つ手前の「佃」という駅で降りて用をすませました。用を済ませてタクシーを探しましたがこんどは歩いている人さえ見当たりません。やっと床屋さんを見つけてタクシーを呼んでもらいましたが来るまでに40分ぐらいかかりました。待って乗れば良かった特急も停車駅ではないので通過してしまいました。年のせいとはいえさんざんなめに、あいました。
2006
December
22
シソーラスの中で重要な位置を占める同義語について述べてみます。
英語で1人称単数は″I ″だけですが、日本語には「私」「僕」「我」「小生」「我が輩」「手前」「愚生」と数十あり、話者と相手との関係で使い分けられています。日本語にはなぜ同じ意味の語、同義語がこんなに多いのか考えてみましょう。
外来語
日本語のなかに奈良時代には中国から、最近は主に米国から輸入されて日本語の中に入ってきている語があります。
大和言葉 漢 語 片仮名語 英 字
打ち合わせ 会議 ミーティング
しお 食塩 ソルト NaCl
読み出し専用メモリー ロム ROM
多少のニュアンスの違いはありますがすべて同義語といえます。このような組み合わせが日本語のなかにたくさんあり、これが同義語を増やしている大きな原因です。大和言葉は親しみやすさを、漢語は権威を、片仮名語は近代的な感じをあたえます。また最近は「計算機」が「コンピューター」から「パソコン」に、「写真機」が「カメラ」になるといったふうに、漢語が片仮名語に置き換わる傾向があります。わが国は工業製品では輸出超過だそうですが、用語の世界では大幅な輸入超過です。
省略形
「特別急行」→「特急」のようなものをいいますが、「マスコミ」は「マス・コミューニケーション」であったというように省略形の方が4拍の新しい語として定着してしまっているものがたくさんあります。省略の程度も地域によって異なります。関東よりも関西の方が積極的に省略するようです。
「弱冷房車」(JR東日本) = 「弱冷車」(JR西日本)
英語の単語の先頭の文字だけを集めた語(頭字語)もこの省略形に入れるべきでしょう。
「Read Only Memory」 ROM
通称
通称と正式名が両方使われています。
「首相」 = 「内閣総理大臣」
年号
わが国だけの問題ですが年号が2種類あります。さらに漢数字とアラビア数字が両方使われます。
「2006年」 = 「平成18年」 = 「平成十八年」
立場による語の違い
立場によって同じことを違った語で現す場合があります。例えば政府は「公的資金」といいますが、「税金」を払う人は「血税」といいます。検索する人は「税金」という語で引きます。
語の陳腐化
語は使い込んで身近なものになると同時に陳腐化して、新しい語ができてきます。古い語は使用方法が制限されるようになり、だんだんと消え去ります。特に人や人の職業を表す語は変化が激しいようです。例えば「お前」という語は元来相手を直接指しては失礼に当たるので、相手の前を指して間接的に相手を指す非常に丁寧な語だったのだそうです。同じように間接的に指す例として「閣下」、「殿下」などがあります。しかし長い間にすっかり陳腐化してしまって、「お前呼ばわりをする」という語があるように今日では上司に対して使うと問題になります。「女中」という語は「お手伝い」「ハウスキーパー」などという語に置き換えられて現在では差別語にまでなってしまいました。
また毎回同じ言い回しばかりだと物足りなくなって、新しい言い回しをしたくなります。
「ヒットを打つ」 = 「バットが火を吹く」
「日本全国」 = 「北海道から沖縄まで」
慣用句
日本語の意味空間では、慣用句が大きな位置を占めています。慣用句についても考慮する必要があります。
「額に汗する」 = 「働く」
「水をあける」 = 「引き離す」
(「水をあける」には「水」の意味はまったくありません)
2006
December
21
2006
December
20
シソーラスは用途によって分類できます。
用語統制用シソーラス
記事を書くときに用語を標準化する。
例:新聞社、JST、医学中央雑誌
ロジェ型シソーラス
文章を推敲するときにより適切な言葉を探す。
例:分類語彙表
自然言語処理用シソーラス
すでに書かれている記事をコンピューターで扱うとき。
検索、意味の分野まで立ち入った言語処理。表記の揺れなどもすべて扱う。
例:言語工学研究所シソーラス
2006
December
19
2006
December
18
「シソーラスって御社の商品名ですか」という質問をときどき受けますので少し書いてみます。細かいことは弊社のホームページに書いてありますので、そちらを参照してください。
シソーラスとは辞書の一種です。普通の辞書はアイウエオ順、アルファベット順、画数順などで整理してありますがシソーラスは意味で整理した辞書です。聞くところによりますとインドでは数千年前からあったそうです。「同義語」、「広義語(上位語)」、「狭義語(下位語)」、「類義語」などの意味的な関係をたどりながら引きます。ものを書いているときや、検索をするときにより適切な言葉を探すときに使います。また意味の世界まで立ち入った自然言語解析をするためには必須のツールです。
古い版ですがこのブログから試用できるようになっています。使ってみてください。
2006
December
15
大分前の話になりますが、家族で海水浴にいったことがあります。夕方、宿に帰ったら、頭皮が痛いのです。何か付いているのかと思い2回もシャンプーをしましたが、痛みが取れません。女房に見てもらったら、「あなた日焼けよ」といわれました。
2006
December
14
5段動詞のエ段の活用形が普通可能の意味を持ちます。例えば「動く」→「動ける」。
可能形が(下)1段動詞の自動詞になる動詞があります。
5段動詞 1段動詞
砕く 砕ける
裂く 裂ける
解く 解ける
切る 切れる
割る 割れる
このような動詞はどういうわけか、ほとんど分散するような意味を持っています。ここに上げた以外にもいくつかあります。探して見てください。またもしかすると文語文法で何か理由があるのかも知れません。ご存知の方は教えてください。
2006
December
13
2006
December
12
構文解析の試用サイトをオープンしました。
http://www.gengokk.co.jp/koubun/
使ってみてください。
手前みそになりますが、作った側からの特徴を述べさせていただきます。
1.無意味な係り受けをださないように、構文構造がまとめた形になっています。
「解析について問題はなかったということです。」という文を解析してみると次のようになります。
解析について─┐ | 解析に─┐
問題は─┐ | ついて─┐
なかったということです。 | 問題は─┐
| なかったと─┐
| いう─┐
| ことです。
右側はこれまでの構文解析のもので、
係り 受け
解析に ついて
ついて 問題は
のように無意味な係り受けを出していました。
これを実現するために次のような項目数の辞書を用意しています。
自立語辞書(赤で書いた部分) 220,000語
付属語(
論文といっても技術資料なのですが自然言語処理という雑誌の今月号に載っています。
「複数の観点で分類した自然言語処理用シソーラス」Vol.17 No.1 P247
ホームページから読めますので、ぜひ読んでみてください。
これまで「かく」ものといえば「恥」で、「買う」ものといえば「顰蹙」ぐらいだったのですが
おだてられて書いてしまいました。