2010 / 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
16 17 18 19 20 21 22 23 24 25 26 27 28
20年間の経験と実績を誇る日本語処理システムのパイオニア
言語工学研究所 国分芳宏

2010

February

04

日記:: おだてられて学会誌に書きました。
コメント 0 / 0

論文といっても技術資料なのですが自然言語処理という雑誌の今月号に載っています。

「複数の観点で分類した自然言語処理用シソーラス」Vol.17 No.1 P247

ホームページから読めますので、ぜひ読んでみてください。

これまで「かく」ものといえば「恥」で、「買う」ものといえば「顰蹙」ぐらいだったのですが

おだてられて書いてしまいました。




2010

January

26

日記:: ている
コメント 0 / 0

前にも書いたかも知れませんが「ている」という付属語の並びは前に来る動詞の性質によって意味が変わります。

「切れている」    過去の結果の状態

「見ている」      現在進行

先日、友人に「奥さんは、いつも何しているんですか」ときかれました。

すぐに私は「太っています」と答えました。




2009

December

28

日記:: 腰痛
コメント 0 / 0
 暮れの会社の大掃除で本箱を移動させようと押しました。まったく動かなければあきらめたのですが、何とか動いたもので全力で押しました。20センチ程度動かしたのですが、そのあと腰が痛くなってしましまいえらい目にあいました。そのあと風邪をひいてしまい、さんざんな年末になりました。自宅の大掃除は逃げられましたけれど。



2009

December

21

日記:: 忘年会シーズンが終わりました。
コメント 0 / 0
今年もやっと忘年会シーズンが終わりました。やはり一番恐れていたことがおこりました。そう、体重が戻ってしまいました。年の瀬が心配です。



2009

December

08

日記:: ステレオと3D
コメント 0 / 0
ステレオという言葉は音響装置の代名詞になっています。ところがこれは聞く人のいる平面だけをサポートしているので、プレーンと言った方がよいのではないでしょうか。そして今3Dと言っている立体画像投影装置の方を「ステレオ」と呼ぶべきだと思います。



2009

November

18

日記:: 俳諧
コメント 0 / 0

 いい天気なので事務所の近くの後楽園に行ってきました。普通の人は入園料は300円なのですが65歳以上は150円です。紅葉はまだ少し早いようでした。日照りが暖かいためか、人出はかなりありました。でも見回すと私を含めて150円の人ばかりでした。




2009

November

02

日記:: インフルエンザ
コメント 0 / 0
今朝の天気予報で今日は寒くなると言っていました。私はこれまでインフルエンザのような現代的な病気にはかかったことはないので、だいじょうぶだと思っています。それに毎日アルコールで消毒していますから。しかし、今風邪を引くと新型インフルエンザと疑われて、騒ぎが大きくなりそうなので用心のためにコートを着てきました。しかしさすがにまだコートを着ている老人は見かけませんでした。



2009

October

25

日記:: 5日間禁酒をしました。
コメント 0 / 0
目の手術で入院したためです。入院中はどこが痛いというわけではなく、お酒が飲めなかったことだけを除いて快適でした。看護婦さんとも話はできるし。
体重が増えていました。ということは私の体重が増えるのはお酒のせいではないことが証明されました。



2009

October

01

日記:: シソーラスと検索
コメント 0 / 0

シソーラスの一番身近な利用法に検索のときに適切な検索キーワードを見つけることがあります。よく言うのですが、料理の記事には「料理」という用語は使われていません。「下ごしらえ」「和える」「みじん切り」のようなもっと狭義の用語で検索する必要があります。このような狭義の用語は数が多くて検索しているときになかなか思い出せません。そのようなときにシソーラスを使います。

シソーラスを組み込んだ全文検索を出荷しています。ホームページに掲載してありますので、一度ご検討ください。




2009

September

24

日記:: 付き添い
コメント 0 / 0

歩くのが目的で連休に都立の庭園を3か所も回ってきました。どこも丁度彼岸花が満開でした。老人週間ということで、都立の庭園は老人とその付き添いは無料でした。女房はまだ有料なのですが、私の付き添いということにしてすべて無料でした。(老老付き添い)




2009

September

17

日記:: ダイエット
コメント 0 / 0

医者にメタボと言われてやむを得ず減量をしました。
お陰で、体が軽くなって血圧まで下がりました。
また、昔着ていた背広が着られるようになりました。
最近ある会での写真を送ってもらったのですが、
久しぶりで自分の顔写真を見たらだいぶしなびていました。

メタボには変わりませんが。




2009

September

12

日記:: ペコピ 複数のアンケートの類似性を調べます
コメント 0 / 0

優遇措置のあるアンケートに、同一人が出したと思われる類似した回答が何件も来ることがあります。
その結果、市場調査が偏ってしまうことがあります。
また、学校の複数の生徒がコピペで同じようなレポートを提出するという話をよく聞きます。
形態素解析して、複数のアンケートに共通の文節の数を数えて類似度を測るシステムです。

一致率を表示します。完全に一致するときは100パーセント
利用者が設定した閾値以上の組み合わせを出力します。

ホムページから無料でダウンロードできます。500件まで




2009

September

11

日記:: 係り受けと付属語連糸(2)
コメント 0 / 0

「依頼」の意図を持つ「付属語連糸」だけでも、丁寧さの違いなのでいくつかの言い方があります。

 

 飲んでほしい

  飲んでください

  飲んでくださいませんか

  飲んでくれ

  飲んでくれないか

  飲んでくれないです

  飲んでくれない

  飲んでくれませんか

  飲んでくれませんですか

  飲んでちょうだい

 

ここにあげたものは主なものだけで、これ以外にもいくつもの書き方があります。




2009

September

06

日記:: 来客
コメント 0 / 0

 来社するお客はほとんど夕方です。手帳を見ると夕方だけがスケジュールが入っています。

 当然、最初からビールということになります。何回も来社してくれている人でお茶を飲んだことがない人がずいぶんいると思います。




2009

September

02

日記:: 係り受けと付属語連糸
コメント 0 / 0

我々の解析システムでは「係り受け」と「付属語連糸」とに分けて管理しています。

係り受けには「係り」、と「受け」の組み合わせで、「受け」の自立語の語幹までが収納してあります。それから後に続く付属語の連糸をまとめて収納してあります。「係り受け」の一番の機能は多義語の弁別です。例えば「高い」というよく使う形容詞でも次の二つの場合では異なった意味に使われています。反義語も異なります。

            反義語

 背が  高い    低い

 値段が 高い    安い

もう一つの機能は単語だけでは決められない「良しあし」を決定することです。「寿命」「長い」「短い」単独では良しあしの意味を持っていませんが、組み合わさると「良しあし」の意味が出てきます。

 寿命が   長い   (良い)

 寿命が   短い   (悪い)

次に付属語の連糸は「係り受け」に対して書き手の意図を与えます。また人称が推察できます。

   意図     人称     例

  願望    1人称   飲みたい

  意志    1人称   飲もう

  許可要求  1人称   飲んでかまいませんか

  依頼    2人称   飲んでください

  勧誘    2人称   飲みますか

  禁止    2人称   飲んではなりません

  確認    2人称   飲んだね

  伝聞    3人称   飲むそうだ

  疑問          飲めますか

  義務          飲むべきです

  譲歩          飲んでもかまいません

  推量          飲むだろう

 

用語はシソーラスで同義語などを拡張します。

意図の種類は、解析プログラムの適用分野によって、今後追加していきます。

良しあしは、付属語連糸が否定のときには逆になります。

実際には、「係り受け」と「付属語連糸」はここで述べたように独立して決められるものではなく、お互いに干渉する場合もあります。現在干渉する場合の規則を整理しています。

 

参考 益岡隆志 日本語文法の諸相 第7章 命題とモダリティの境界を求めて くろしお出版




2009

August

20

日記:: シソーラスのVer7を出荷しました。
コメント 0 / 0

 久しぶりでシソーラスを更新しました。42万語になりました。

20回までは無料で使えます。試用してみてください。

(これまでに20回使い切った方もまた使えるようにしました。)

 




2009

August

16

日記:: ジーパン
コメント 0 / 0
 この年をして初めてジーパンを買いました。お腹の出っ張ったところより下の方に合わせるので思ったより小さなサイズでした。若い人は新品のままはいて外にでかけるのは恥ずかしいのだそうですが、私場合は、着古したように加工したものはやめました。あまりに惨めに見えそうなので。



2009

August

09

日記:: 大好物
コメント 0 / 0

 先日ホテルに泊まったら、フロントで抽選があり、大好物の缶ビールが当たりました。その晩は飲みに行く約束があったので、冷蔵庫に入れておきました。翌朝、持って歩くのも荷物になるので、朝食は大好物で済ませました。

 




2009

August

08

日記:: エコノミー症候群
コメント 0 / 0
 新幹線に3時間乗った。2時間以上座っているのでエコノミー症候群が心配になるところである。私の場合はトイレが近く、2時間は持たないので心配はまったくない 。



2009

July

17

日記:: 銀河鉄道
コメント 0 / 0

JR飯田橋の水道橋駅よりのホームには到着電車の行き先案内がありません。待っていると「中央・総武線」行きの電車が入ってきます。

乗ると、車内の電光掲示板も次の停車駅は表示するのですが、電車の行き先は表示しません。社内アナウンスも次の停車駅と乗り換え案内しかしません。私はいつも船橋で降りてしまうのですが、その後きっと宇宙のはてまで行くのではないでしょうか。

と言うのは少し意地の悪い話ですが、電光掲示板に電車の行き先ぐらいは表示するようにできないのでしょうか。出来ないというのであれば、車内アナウンスででも知らせてほしい。そんなに難しい話ではないと思うのですが。

どなたか清野智さんに知らせてください。

 




2009

July

15

日記:: また暑くなりました。
コメント 0 / 0

暑くなりました。

今日は外出から事務所に帰って来てから、短パンと下着で仕事をしていました。快適でした。

羞恥心はとっくにどこかにいってしまっているので。

もう少しするとパンツいっちょで仕事をするのではないかと思います。仕事ははかどります。そのうちみんなに蹴飛ばされるのではないかと心配です。

 

 

 

 

 

 

 




2009

June

13

日記:: 質量保存則
コメント 0 / 0
帰宅してシャワーを浴びて体重を量りました。いつも通り晩酌して、食事をしました。寝る前にもう一度体重を量って見たら、さっきより1.5キロ増えていました。晩酌、食事の重さが1.5キロあったということでずいぶんあるものです。ダイエットをしている人が月に1キロ減らしたという話をきいたことがありますが、私の場合は晩酌を水割りでなくストレートしすれば1キロぐらいはすぐ減りそうです。



2009

June

04

日記:: ウオッカ
コメント 0 / 0

競馬で「ウオッカ」という牝馬が活躍しているようです。

私の好きなお酒の方はどの辞書を見ても「ウオツカ」です。

ロシア語では「водка」で、翻字すると「wodka」で、「ウオッカ」のほうが良いと思います。テレビのロシア語講座でも「ウオッカ」といっていました。昔偉い人が「ウオツカ」と決めてしまって、その後だれも直そうとする人がいなかったのだと思います。NHKのアクセント辞典を見ても「ウオツカ」になっています。今度アナウンサーがどういっているか気をつけて聞いてみようと思います。このままでは飲んでも、のどに引っかかりそうです。

 




2009

May

11

日記:: インフルエンザ
コメント 0 / 0

豚インフルエンザが日本にも上陸したようです。

豚インフルエンザという名前の時は私もうつるのではないかと思っていたのですが最近は「新型インフルエンザ」とう名前に変わりました。私のような年寄りには関係のない病気に思えてきました。




2009

May

07

日記:: 見留める
コメント 0 / 0

発車を見合わせています。

実施を見送ります。

費用を見積もります。

などのように、「見」という漢字を使いながら「見る」という意味が全くといっていいほどなくなってしまっている言葉があります。私の暴論かも知れませんが、もともとは「見留める」という言葉の組み合わせであったのが「認める」という漢字があったためにこの漢字が当てられたのではないかとつまらないことを考えています。

 

 




2009

April

17

日記:: ミシュランの三つ星でお酒を飲む
コメント 0 / 0

先日1日会社を休んで高尾山に山登りをしてきました。八千代台を始発電車で出発して、10時には頂上についてしまいました。ゆっくりと降りてきても麓についたのは12時前でした。朝から何も食べていなかったのでソバをたべました。やはりソバだけというわけに行かずちょっとお酒を飲んでしまいました。いい気持ちになって帰りの電車はぐっすり寝て新宿までつきました。真っ昼間から赤い顔をして寝ている老人を見た人は、ホームレスだと思ったでしょう。

ご存じのように高尾山はミシュランの三つ星です。




2009

April

04

日記:: 同義語
コメント 0 / 0

エベレストとチョモランマ(中国名)とは同義語である。このように立場の違いで同じ固有名詞に複数の名前がついていることがある。

話は違うが最近テレビで「はるな愛」とう美人が活躍している。

この「はるな愛」は「大西賢示」と同義語である。さらに広義語を探すと「実業家」「お笑いタレント」「歌手」「女優?」ということになっている。




2009

April

02

日記:: 多義語と反義語
コメント 0 / 0

 日本語なかでも大和言葉にはふだんあまり気がつかないのですが多義語がかなりの数あります。たとえば「高い」という言葉には位置をさす場合と、値段をさす場合の2つの意味があります。それぞれの意味で反義語が異なります。

多義語              反義語

高い      位置      低い

高い      値段      安い




2009

March

27

日記:: 風邪を引いてしまいました。
コメント 0 / 0
今年は引かずにすんでいたのですが、とうとう引いてしまいました。確かこの前引いたのは藤原紀香が結婚したときだったと思います。離婚したらまた私が風邪をひいてしまいました。



2009

March

20

日記:: 古きよき国分芳宏
コメント 0 / 0

「世界のナベサダ」だとか「世界のナベアツ」だとか名前のまえに枕言葉を付けている人がいます。私も何か付けようと思ったのですが、「世界の」をつけるほど有名ではありません。そこで「古きよき」というのを付けようと思います。これから自己紹介の時に付けるつもりです。皆さんも私を呼ぶときに付けてください。




2009

March

13

日記:: 不携帯電話
コメント 0 / 0

携帯電話を持たされてからもう10年近くになりますが、いまだによく家に置き忘れます。持ち歩いていてもリュクサックの中に入れっぱなしで、誰かが掛けてきてもほとんど出ません。たまに私がかけようとしても電池が切れています。そんなわけで誰もかけてこなくなってしまいました。若い人がメールで頻繁に使っているのを見るのですが、私は目が遠いのでもしメールを読むにしても老眼鏡を取り出してで大変です。

ほんとに年寄りの無駄遣いです。




2009

March

04

日記:: レッグウオーマー(2)
コメント 0 / 0
このところまた寒くなったのでレッグウオーマーを引っ張り出してはいています。はいてみると、ほっとするような暖かさです。考えてみれば今年は風邪を引きませんでした。きっとそのお陰だと思っています。不謹慎とおこらfれそうですが、早く地球が温暖化してほしいと思っています。



2009

February

22

日記:: マイナス指向
コメント 0 / 0

また年寄りの愚痴になりますが、現状維持の気持ちが強くなり、マイナス指向になりがちです。

ただ、日本語の地所を検査するときには、語末順にソートして処理すると同じ品詞の言葉が揃い、効率がいいです。

例えば、案内書、請求書、稟議書・・・すべて書物です。

アクセントも後ろからマイナスで数えた方が同じものが揃ってチェックが簡単です。

ここだけはマイナス指向がいいようです。

 




2009

February

10

日記:: 色仕掛け
コメント 0 / 0

ユーザーに注意を促すときなどには色を付けてだすと親切です。
 我々のシソーラスパケージも、差別語などは赤で、常用漢字以外が含まれているので注意を促す用語はピンクで表示しています。
 本当はピンクよりも信号と同じに黄色にしたかったのですが、画面上で文字が見えませんでした。

 そういえば、昔「ピンク」は「桃色」と言っていましたが、最近はほとんど見なくなりました。
 また「ネズミ色」「ミカン色」などというのもほとんど見ません。
 色の名前はもともとは「赤」「黒」「青」「白」の4つしかなかったそうで、それ以外の色の名前は具体的な物の色で表現していたようです。
 色の名前もカタカナ語ばかりになってしまって、私にはよく分かりません、
 今日の私の服装は「ねずみ色」の上着に「ごきぶり色」ズボンです。




2009

January

08

日記:: 変身
コメント 0 / 0

毎朝、船橋から飯田橋まで総武線で通っています。今朝、前の席に若いいかにも千葉県という女性が座りました。座るとすぐお化粧を始めました。年寄りが来たら席を譲り、しゃがんで化粧を続けていました。私もいつも通り、ずうっと書き物をしていました。

秋葉原で、前の席の女性が私の座っている前を通って降りていきました。その顔を見てびっくりしました。船橋で見たときとは別人のような東京美人になっていました。

 




2008

December

30

日記:: よい年をお迎えください。
コメント 0 / 0

 今年も何回忘年会をやったことか。あまり多かったので年をとるのも忘れてしまいそうです。

 また来週から新年会が始まります。




2008

December

18

日記:: 返信
コメント 0 / 0
また年寄りのぼやきになりますが、先日先輩に出したメールの返信がなかなか来ませんでした。つい悪い方に考えが行ってしまって、ぽっくり逝ったかと思ってしまいました。年寄りは返信をすぐに出すようにしようと思いました。



2008

December

16

日記:: レッグウオーマー
コメント 0 / 0
寒いです。よく女子高生がはいているレッグウオーマーを見つけてはいています。足から冷えていたようではいた結果は快調です。色も老人向けの茶色や黒です。ご同輩の皆様にもお勧めします。



2008

December

15

日記:: 単形式
コメント 0 / 0

 零細企業で辞書を作ってきたためか、辞書を小さくするために複合語をそれぞれの要素で管理しています。たとえば「言語工学研究所」は「言語」「工学」「研究所」と3つの要素に分けで辞書に登録しています。

最近用語に「善しあし」をつけています。そうすると、たとえば「派遣」「切り」という言葉は、単独ではあまり「良しあし」の意味は持っていませんが、「派遣切り」という複合語になると、悪い意味があります。複合語は意味的にも狭くなるためか、「良しあし」の意味がはっきりしてくるものがあります。

 




2008

November

19

日記:: 四字略語
コメント 0 / 0
オグシオが解散するそうです。残念。我が社の辞書からもそのうち「オグシオ」を削除しなければならないでしょう。「だっちゅうの」と言うのがはやったことがありましたがごく一時期だったのではやらなくなったらすぐ削除してしまいました。しかし「オグシオ」の場合は過去の記事を検査するひとがいそうなのでしばらく消せません。いつ消すかが問題です。



2008

November

05

日記:: 自然文検索
コメント 0 / 0

1.自然な言い回しで検索できます。

2.ノイズが少なく、検索漏れも少なくなります。

ネット上の記事が現在のペースで増えていくとキーワード検索では、早晩限界がくるでしょう。

 

仕組み

原文章をすべて構文解析して、係り受け(単語とその直接関係する単語との組み合わせ)をデータベースにしておきます。検索文も同様に係り受けにして検索します。このためキーワードだけで検索する方式に比べてノイズが大幅に減ります。またシソーラスを用いて用語の標準化、係り受け関係の正規化をするので、検索漏れも減ります。

よく起こる問題を簡単な例を使って説明します。

 

原文章(データベース)

紫色の部分をデータベース化します。

 

    「田中さんがおいしそうに食べたりんごは青かった」

 

  構文解析、用語標準化、正規化

 

 「田中さん,が,食べ,た」

 「おいしそう,に,食べ,た」

 「食べ,,りんご,は」 → 「リンゴ,を,食べ,た」  係り受けを正規化

 「りんご,,,かった」→  リンゴ,が,青,かった」 用語の標準化

 

    「佐藤さんは青いお皿のうえの赤い林檎を食べました」

 

  構文解析、用語標準化、正規化

 

 「佐藤さん,は,食べ,ました」

 「青,い,お皿,」         → 「お皿,が,青,い」    係り受けを正規化

 「お皿,のうえの,林檎,を」 お皿,のうえの,リンゴ,を」用語の標準化

 「赤,,林檎,を」       リンゴ,, ,い」    用語の標準化

 「林檎,,食べ,ました」   リンゴ,,食べ,ました」 用語の標準化

 

検索文

 検索文も構文解析して係り受けにして、係り受けで検索します。

 このときも正規化、用語の標準化をします。紫色の部分を検索キーにします。

 

「青い林檎を食べた」

 

  構文解析、用語標準化、正規化

 

「青,,林檎」    → 「リンゴ,が,青,い」  係り受けを正規化します。

 「林檎,,食べ,た」  → 「リンゴ,を,食べ,た」 用語を標準化します。

 

 このようにして①の文だけが検索されます。

 

 これまでのシステムでは「青い」「林檎」「食べ」という3つの単語で検索することになるので、②の文を取り出してしまいます。

 




2008

October

27

日記:: 千葉ポートタワー
コメント 0 / 0
 健康のためになるべく歩くようにしています。昨日も千葉にあるポートタワーに行ってきました。千葉県在住の60歳以上の人は入場料(400円)がただでした。ポートタワーの上から見るとすぐ下の広場で農業際をやっていました。ひまなので寄ってみました。出店が出ていて生ビールが400円でした。さっき浮いたお金でビールが飲めました。



2008

October

25

日記:: 係り受け
コメント 0 / 0

望遠鏡・で(係り)   見る(受け)  のように係り受けになる組み合わせを収集しています。名詞と動詞があればすべて係り受けになるというわけではありません。慣用句として慣用句辞典に載っている組み合わせもありますが、それ以外にいろいろな組み合わせがあって苦労しております。単語だけでは持っていない性質が係り受けになると出てきます。例えば「カメラを回す」という係り受けは、カメラを振り回すわけではなく、撮影するという意味でつかいます。このような係り受けは辞書もなく、テレビなどで出て来るのを忘れないように書き留めておきて収集するしか方法がありません。さらに「肩の荷がおりた」のように3つの単語でできるものもあります。

構文解析を正確にする、オントリジーを生成するなどが目的です。近い将来コーパスをもとに、構文解析をした結果から取り出そうと思っています。




2008

October

07

日記:: タイ料理
コメント 0 / 0

お昼に事務所の近くのタイ料理店でカレーライスを食べました。グリーンとレッドのとがありました。どちらが辛いかと聞いたらレッドの方が辛いと言われたので、グリーンの方を頼みました。食べてみたら私には耐えられない辛さでお腹の中まで熱くなってきました。やむを得ずビールを1本飲んでお腹を冷やしました。明日も行こう。




2008

October

06

日記:: 散歩
コメント 0 / 0

フランスの小話に「男性が歩くことをウォーキングといい、女性が歩くことをショッピングという」というのがあります。

私はさらに加えて「年寄りが歩くことを徘徊という」という句を加えました。

昨日の朝、私が出かけようとすると女房が「どこへ行くの」と聞いてきたので「徘徊」と答えました。




2008

October

03

日記:: 自然語検索
コメント 0 / 0

 検索される記事と検索文を前もって構文解析して用語と直接関係のある用語との組み合わせにして検索するシステムです。用語の標準化、係り受け関係の正規化もします。
  青い林檎 → リンゴ,が,青,い
 係り受けを出力する構文解析をホームページから試用できます。

 これまでの方法

 質問文をそのまま検索キーにして全文検索する方式は、ちょっとした言い回しの違いが検索漏れの原因になってしまいます。
 キーワードによる検索は、不必要な記事を検索してしまうことが多く本当に必要な記事を探すためにひとつひとつを手作業で調べて見るのが大変でした。現在のペースで記事が増えていくと早晩限界がくるでしょう。




2008

October

02

日記:: 人間ドックに行ってきました
コメント 0 / 0

女房に冥土へのみやげ話に直腸検査をしてくるようにといわれて、検査を受けてきました。痛みは全くなかったのですが、長時間いやな思いをさせられました。今私のまわりの人に検査を受けるように勧めています。

やはりメタボと言われました。




2008

September

18

日記:: 一点豪華主義
コメント 0 / 0

 体重は増えてはいないのですが、去年はいていたズボンがきつくなってきました。どうも手足の筋肉が落ちた分だけ一カ所に集まってしまったようです。一点豪華主義です。




2008

September

12

日記:: 狭義語
コメント 0 / 0

用語と用語との関係に、狭義語←→広義語という関係があります。我々のシソーラスでは、同じ属性のものだけにしています。属性の異なるものは、関連語としています。

例 ドア  非常ドア  狭義語

  ドア  ドアノブ   関連語

  「ドアを開ける」 「非常ドアを開ける」と」いう言い方は成り立ちますが「ドアノブを開ける」という言い回しは許されません。

 つまり広義語で成り立つ言い方は狭義語でも成り立ちます。

 

 同じ観点でも関係が違うことがあります。

 東京|部分   新宿区            狭義語

 自動車|部分  ヘッドライト          関連語   

 

 

 

 

 




2008

September

05

日記:: 大阪で
コメント 0 / 0

悪のりついでに今度は大阪へシソーラスの話をしに行ってきました。聞いていただいた方には大学の先生もおおぜいおいでになりました。でも私には皆様方に負けないことが一つだけあります。それは年齢です。皆様にが年寄りをいたわっていただき楽しい会合がもてました。普段考えていることとまったくことなり、大変勉強になりました。感謝しております。

 




2008

September

01

日記:: 韓国旅行
コメント 0 / 0

おだてられて、韓国へ講演に行ってきました。

韓国側の先生方のお世話で非常に楽しい旅行で、いい冥土の土産ができました。

感謝しています。

4日間お腹いっぱい食べたのですが、体重が2キロもやせていました。

よく歩いたこと。野菜が多かったこと。辛いものなのでゆっくり食べたなどが原因だと考えられます。

帰ってきたら2日で元に戻ってしまいました。

 




2008

August

05

日記:: 雨が土砂降りです。
コメント 0 / 0

帰ろうと思ったら外は雨が土砂降りです。やむを得ず雨がやむまで事務所で待つことにしました。雷がなって、なかなか止みません。ビールを何本飲むことになるやら。

 




2008

July

31

日記:: 常用漢字
コメント 0 / 0

 新聞によると、常用漢字が増えるそうです。それでなくても読めない漢字があるのに頭の痛い問題です。見ていたら「唄」という字が常用漢字になるそうです。この字はカラオケにでも行かないと見ない字ですが「歌」という字で代用はできないのでしょうか。おそらくこの字を推薦なさった方は、カラオケによく行ってる方でしょう。

「風光明美」で落ち着いたと思っていたのですがまた「風光明媚」にもどるのでしょうか。

「鬱」という字まで常用漢字になるそうで、漢字に弱い私にはゆうつです。

 

 




2008

July

21

日記:: リュックサック
コメント 0 / 0

 毎日リュックサックで通勤していますが、この間旅行をしたときに、リュックサックを前に抱えるようにして歩きました。

 歩くたびにお腹の上でゆれるのですが、腰痛に良い歩き方です。あまり都心では見かけないのですが腰痛のかたにお薦めします。頭に日焼け予防の帽子をかぶり、目の疲労防止のサングラスをかけ、短い足でゆっくりあるいている人をみたら、それは私かもしれません。石をぶつけたりしないでください。




2008

July

05

日記:: ペーパーレス
コメント 0 / 0
久しぶりで仕事に使っているパソコンを更新して、ディスプレーもWUXGAという規格の大きなものに置き換えました。
複数の作業の場面を同時に表示しておけるのでメモをとる紙がいらなくなりました。思ったより快調です。
うまくするとわが社はペーパーレスになるかも知れません。トイレを除いて。



2008

June

25

日記:: 異体字(3)
コメント 1 / 0
まだワープロが普及する前には、異体字がいろいろと許されていました。
あるえらい先生のお書きになった原稿の校正に付き合ったときに、赤字の入った版下に「撃」の字を凵(箱構え)に車という字に修正するようにという指示が入っていました。
出版社では、先生の指示通りの文字を探してきて印字していました。
これは「撃」の旧字体は左上の「車」の部分がこの「凵」に「車」だったのだそうです。この部分だけを取り出して簡略化した字のようでした。
幸い最近はこのような文字はなくなっています。ワープロ入力は文字の標準化にも貢献しきました。
このような簡略化は他にもあって「箇」の字の左上の部分を取り出して「ヶ」という字にした例などがあります。
どうしたわけかJISでは、この字は片仮名の最後に入っています。



2008

June

23

日記:: アヤメ見物。
コメント 0 / 0

 佐原の水生植物園にアヤメを見に行ってきました。ちょうど満開でした。

 交通の便が悪く1時間に1本も便がありませんでした。
 また運悪く乗り換えのたびに1時間近くも待たされるはめになりました。1時間ボーっとしていると、どうしてもカンビール1本ということになってしまいます。
 家にたどり着くまでに何本飲んだことやら。
 みんな交通の便の悪さが原因です。




2008

June

22

日記:: 異体字(2)
コメント 1 / 0
古い詩を見ていたら「ゝ」の字を見つけました。この字は最近は「いすゞ自動車」のときだけにしか見ません。
昔は書くときに少しでも楽がしたくて、このような文字を使ったのでしょうが、ワープロでは入力しにくい字です。
「いすゞ自動車」の社員の方は入力するのが大変でしょう。



2008

June

08

日記:: 甚兵衛渡し
コメント 0 / 0
だいぶ前の話ですが、減量のため一日、100キロメートルのサイクリングをしていました。
朝早く八千代台から東京湾まで出て、その後印旛沼のほとりを通って利根川まで行って帰って来るという順路でした。
川沿いの道なので高低はなく快適なコースでした。
月に一度ていどやっていたのですが、あるとき途中の甚兵衛渡しのそばにあるウナギの養殖場を見つけました。
ウナギを食べると当然ビールを飲むことになります。しかし飲んだ後自転車で八千代台まで帰るのが大変でした。
2度ばかり繰り返したのですが、これが原因で中断してしまいました。
どうしても寄らずに通り抜けることができないので、そのままになっています。



2008

May

11

日記:: 別腹
コメント 0 / 0
年よりは、朝早いのには強く、5時に起きて那珂湊の魚市場まで魚を食べに行ってきました。
その日の一番最初の客で、お刺身を2人前と、カニ汁を取ってゆっくり食べて来ました。
せっかく来たのだし、もう少し食べようかと思ったのですが、満腹感はないのですがもう魚は受け付けませんでした。
そこで店もすいているので、朝からお酒と言うわけにもいかないのでビールを飲んできました。
不思議なことに別腹というのでしょうかビールなら入りました。



2008

May

05

日記:: 意図(2)
コメント 0 / 0
意図としては次のようなものを組み込んでいます。
良しあし、否定、要望、希望、勧誘、義務、確認、単純疑問、疑問詞疑問
しかし、実際には文脈を見ないと決められないことがいろいろあります。
一部はイントネーションが分かれば決定できるのですが、文字の世界ではどうしようもありません。
簡単例で、「見て」という普通の文節もイントネーションを上げて「見て」というと要望になります。



2008

April

18

日記:: 表彰されました。
コメント 0 / 0

 大学のクラブで表彰されました。私でも表彰されることがあるのです。お酒が飲めるクラブなのですが、一番出席率が良かったのだそうです。場所が事務所から近いこともあって、週2回は行っています。私が事務所にいないと、クラブのほうに電話をかけてくる人がいました。商品にすばらしいサングラスをもらいました。

 




2008

April

06

日記:: 意図
コメント 0 / 0

 ブログや口コミサイトなど、多量のコーパス(例文)が手に入るようになってきました。構文解析が実用化されて、自然言語検索ができるようになってきましたが、ただ係り受けを出力するだけでなくもう少し本当に欲しい記事が手軽に提供できるようにするための手法を考える必要があります。

 その一つがこれまで述べてきた良しあしを評価して記事を分類する方法です。

 もう一つは、例えば勧誘であるとか、依頼であるとか、実際に書いた人がどのような意図で書いたかを調べてその意図で整理する方法です。いま、我々はこの意図で検出するシステムを開発していますが、どのような意図が必要なのかユーザーを相談しながら決めていく必要があります。




2008

March

24

日記:: プチ断食
コメント 0 / 0

女房が旅行に行ったので、食っちゃ寝をしていたら、体調を崩してしまいました。

やむを得ず2日ばかりプチ断食をしたら、すぐに体調は戻りました。

断食といっても、水と果物とお酒は断ちませんでしたが。




2008

March

17

日記:: 評価(3)
コメント 0 / 0

 慣用句よりも関係の遠い2つの用語の共起(コロケーション)について調べています。

  「寿命が 延びる」(良い)

  「納入が 延びる」(悪い)

 これらの用語は単独では良しあしはありませんが、共起することによって良しあしの性質を持つようになります。

 この組み合わせは相当な数になりそうです。




2008

March

08

日記:: 小浜・オバマ
コメント 2 / 0

 小浜市がオバマ大統領候補を応援するというニュースをみました。

 小浜    オバマ

 オバマ   バマ

 この二つは、上記のようにアクセントを、変えています。

 まず、よく使う言葉のアクセント(小浜)は平板になります。後でオバマ大統領候補の名前を知ったときに意味を区別するために、無意識のうちにアクセントを変えて頭高にしているようです。

 




2008

February

26

日記:: 花粉症(2)
コメント 0 / 0

花粉症になったつもりでいましたが、今日はなんともありません。

花粉症でしょうと言われて、またしても暗示にかかってしまっていたようです。

たんなる風邪だったようで、ご心配をかけました。

1月分の薬を買ったのですが、1日飲んだだけで無駄になってしまいました。

 




2008

February

24

日記:: 慣用句
コメント 0 / 0

 慣用句は構文解析上重要な位置をしめているのでわれわれも力をいれています。使い方で形が変わるものがあります。

  機転が利く

  機転の利く

  機転を利かせる

  機転は利かない

慣用句はほとんどのものが、良し悪しの評価がはっきりしています。この「機転が利く」の例は「良い」に分類されます。何か他の慣用句を思い浮かべてみてください。われわれもびっくりしました。慣用句には、いましめたり、はげましたりするものが多いためかもしれません。




2008

February

23

日記:: 花粉症(2)
コメント 0 / 0

 去年は花粉症にならず、年をとると鈍感になるので花粉症も軽くなるかと思っていました。

しかし今年は去年の夏が暑かったためだそうでぶり返してしまいました。それも大分重症で、毎日くしゃくしゃの顔をしています。少ししゃんとしているのは夕方お酒をのんでいるときだけです。




2008

February

19

日記:: たわごと
コメント 0 / 0
お酒を飲んでいる間には、面白い話をいろいろ思いついてぜひブログに書こうと思うのですが、翌朝にはみんな忘れてしまっています。飲んでいるときに考えても無意味のようです。



2008

February

09

日記:: 評価(2)
コメント 0 / 0

一般的に言って良いという点が多いからという理由で記事を推薦したのでは、実用にはならないでしょう。何が良くて何が悪いかは人によって異なります。我々は、利用者ごとに係り受けに、「良しあし」とともに「注目度」を、ユーザーごとの辞書に登録して、ユーザー固有の評価をするシステムを開発しました。これから利用者と一緒に整備するユーザーごとの辞書のできばえによりますが、利用者に不可欠のシステムができるのではないかと思っています。




2008

February

02

日記:: 先客万来
コメント 1 / 0

1月が終わりましたが、手帳を見てびっくりしました。3日間を除いて毎日夕方に来客がありました。夕方来るお客は必ずお酒を飲むわけで、よく飲んだものだと思いました。今月も7日までは毎晩ふさがっています。




2008

February

01

日記:: 評価
コメント 0 / 0

評判検索などで、利用者に適当な記事を推薦するために、「良い」か「悪い」かを評価する必要があります。

 

  良い         悪い

「涼しい」       「寒い」      個々の単語で

「さっぱりする」    「さっぱりだ」   品詞が変わると

「ビールが冷たい」  「態度が冷たい」  共起する語との関係で

 

さらに否定かどうかを判定するのは難しいのですが、否定が続くと良し悪しは逆転します。

 

 「ビールが冷たくない」   悪い

 「ビールが冷たすぎる」   悪い




2008

January

26

日記:: あんこ
コメント 0 / 0

お菓子についてのアンケートのデータを処理する機会がありました。我々の辞書の中には、「あんこ」の仲間の用語がほとんど登録されていませんでした。私が甘いものが嫌いなので、おそらく甘いものが出ている記事や、テレビ番組にまったく興味を持たなかったことが原因と思われます。酒飲みが辞書を作ったことによる思わぬ弊害でした。




2008

January

20

日記:: 品詞は不定です
コメント 1 / 0

日本語解析は単語の品詞を一番基本の手がかりに進めています。

単語には品詞が決まっていることになっていますが、実際には使われ方で異なります。

 

          動詞           名詞

 勉強    よく 勉強する。    歴史の 勉強をする。

 生き    長く 生きます     食材の 生きがいい

 




2008

January

01

日記:: 寒さ対策
コメント 2 / 0

 明けましておめでとうございます。今年もよろしくお願いいたします。

初詣をしてきましたが寒いですね。寒そうな芸能人を見て、私もやってみました。「オッパッピー」左で10回、右で10回、「そんなの関係ねぇー」も同様に左で10回、右で10回。少し温まりました。




2007

December

24

日記:: 買い置き
コメント 1 / 0

暮れも押し詰まりました。昨日お正月用のお酒を買いだめしてきました。これで安心して年を越せます。

よい年をお迎えください。




2007

December

17

日記:: 高齢プログラマー
コメント 2 / 0

 この歳をしていまだにプログラムを書いています。もしかしたら最高齢プログラマーかも知れません。昔からの週間で、必ずリスト印刷してそれを見てからでないと考えられません。しかも、目が遠いので、大きな字で。地球に優しくないと思うのですが。




2007

December

10

日記:: 小話集
コメント 0 / 0

 フランス小話の本を読んでいます。実は前に読んだことのある本です。一度読んだ小話は落ちが分かってしまうので面白くないだろうといわれましたが、読み直しても笑えました。前に読んだ落ちを完全に忘れていて2度楽しめました。




2007

December

02

日記:: 共起関係
コメント 0 / 0

構文解析のために、1つの文に名詞と用言とがどんな助詞を介在して共存するかを整理しています。例えば「本を読む」という文では「本」という名詞と「読む」という「動詞」とが「を」という助詞を介して共存します。このような整理の仕方を結合化文法といいます。これは一般的な組み合わせですが、「空気が読めない」のように一般的でない組み合わせもあります。

若い人たちの間では「KY」と言うのだそうですが私と女房のイニシャルも「KY」でした。KY夫婦です。




2007

November

24

日記:: 異表記
コメント 0 / 0

 漢字で書くと違うが、平仮名で書くと同じという名前(姓でないほう)がたくさんあります。平仮名で書いたときの種類は、数えたことはないのですが、あまりないと思います。また平仮名で書いて同じ名前はアクセントも同じです。我々の辞書に「よしひろ」という人名が200以上登録してあります。私はすべて「芳宏」の異表記と思っています。




2007

November

18

日記:: 四字略語
コメント 0 / 0

日本人は4拍が親しみやすいようで、複合語の頭の2拍ずつを取り出してつないで出来あがる省略語が多数あります。

デパート地下商店街 → デパチカ

デジタル・カメラ → デジカメ

パーソナル・コンピューター → パソコン

小椋・潮田          → オグシオ

出来上がった語が1つの言葉だということを示すためかアクセントがすべて平板型になります。「マスコミ」の語源は何だったかのようにもとの言葉が忘れかけられているものすらあります。このような四文字の言葉のグループに、新しい名前を定義してはどうかと思います。「四字略語」ではどうでしょうか。その「四字略語」は「ヨンリャク」になります。通じないか。




2007

November

12

日記:: ガソリンスタンド(2)
コメント 0 / 0

 客先で話していたら、くしゃみと鼻水がでて、風邪をひきはじめたようでした。あわてて駅のガソリンスタンドに飛び込んで補給をしたら幸いに風邪にならずにすみました。百薬の長とは良く言ったものです。いまガソリンスタンドはターミナル駅にしかありません。もっと増えるとよいのですが。




2007

November

02

日記:: 異体字
コメント 0 / 0

聞くところによりますと、中国では5千年の歴史の中で朝廷が変わるごとに字体を新しくしてきたそうです。現在の中国も国家設立の後字体を新しくしました。簡体字と呼ばれる字体で台湾のものと異なっています。わが国の文字も古代からの影響でかいろいろな字体があります。

私の名前も戸籍上は「國分」ですが、書くのが面倒なので簡単な「国分」でとおしています。「国」と言う字はJISにこのほかにも「囗」「圀」があります。

また私の個人的な意見ですが、異体字は廃字にしてしまったらどうかと思います。情報の伝達や、検索のためにはそのほうが便利でしょう。よく自分の名前に異体字を使っている人がいますが、あまり難しい字を使っていると誰からも検索してもらえなくなってしまうでしょう。




2007

October

23

日記:: 塩漬け
コメント 0 / 0
 「タラソテラピー」というのをやってきました。塩水プールで泳ぐことなのですが、波もなく、真水のプールより良く浮かぶので、水泳がうまくなったような気分にひたれました。2時間程度泳いだ後、体重を測ったところ、1Kg以上へっていました。透析効果で水分を取られたためでしょう。夕飯でビールを飲んだらあっという間に戻ってしまいました。何年ぶりかで泳いだので、体中に筋肉痛だけが残りました。



2007

October

12

日記:: 顔文字
コメント 1 / 0
会話では、言葉と平行してイントネーションや表情でも情報を伝えています。例えば笑顔で話すとか、悲しそうに話すとか。しかし書き言葉にはそれがありません。それを補うのが顔文字だとも考えられます。我々の構文解析にも顔文字の入った文を解析できるようにしました。ところがみんな顔文字を自由に作っていて、どこまでを辞書に登録したらよいか決めかねています(^_^;)中には見た印象と説明とがうまく結びつかないものもあります。どなたか標準化をしていただけませんでしょうかm(__)m



2007

October

09

日記:: ガソリンスタンド
コメント 0 / 0

通勤の乗り換えの駅にガソリンスタンド(立ち飲み)があります。ときどき帰り道でガソリンを補給して帰ります。値段も今どき千円札1枚ですみ、車のスタンドより安くあがります。




2007

September

13

日記:: 迷路
コメント 1 / 0

 「望遠鏡で泳いでいる彼女を見た」という文を読むとき、読んでいる人は「望遠鏡で泳いでいる」というのは読んでいる人の知識に照らし合わせて何かおかしいと気がつきます。読み進めていくうちに「見ていた」という「望遠鏡で」にふさわしい動詞を見つけ、「望遠鏡で泳いでいる」のではなくて「望遠鏡で見ていた」なのだと気づきます。確かに最初から「泳いでいる彼女を望遠鏡で見ていた」と書いてくれればこんな問題は起きないのですが、人は頭に浮かんだ順序で書くのでこのような文が存在するのです。文を読むにも知識が後ろ盾になっています。これは一番簡単な例ですが、もっと複雑な迷路もあります。書くときはなるべく迷路がないようにしたいと思っていますが、思ったまま書こうとするとときどきこんな迷路になってしまいます。




2007

September

09

日記:: ガソリン
コメント 0 / 0

どうしたわけか、我が社の社員はあまりお酒を飲みません。勇将の下に弱卒ありです。きっと社長のようにはなりたくないと思っているのでしょう。夕方になると社員に白い目で見られながらいつも一人で缶ビールを開けています。家まで帰り着くにはガソリンが必要です。




2007

September

03

日記:: 拡張助詞
コメント 0 / 0

 いわゆる助詞の機能を補うため、拡張助詞というような付属語があります。例えば「~の代わりに」「~に従って」のようなものです。活用があるので、助動詞というべきなのかもしれません。英語にも同様に「instead of」「according to」のようなものがあります。それぞれが活用するので膨大な数になり、われわれのシステムでも組み合わせの数は500万を超えています。これらの性格を含めて辞書にきちんと整理しておかないと意味のあるある解析結果が得られません。

例えば「人間の代わりのモルモットに」という係り受けを「人間の代わりの」「代わりのモルモットに」という2つの係り受けに分けてしまったのでは、自然言語による検索や、テキストマイニングでは役に立たないでしょう。




2007

September

02

日記:: 係り受けの意味的な関係の整理
コメント 0 / 0

テキストマイニングのために、個々の係り受けが良い意味なのか悪い意味なのかを判断する機能を追加しました。否定表現も考慮して良し悪しを決めるようにしてあります。
キズが   少ない   良い  

(「キズが」は悪い意味ですが、述部が否定のため良い意味になります。)
上の例のように普遍的に良し悪しが判断できるものは良いのですが、良し悪しの判断は場合によって異なることがあります。例えば「太る」いう言葉も良い意味のこともあります。
子供が   太る    悪い
家畜が   太る    良い
分野ごとに、そこで使われているコーパス(文例)をもとに、係り受けが良いか悪いかを判定してそのデータベースを作る必要があります。さらには良し悪しだけでなく言葉同士の意味的な関係を記述した形でのデータベース(オントロジー)を作りたいと思っております。一緒にやってくださる相手を探しています。

 




2007

September

01

日記:: 夏のかぜ
コメント 3 / 0
扇風機をかけたままで眠ると死ぬという話があります。私は何回かかけたまま寝てしまったことがありますがまだ一度も死んだことがありません。
先週もやってしまったのですが、かぜを引いてしまい喉が痛くて困っています。夏のかぜは馬鹿が引くというのは真実のようです。



2007

August

31

日記:: 文脈を考慮した解析にはまだ時間がかかるでしょう。
コメント 0 / 0

例えば「で」にはいくつかの種類がありそれぞれ文法的な働きが異なると本には書いてありますが、実際に出てきた「で」がどの種類の「で」なのかは、入力されたテキストにはマークしてありません。

 

当時──┐                          当時─┐

私は──┤                          私は─┤

学校で─┤                            学生で─┐

講演を─┤                            講演を─┤

楽しみにしていた。                    楽しみにしていた。

 

持っている知識をすべて動員して前後関係から分けようとするのですが、なかなか思うようにはいきません。最近はコンピューターの性能が上がってきたので、以前はあきらめていたような全数検査が簡単に出来るようになりました。辞書の静的な情報は、簡単にとりだせるようにはなりました。しかし、どちらの「で」なのかというような問題は、逐一、人が見て考えないと決められません。

 自然言語処理はこれからの検索やテキストマイニングではなくてはならない技術だと思いますが、勝ち目のない巨大な敵に老骨に鞭打って立ち向かっているような気がしてなりません。




2007

August

27

日記:: 自然言語処理システム
コメント 0 / 0
文章を入力してみて、うまく解析できたかどうかを調べています。うまく行かなかった言い回しに対して対策を立てるといった作業を続けています。
文法的な規則を探してプログラムに組み込み、必要に応じて分類して新しい品詞を定義するということの繰り返しです。いくつかの規則が矛盾するところに、この方が多いだろうと思われる規則を経験的に選んで適用しています。
対策を立てた言い回しを他社のシステムで試して見て、他社のシステムで出来ないのを見つけてしばし優越感にひたるのが年寄りの唯一の楽しみです。おそらく他社の人も同様に我々のシステムを試しているのでしょう。
統計的な手法で構文解析をしているという話を聞きますが、私には信じられません。



2007

August

16

日記:: 水分補給
コメント 1 / 0

 今年の夏は暑いですね。熱中症にならないように水分を多くとるようにしています。しかし、水ばかりだとあまり飲めないので、少しだけ焼酎を入れて飲んでいます。焼酎を少しでも入れると水だけではとても飲めないような多量の水分がとれます。




2007

August

13

日記:: 物理離れ
コメント 0 / 0

理工系離れが進んでいると言われていますが、私の周りに大学は物理だったという人が驚くほどいます。私を含めて物理では飯が食えなかった人たちです。電気をやれば電気科の人に負け、機械をやれば機械科の人に負け、という結果でしょう。




2007

August

06

日記:: どぶろく
コメント 0 / 0

ある温泉で地酒のどぶろくがあると聞いたので、夕飯のときに頼みました。180ccのものと500ccのものがあると言う話しでした。180ccでは足りないと思い、500ccのものを頼みました。どぶろくを飲み終わったあと、どぶろくだけでお腹が一杯になってしまい折角の料理が食べられませんでした。




2007

August

03

日記:: 「て」の話
コメント 0 / 0

付属語を整理していて「書いて」というときの「て」が、数多く出現するので苦労します。

5段動詞には、この「て」との接続のために音便形という特別な形が用意してあります。
というより、連用形に接続して使われていたものが非常に多く使われるので音がくずれた結果、音便形ができたと考えるのが妥当でしょう。
さらに前に来る動詞によって濁音化するものがあります。
 「書いて」
 「飲んで」

これに似たものに
 「書いた」のときの「た」](終止・連体形)
 「書いたり」のときの「たり」(連用形)
 「書いたらば」のときの「たら」(仮定形)
などがあります。
本当に、てがかかります。




2007

July

25

日記:: お書きになった文章を構文解析してみませんか。
コメント 0 / 0

 書いた文と出力された構文木が思っていたのとは違った形になることがあります。

 私の場合では、独りよがりになっていて、書いた文を客観的に見られなかったことが原因のことがよくありました。

 もちろんコンピューターの解析は完全ではありません。

 しかし、お書きになった文章を読む人がコンピューターがしたような読み間違いをするかもしれません。

 なるべくならコンピューターにも解釈してもらえるような文章を書きたいと思っています。

 構文解析サイトで簡単に構文解析をしてみることができます。試してみてください。




2007

July

17

日記:: 老人会
コメント 1 / 0

 私は小学校のクラスのクラス会がいまだに続いています。先日も3年ぶりで一泊旅行をしました。60人のクラスで、20人近くが集まりました。 女性陣はますます元気です。

 かつての少年少女はどこへ行ってしまったか50年という時間の恐ろしさを思い知らされました。羞恥心はとっくに磨り減ってかけらも残っていません。朝食が終わると、みんな薬を取り出し、お前は何種類だ、おれは何種類だといってつまらないことで話がつきませんでした。

 だんだん家の中で遊んでくれる家族がいなくなってきて、このような会を続けてくれる幹事の方々に心から感謝しています。

 




2007

July

12

日記:: 飲みますか飲みませんか
コメント 0 / 0

お酒を飲みますか。

お酒を飲みませんか。

という2つの質問文は見た目には逆ですが、意味は同じです。

私はどちらの文で問いかけられても、いつも「はい」と答えます。




2007

July

07

日記:: 辞書のサイズ
コメント 0 / 0

ある先生に見ていただくことになったので、まじめに辞書のチェックをしていたらいろいろ手抜きが見つかりました。

急いで手当てをしたところ辞書のサイズがまたぶくぶく増えてしまいました。私の体重と同じで一様増加関数です。辞書サイズのほうはコンピューターが大きくなることを頼りにできますが、体重のほうはどうしようもありません。




2007

July

02

日記:: 明治村
コメント 0 / 0

先週の金曜日に名古屋で時間が空いたので明治村に行ってきました。

入場料3千円のところが65歳以上の人は、2千円でした、初めて老人になってのご利益にあずかりました。

ウイークデーだけでも結構ですから、このような割引をもっとやってほしいと思います。

ういた千円でお昼にビールを飲みました。




2007

June

28

日記:: 語幹が変わる終止形
コメント 0 / 0

 終止形だけ語幹までが変わる動詞があります。

  ゆう(言う)

  ゆく(行く)

  うる(得る)

 おそらく古い形が残っているのでしょう。

 数は少ないのですが非常に良く使う動詞なので無視できません。




2007

June

27

日記:: 年寄りのブログ
コメント 1 / 0

 ある人に年寄りのブログは自虐的な話が多いといわれました。私がこれまでに書いたブログを読み直してみると確かにそのとおりでした。残念ながらこんなことを書くよりないようです。

                                              南無阿弥陀仏

                       南無阿弥陀仏




2007

June

26

日記:: アンケートのお願い
コメント 0 / 0

 お蔭様で構文解析の評判は良いようで、この後、照応、用語の標準化などの付属システムを組み込んで行こうと思っています。

ホームページの構文解析の試用サイトに、アンケート記入欄を設けました。

今後の我々の発展のために、解析結果に対するせひ厳しい忌憚のない意見をお寄せください。

ご意見を無駄にしないで、いろいろ改良を進めて行きたいと思っています。




2007

June

22

日記:: 否定の重複
コメント 1 / 0

 日本語の文法では、否定の重複を禁止していません。その結果「美しくなくなくない」などという言い方が間違いだとは言えないそうです。我々の構文解析でも許してしまっています。

読みやすい文章を書くためには禁止するべきでしょう。私は二重否定も使わないようにしています。それでも文章を書いていて困ることはないこともないこともありません。




2007

June

14

日記:: 電池式時計
コメント 0 / 0

今から22年前、会社を設立したときにお祝いに電池を換えないで10年動く時計をいただきました。そのときは電池が切れるまで会社が持つかと本当に考えていました。幸い時計の電池のほうが先になくなってしまって、会社のほうは電池を換えたあとも持っています。そろそろ2回目の交換です。




2007

June

04

日記:: 一晩独身に返る
コメント 0 / 0

 土曜日の夜

 女房と娘が旅行に行き、せがれも夜、遊びに行って10年振りで独身になりました。

 一升瓶をかたわらにテレビの前に寝転んで見ながら晩酌をしました。

 前から楽しみにしていたのですが、すぐに寝入ってしまって、お酒の量は以外に進みませんでした。




2007

June

01

日記:: ファスナー
コメント 0 / 0

電車で座っていたら前に立っているきれいな女性がズボンのファスナーのあたりを触っていました。

女性にしては珍しい動作だなあと思って見ていました。

会社について机に座って自分の前をみたら、私のズボンのファスナーが開いていました。私に教えてくれていたようです。

(このファスナーという言葉は、私はチャックと書いて書き直しました。)

 




2007

May

31

日記:: 老人力
コメント 0 / 0

さんざん抵抗をしたのですが、私もとうとう65歳になり完全に老人の部類になりました。

そういえば昔「老人力」という本がありました。

この本が出る前までは「力」という接尾辞は「推進力」「行動力」のようにサ変動詞に付いて「~する力」という意味のものと、「単語力」「英語力」のように能力の意味のものだけでした。

 

この本が出てからいろいろな言葉につくようになり、あまりはっきりしない意味のものを見受けるようになりました。

「鈍感力」「社長力」

 

追伸:新たにシソーラスの本格的なサイトを開設しました。

   10日まで無料だそうです。急いで一度使って見てください。

      http://ruigo.jp/

 

 




2007

May

19

日記:: 正三郎さんのこと
コメント 0 / 0

昔の仲間の中村正三郎さんに私のブログを紹介していただきました。ありがとうございました。

昔一緒に話し合うときはいつもひざを突き合わせて話し合っていました。

というのは背の高さが20センチぐらい違うので、立って話すと私の首が疲れるからです。

座って話せば目の高さは変わりませんでした。

もう亡くなられましたが、当時もう一人中村紀三郎さんというかたがいました。

非常に良く似た名前で1字しか違わないのですが、連濁とアクセントの形がまったく違いました。

正三郎  ショーザブロー

紀三郎  ブロー




2007

May

12

日記:: ブログを分かりやすくするコツ
コメント 0 / 0

私のブログは分かりやすいと褒めてくれる人がいました。分かりやすくするには、コツがあります。それは簡単なことで難しいことを書かないことです。




2007

May

07

日記:: 定年する
コメント 0 / 0

ここ二,三年のことですが、「定年になる」ということを「定年する」という言い方を耳にします。

団塊の世代が定年を迎えて、定年の話が多く話題になるためではないかと思います。

昔「お茶する」という言い方がはやったことがありますが、良く使う言葉がサ変動詞になるようです。

 

 




2007

May

03

日記:: 他言語に置き換えてみる。
コメント 0 / 0

 意味の違いを説明するのに外国語に置き換えてみるとうまくいくことがよくあります。

 次の「ている」の機能は、動詞の種類によって、変わります。

   書いている  → 現在進行形

   終わっている → 過去

翻訳するときに注意をしなければならない問題です。




2007

May

01

日記:: 飛び石連休の中日
コメント 0 / 0

 零細企業は連休中も出勤しています。(うちにいても遊んでくれるひとがいないので)

 連休明けに会いましょうという約束がいっぱいたまっています。

 それも皆なぜか、4時からになっています。




2007

April

30

日記:: 敬語表現
コメント 2 / 0

「日本語は主語が省略される。」とよく言いますが、日本語では敬語で主語を表していることがよくあります。

例えば「申し上げたことは、おっしゃっていることとは違います。」という文は

「(私が)申し上げたことは、(あなたが)おっしゃっていることとは違います。」と暗黙のうちに主語が指定されたことになります。

これがまた日本語の照応の難しさの原因です。




2007

April

18

日記:: 4連休の後2日あけて3連休
コメント 0 / 0

 4連休の後2日あけて3連休というのは今年のゴールデンウイークの話ではなく

今月に入ってから私がお酒を飲まなかった日である。

こんなに空けたのは、数年前に二日酔いで人間ドックに行って検査レベルのCを取ってしまい

精密検査までの間、お酒を飲まなかったときいらいである。そのときは飲まなかったらすぐAに戻りました。

夕べはまた飲んでしまいました。

 




2007

April

13

日記:: イチロー
コメント 0 / 0

大リーグでイチローが活躍しているようですが、

野球を始める前は「イチロー」は「いちろう」と仮名をふっていたはずです。

胡瓜(きゅうり)→キューリ

餃子(ぎょうざ)→ギョーザ

のようにオ段、ウ段のあとの長音を「う」であらわすという変則的な規則が原因です。カタカナ表記のときはよく長音でかいたものをよく見ます。

長音は長音記号で表すようにするべきだと、いつも思っています。

 




2007

April

12

日記:: 言い訳
コメント 0 / 0
先々週までは毎晩来客で飲み続けで、ブログが書けませんでした。
来週は、飲む約束がずうっと続いているのですが、どうしたわけか今週は一度も飲む機会がありませんでした。
きょう久しぶりといっても4日ぶりですが、ビールを飲みまして元気がでました。
やはり、ブログを書き、仕事をするためにはお酒が必要なのです。



2007

April

07

日記:: 構文解析(2)
コメント 0 / 0

構文解析をやっていますが、やればやるほど興味深い規則が見つかります。

普段だれも遊んでくれないので、ついつい規則を見つけて、その規則を組み込むことを考えています。

自立語と付属語の収集分類が主な仕事です。

下の例で言うと赤い部分が、自立語で青い部分を付属語です。

 例「文法について研究しています。」

現在我々の場合、自立語の数が23万語、付属語の数は200万以上になっています。

これから先ブログなどで使われている、崩れた言い方に強くするためには辞書の追加が必要になります。

 




2007

March

31

日記:: 花よりお酒
コメント 0 / 0

 桜が満開です。金曜日の晩にお酒が切れてしまいました。きょう車でお酒を買いに行かないとなりません。道が混んでいないかが心配です。




2007

March

30

日記:: 点字(2)
コメント 0 / 0

 

視覚障害者は、最初から文字のない世界で暮らしているので点字は、晴眼者の仮名の表記より音声に近い記述方をします。

   

           仮名        点字        発音

 空港へ      くうこうへ     くーこーえ     くーこーえ

 平成は      へいせいは      へいせいわ      へーせーわ

 拗音(キャ)    2文字      2枡         1音

 

文節分かち書きで、文節の間に1枡の空白をいれます。

「を」は「お」とは区別しています。

 




2007

March

27

日記:: 点字(1)
コメント 1 / 0

缶ビールの缶の上の部分に下の絵のような点字が書いてあります。

 

○ ●   ● ○   ● ●      

● ○   ○ ●   ● ○      

○ ○   ○ ●   ○ ●      

 

これは点字で「オサケ」と読みます。最近は、駅の券売機やエレベーターのボタンのところにも点字の表示がでています。おそらく点字について知る機会もないと思うので少し触れておくことにします。点字は基本的に文節分かち書きの仮名表記で、それほど難しいものではありません。

 

点字は6点でできています。

 


 

 母音 ○ ○ 

     

    ○ ○ 子音 

 

 

 母音

あ           い      う          え        お

● ○   ● ○   ● ●   ● ●   ○ ●  

○ ○   ● ○   ○ ○   ● ○   ● ○   

○ ○   ○ ○   ○ ○   ○ ○   ○ ○    

 

 子音

 

か        さ       た        な       は        ま          ら

● ○   ● ○   ● ○   ● ○   ● ○   ● ○   ● ○   

○ ○   ○ ●   ○ ●   ○ ○   ○ ○   ○ ●   ○ ●   

○ ●   ○ ●   ● ○   ● ○   ● ●   ● ●   ○ ○   

 

や行、わ行は特殊です。

 

 

や         ゆ        よ         わ        ゐ          ゑ          を

○ ●   ○ ●   ○ ●   ○ ○   ○ ○   ○ ○   ○ ○     

○ ○   ○ ○   ○ ●   ○ ○   ● ○   ● ●   ○ ●     

● ○   ● ●   ● ○   ● ○   ● ○   ● ○   ● ○   

 

 

 

濁音・半濁音・拗音は前に1枡付け加えます

 

濁音          半濁音        拗音

○ ○    ○ ○     ○ ●        

○ ●    ○ ○     ○ ○      

○ ○    ○ ●     ○ ○     

 

 

 

撥音  促音   長音  読点   句点

ん          っ             -           、             。

○ ○     ○ ○      ○ ○     ○ ○      ○ ○

○ ●     ● ○      ● ●     ○ ●      ● ●    

● ●     ○ ○      ○ ○     ○ ●      ○ ● 

 

点字は6点しかないので、英字、数字は前にシフトコードをいれます。

 英字開始  数字開始

   ○ ○       ○ ● 

   ○ ●       ○ ●

   ○ ●       ● ●

 

 1  2   3    4   5   6   7  8   9    0

● ○  ● ○  ● ●  ● ●  ● ○  ● ●  ● ●  ● ○  ○ ●  ○ ●

○ ○  ● ○  ○ ○  ○ ●  ○ ●  ● ○  ● ●  ● ●  ● ○  ● ●  

○ ○  ○ ○  ○ ○  ○ ○  ○ ○  ○ ○  ○ ○  ○ ○  ○ ○  ○ ○ 

 

 

 

上の表を見てもらえば分かるように6点とも打ってある文字は「め」です。

これだけ分かっていれば、駅やエレベーターに書いてある点字は読めます。

 

 

 

 




2007

March

25

日記:: アクセント(6)
コメント 0 / 0

 「本契約」という言葉があります。文字で書くと一とおりなのですが

   ホンケイヤク 正式な契約          

   ホイヤク 今結ぼうとしている契約

とアクセントによって2つの意味があります。

日本語には「本」という接頭辞が2種類あり、アクセントで弁別しています。

書き言葉では文脈を考えてどちらかを決めているのでしょう。

 

 

 




2007

March

19

日記:: 禁煙
コメント 0 / 0

 昔、私はヘビースモーカーでした。それがあるときに、ぴったりと止めました。あまり急だったのでびっくりして昭和天皇が死んでしまいました。今でもかわいそうなことをしたと思っています。長生きの秘訣に「決して死なないこと」という話がありますが、禁煙の秘訣は簡単で「決してタバコをすわないこと」です。

もしこのうえ、お酒を止めると今の天皇まで死んでしまうと困るので、お酒は止めないことにしました。

 




2007

March

16

日記:: アクセント(5)
コメント 0 / 0

話し言葉では、アクセントで区別しているのですが、書き言葉では特に平仮名で書いたときに区別ができない言い方があります。

  きる(切る)     

    (着る)     

動いたものの     イタモ 「もの」が形式名詞

             イタモノノ 「ものの」が逆接の接続助詞

どちらと考えるかで、係り先が異なるので、構文解析でよく問題になります。東京以外のアクセントの人はどうしているのでしょうかね。

 




2007

March

12

日記:: 私のブログ
コメント 2 / 0

ブログを書いていることが女房にばれてしまいました。絶対にばれないだろうと思っていたのですが。あまり余計なことを書くなと言われました。最近の私のブログがさえないのはそのせいです。

 




2007

March

08

日記:: 構文解析(1)
コメント 0 / 0

構文解析の泣き所

 「遊んいたのは公園でで

という簡単な文に「で」が3回でてきます。すべて違う「で」です。

ここでは細かい説明は避けますが、どの種類と考えるかで文の構造が変わってきます。

文脈が分からないと決定できないので、構文解析をしていて一番悩むところです。




2007

March

06

日記:: 抜歯
コメント 0 / 0

今日歯を抜いてきました。今日はブログは休もうかと思っていました。

歯医者に今晩お酒を飲まないようにと言われたので前回のようにビールにしました。

夕飯がすんだ後、やはり物足りなくて結局焼酎を飲んでしまいました。

焼酎を飲んだら元気がでてブログを書く気になり、書いています。

考えてみると、ブログに書く話は大体お酒を飲んだときに考えることがほとんどです。

 




2007

March

05

日記:: 否定疑問文
コメント 0 / 0

否定疑問文に「はい」(Yes)、「いいえ」(No)の答の意味が英語と日本語とで異なるのはご存知のとおりです。ここで日本語の勧誘文を含めて考えて見ましょう。

質問             答    動作

お酒を飲まないか(勧誘)    はい    飲む

お酒を飲めないか(否定疑問)  はい    飲めない(結果としては飲まない)

Don’t you drink? (否定疑問)    Yes        飲む

 

3つの質問文に「はい」(Yes)と答えた場合の後の動作を示したものです。

日本語のこの違いはその動作が意思で決定できるかどうかで決まります。「お酒を飲む」というのは意思で決められますが、「お酒が飲める」というのは意志で決められません。日本人は良く間違えずに応答しているものだと思います。日本語を勉強している外国人が理解するのは難しい問題でしょう。




2007

March

02

日記:: 女性にあったら(2)
コメント 0 / 0

私はよく女性に今夜一緒に寝ましょうといいます。そんなことが普通に言える歳になってしまったということです。寝る時間を聞いて、その時間に自宅で床に入るようにしています。




2007

March

01

日記:: 固有名詞
コメント 0 / 0

 人名、地名、機関名など個々のものを指す固有名詞といわれているものがあります。どこまでが一般名詞で、どこからが固有名詞かという問題もあります。新しい用語がどんどん生産されます。と同時に消えていく用語もあります。そのため辞書にすべての固有名詞を登録するのは不可能です。日本語処理システムでは、どうしても未知語になってしまい精度を上げられない最大の原因になっています。辞書の補修で最後まで手が抜けずてこずる問題です。

 

・普通名詞と紛らわしい表記の語もあります。

   ブルドックソース (製品にはBull・Dogと書いてあります。)

   英雄(ひでお)       (野茂英雄)

   勝利(かつとし)

  御茶ノ水(地下鉄)、お茶の水(JR)

 

・同じ表記にいくつかの読みがあります。なおかつ決められた読み方しか許されません。そのため正確に読ませるためには人手によるチェックが必要になります。

卓 たかし、たく、すぐる

  中谷 なかたに なかや なかのや

  日本電気(にっぽん) 日本芸術院(にほん)

  相生町(あいおいちょう、あいおいまち)どの県かで読み方が異なります。

 

・発音や表記が普通の用語と表記法がずれているものがあります。これはおそらく会社名をきめたころ、仮名小文字がなかったためだろうと思います。

   キヤノン、富士フイルム

 

・企業名などでは、普通名詞のときと意味と変わります。

   例 「電気」は物です「日本電気」は機関でする。

     「証券」は物です「新日本証券」は関の意味になります)

・異体字を含むものがあります。

  逆に異体字があったら固有名詞だとも言えます。

  また「岡」「埼」のように固有名詞でしか使わない漢字があります。

  ゐゑヰヱヲヂヅ も固有名詞でしか使いません。




2007

February

27

日記:: 国分はイモだ
コメント 0 / 0

 「国分」という名前の鹿児島県産の焼酎があります。私は名刺代わりに使って好評をえていたのですが、なかなか手に入らないので困っています。この焼酎もイモだそうです。




2007

February

26

日記:: JIS用語
コメント 4 / 0

JIS用語では、「コンピューター」を「コンピュータ」と最後の長音をなしで記述します。私が聞いた範囲では、すべての人が「コンピューター」と発音しています。雑誌や新聞にも「コンピューター」と書いてあります。JIS用語を決めた人は、「コンピュータ」と発音しているのでしょうか。

同様に「ソフトウエア」と発音されている言葉もJIS用語では「ソフトウェア」になっています。

          (5拍) 一般

    ウェ       (4拍) JIS

  一日も早く世の中で多く使われている記述にJIS用語を変更して欲しいと思っています。




2007

February

23

日記:: 口臭
コメント 1 / 0

 女房によれば私には口臭はないそうです。そういえばそばに寄ったことがなかったか。




2007

February

21

日記:: 文書データの蓄積
コメント 0 / 0

これまで述べてきた構文解析、照応解析の後、表記の揺れ、同義語を標準化をすませて蓄積しておきます。

例えば「彼は欠勤もないそうで健康な社員に違いない。」という文は

 

 田中 は        社員 に違いない 推量 ①

 欠勤 も    非推奨 な  いそうで  否定 ②

 な  いそうで     社員 に違いない 推量

 健康 な    推奨  社員 に違いない 推量

 

  ①「彼」が照応により実際の名前に置き換えられます。

 ②非推奨が否定されて、推奨になります。

 

これまでの文書データを扱う検索システムやテキストマイニングなどは、単語のありなしだけをキーに組み立てられていました。単語の代わりにこれまで述べてきた係り受け関係をキーにして組み立てれば、精度を大幅に上げられるでしょう。またもっと他にいろいろな使い方があるでしょう。

そのためにまずは皆さんの取り扱っている文書を保存しておいてください。




2007

February

20

日記:: 花粉症
コメント 0 / 0

「今年は暖冬のせいで、もう花粉の飛散が始まった。」というニュースを聞いたらくしゃみが出てきました。

暗示にかかりやすい性格なもので。

でも歳のせいで鈍感になったようで昔よりだいぶ症状が軽くなりました。歳をとってよくなることもあるのです。




2007

February

19

日記:: 係り受け
コメント 0 / 0

「知的検索のためにシソーラスによる言語解析システムを開発した」という文を構文解析してみます。

 

知的検索のために──┐

  シソーラスによる──┐   │

言語解析システムを──┤

開発した

 

各文節の修飾関係を詳しく見てみましょう。

 

 係り側          受け側

知的検索     のために 開発       した

シソーラス    による  言語解析システム を

言語解析システム を    開発       した

 

このように修飾する側と修飾される側との関係を対にしたものを「係り受け」といいます。

(構文解析のことを「係り受け解析」ということもあります。)

これまでは単語が日本語処理の基本要素でしたが、これからはこの「係り受け」が日本語処理の基本要素になるでしょう。

 




2007

February

17

日記:: 構文解析の試用サイトのバージョンが5.1になりました。
コメント 0 / 0

構文解析の試用サイトのバージョンが5.1になりました。

ぜひ使ってみてください。

 

藤原紀香が結婚したら、かぜを引いてしまいました。

今年は暖冬のおかげで、いままで引かずにいたのですが。




2007

February

16

日記:: ズボンのバンド
コメント 0 / 0

浅草へズボンのバンドを買いに行きました。気に入ったバンドにはロングサイズしかありませんでした。切れば良いと思って買ってきて、しめてみましたが切る必要はありませんでした。




2007

February

15

日記:: 照応(文の構造の続き)
コメント 0 / 0

一昨日の文例の中の2文目に「そこはすでに紅葉していて、道も込んでいました。」という文があります。

 

  そこは──┐

  すでに──┤

  紅葉していて、──┐

       道も──┤

     込んでいました。

 

後ろ文の「そこ」という場所を指す指示詞は前の文の中には場所は「養老渓谷」しかないので「養老渓谷」を指していることが分かります。「そこは紅葉していた」という代わりに「養老渓谷は紅葉していた」と置き換えたほうが後の処理が便利になります。このように複数の文にわたって、指したり指されたりする関係を解析することを照応解析といいます。

 




2007

February

14

日記:: 大器晩成
コメント 0 / 0

 私は学生時代にお酒を飲みませんでした。大器晩成だといっています。しかし、お酒以外はいつになったら晩成するのでしょうか。

 




2007

February

13

日記:: 文の構造
コメント 0 / 0

 次のような2文からな短い文章を例にして文の仕組みを考えてみましょう。

 

今年の夏は暑かったので紅葉は遅いと聞いていましたが、先日、老いた母と妻を連れて養老渓谷へ行ってきました。そこはすでに紅葉していて、道も込んでいました。

 

まず前の文を考えてみましょう。大きく「今年の夏は暑かったので紅葉は遅いと聞いていました」と「先日、老いた母と妻を連れて養老渓谷へ行ってきました」という二つの短文が、「が」という接続助詞でつながっています。それぞれを短文といいます。このように結合されて一つになった文を複文といいます。

 

構文木

前の文を、構成する文節をその修飾・被修飾関係で整理して図に示します。これを構文木といいます。このように修飾関係(係り受け)で文の構造を整理することを構文解析といいます。

 

今年の──┐

夏は──┐

     暑かったので──┐

        紅葉は──┤  

           遅いと──┐

         聞いていましたが、──┐

               先日、──┤

      老いた──┐        │

          母と─P┐      │

             妻を──┐  │

               連れて──┤

             養老渓谷へ──┤

              行ってきました。

 

日本文では前の部分が後ろの部分に係ります。最終的には、すべての部分が最後に来る叙述部に係ります。逆の見方をすると、最後が一番重要であるといえます。

母と妻の関係の線に Pと書いてあるのは、「母」と「妻」とが並列の関係であるという意味です。

 




2007

February

09

日記:: 守秘義務
コメント 0 / 0

 秘密保持契約書には「業務遂行上知りえた相手方の秘密をも漏らしてはならない」と書いてあります。ですから、言語工学の契約相手が「言語工学の社長は馬鹿だ」と言って歩いたら守秘義務違反になるのだろうと言ったら、口の悪い友人に公知の事実なのでならないと言われました。




2007

February

08

日記:: 無声化
コメント 0 / 0

異音の1種類で子音だけが発音されて、母音の音が消えてしまう現象です。

  

むしろこれが進んだ形で子音まで消えてしまって、促音だけになる例のほうが身近に感じられるかもしれません。

 

  例 三角形 サンカケイ → サンカッケイ

 

  更に 時計 という言葉は

        トイ → トッケイ → トケイ

            促音化     欠落

  緑で書いた部分が無声化します。

 

次のようなときに 無声化が起こります。

   条件1:無声音である。 (カ行、サ行、タ行、ツァ行、ハ行、ファ行の音)

      条件2:イ段、またはウ段である。

  条件3:アクセントの滝でない。

   条件4:直後が無声音か最後である。

 

連続して無声化することもあります。 

福助足袋  フクスケタビ

 

  関西方言にはこのような変化はありません。関西出身の人はアクセントは関東方言でしゃべれてもなかなか無声化の発音ができないようです。




2007

February

07

日記:: 流動食
コメント 0 / 0
今日はめずらしく非常に忙しい一日でした。食事の時間も取れませんでした。結局朝飯を除いて夕方の流動食だけで済ませてしまいました。



2007

February

06

日記:: 異音
コメント 0 / 0

 仮名で示した音に対応する実際の発音がいくつかに分かれることを言います。

 1つの音を発声しているときに口の中は次の音の準備をしています。このため音は次の音の影響を受けて変化します。同じ仮名で書いても実際の音が異なるものがあります。

 

   長音

    直前の母音により5種類の音があります。

 

     撥音(ん)

       直後の音の影響を受けやすく直後の音によってm、n、などさまざまに変わります。

     辛抱   シボー mの音

    感謝  カシャ nの音

    ちなみにお隣の韓国では、別の文字を当てています。

 

 ガ行(口濁音、鼻濁音)

   原則的には語頭にあるときは口濁音に、それ以外の時は鼻濁音になります。

  方言によってはこの区別はありません。

       

   母音(ア行の音)

        語頭(文頭)の時は、軽い破裂が入ります。半母音には入りません。

        直前が撥音のとき

 

   促音(ッ)

    直後の子音によって音が異なります。

     一般に有声音の前には来ません。

  破裂音の前   破裂する前の無音状態が維持され、音がありません。

    摩擦音の前   摩擦音になります。




2007

February

05

日記:: 2月1日のこと
コメント 0 / 0

2月の1日の日に一日ブログが空いてしまったのは、そうお酒のせいです。

予定よりちょっと早くお客が来社して飲み始めてしまいまったものですから。




2007

February

02

日記:: 固有名詞のアクセント
コメント 0 / 0

 

日本人の姓は農耕民族のせいではないかと思うのですが、地名由来のものを多くみうけます。

一般名と姓とはアクセントで弁別しているものがあります。

   一般名詞  人名

       タ   

岸   キ   

   ラ   ハ

西   ニシ      シ  

 

地名と人名ともアクセントで弁別しているものがあります。

  地名   人名

  渋谷  シブヤ  シヤ 

  奈良  ラ   ナ

 




2007

January

31

日記:: 脳梗塞
コメント 0 / 0
昔、脳梗塞になって左手の握力がまったくなくなってしまったことがあります。緊急入院して握力を見るために毎日看護婦さんの手を握ったら1週間で直ってしまいました。ぜひ皆さんも看護婦さんの手を握れるので脳梗塞になることをお薦めします。



2007

January

30

日記:: アクセントの滝
コメント 0 / 0

アクセントの高い音から低い音に変わる所をアクセントの滝の位置と呼ぶことにします。普通1つの単語に滝は一つしかありませんので、何音目に滝があるかを数字で表すことができます。

食事の時に使う箸のときはハの位置で1、川に掛かっている橋の時はシの位置で2です。

机の端の場合は高い音から低い音に変わる所がないので滝がなく0です。

共通語では第1音と第2音とでは高さが必ず違います。関西方言では同じことがあります。関東人のしゃべる関西方言がうまくないのは、第1音と第2音との高さを変えてしまうことが一因です。




2007

January

29

日記:: 夕方(2)
コメント 0 / 0

コップにお酒のあるうちは「この一杯で終わりにしよう」と思うのですが、空になると「あともう一杯で終わりにしよう」と思います。とまあこの繰り返しです。

 




2007

January

26

日記:: 実際のアクセント
コメント 0 / 0

具体的なアクセントについてよく例にされる「はし」で説明します。

「ハ」と「シ」という2字の平仮名で表される言葉には、食事の時に使う箸と、川に掛かっている橋と、机の端のというときの端の3つが思い出されます。

最初の食事の時に使う箸は「ハ」を高く「シ」を低く発音します。

残りの川に掛かっている「橋」と机の端の「端」は両方とも「ハ」を低く「シ」を高く発音します。

一見同じように見える、この2つの言葉は実際には区別して使っています。

この違いは両方の言葉のあとに助詞の「が」を付けて見れば分かります。

川に掛かっている橋の時は「ガ」を低く発音します。

机の端の時は「ガ」を高く発音します。

ハとシという2字の平仮名で表される言葉でも、アクセントの違いによって3種類の意味を使い分けています。

音声で示すことが出来ないので高い音を、低い音を、の色で示すと、

 

  箸が  シガ   (頭高型といいます。)   

  橋が     (尾高型といいます。)   

  端が  シガ   (平板型といいます。)   




2007

January

25

日記:: ローライズパンツ
コメント 1 / 0

若い人の間でズボンを下げてはく「ローライズパンツ」というのがはやっています。これは腹の出た老人がしても腹が自由で快適です。ぜひやってみることを勧めます。




2007

January

24

日記:: 日本語のアクセントとは
コメント 0 / 0

 アクセントをつけるという言い方がありますが、例えば洋服にブローチをつけたりして一点を強調することをさしています。英語のアクセントはこの意味で1つの音を強調することを意味しています。

しかし日本語のアクセントは音の高さのレベルで、ある音を高く、ある音を低く発音することによって意味を区別しています。日本人が英語をしゃべるとアクセントを高さで表現してしまいます。私を含めて日本人が英語の発音がうまくない原因の一つかも知れません。




2007

January

23

日記:: おなかの形
コメント 0 / 0

 おなかの上の胸の下あたりに、じんましんのようなものが出てきました。風呂でよく洗ったら直りました。どうしても埃がたまりやすい形のようです。

 




2007

January

22

日記:: 接尾辞
コメント 0 / 0

 接尾辞は前にある自立語を補助している付属語のように考えられていますが、自立語+接尾辞でできる複合語は意味的にも音声的にも接尾辞が支配しています。例えば「説明書」、「案内書」、「請求書」・・のように「書」という接尾辞を持つ複合語はすべて意味は「書き物」でアクセントも同じです。このことは日本語だけではなく英語起源の外来語についてもいえます。

「スピードボート」、「セールボート」、「スチームボート」、「モーターボート」

 




2007

January

19

日記:: 雑誌の記事
コメント 1 / 0

かつて、私のことが雑誌に載ったことがあるのですが、女房が「よっぽど記事がないのね」といっていました。




2007

January

18

日記:: 擬態語
コメント 0 / 0

ものの様子や音などを描写する言葉です。音を描写するものは擬音語といいます。好きな言葉なのですが、私にはなかなか使いこなせません。

使い方によっていくつか変化した形があります。

例えば「きら」で作られるものだけでも次のような形があります。

清音形     濁音形

きらっと    ぎらっと     副詞として

きらりと    ぎらりと

きらきらと   ぎらぎらと    反復形

きらつく    ぎらつく     動詞として

きらめく

きらきらだ   ぎらぎらだ    形容動詞として

 

おおざっぱにいうと、濁音形は悪い意味に、清音形は良い意味になります。

形容動詞になる場合は、アクセントが異なり平板形になります。

欧米起源の外来語はすべて擬音語です。




2007

January

17

日記:: 新聞記事
コメント 0 / 0

「今日会社のことが新聞に出た」といったら、女房が「何か会社で悪いことをしたの」といっていました。

 




2007

January

16

日記:: 意味的な距離
コメント 0 / 0

興味深い記事があったときに、ほかにもっと類似した記事を検索しようとすることがあります。記事と記事との類似度を測ってなるべく似通った記事をさがします。その元になる用語同士の意味的な距離を測る必要があります。

距離をシソーラスの2つの用語間関係をもとに次のように定義しました。

    表記の揺れ   0   インターフェースとインタフェース

    同義語     1    犬とドッグ

    広義語/狭義語 2   犬と秋田犬   

    反義語     2   強いと弱い

    関連語     4   犬と犬小屋

    共起語     1   犬をと飼う

 

実際には、用語同士の関係は連続的でどの関係にするかで距離が違ってきます。

例えば「明日」と「翌日」との関係を、関連語にするか同義語にするかで大幅に変わってしまいます。

3番目の用語との距離は2つの距離を加算しました。                                                                         

                犬   ドッグ

    2  2       

      洋犬         和犬

         2   2

    シバイヌ    アキタイヌ

                      

「犬」と「シバイヌ」の距離は「犬」・「和犬」の距離2に「和犬」と「シバイヌ」の距離2を加算してとしました。

 パスが複数あるときは最短のものにしました。

 

距離を測るときには多義語を区別する必要があります。次の例では、お稲荷さんという用語には2つの意味がありますので、区別しないと稲荷神社稲荷ずしとの距離が1+1で2になってしまいますが、実際は無限大です。

                距離

              お稲荷さん 稲荷神社      1

              お稲荷さん 稲荷ずし      1

 

                                                              

              稲荷神社 稲荷ずし         ∞




2007

January

15

日記:: 前の晩の酒
コメント 0 / 0

最近ちょっと飲みすぎると翌日に残るようになってきました。夕飯のとき、前の晩の酒が残っていて「今日はお酒を飲まない」といったら、「何かお酒で失敗したの」といわれました。




2007

January

12

日記:: 多義語
コメント 0 / 0

 予期していなかった記事を検索してしまう原因の1つに多義語があります。記事を書いた人と検索した人とで別の意味を考えているのが原因です。

英語は多義語が多いといわれますが、日本語も特に大和言葉には多義語が多くあります。ふだんあまり気づかずに使っていますが、外国語に翻訳するときには別の言葉になるのでしょう。

例えば「うめる」という動詞は 

     穴をうめる。 

     お風呂をうめる。 

     借金をうめる。 

     時間をうめる。

 

外来語も英語の影響で多義語があります。さらに日本語ではLの音をRの音で発音することによりいくつかの意味が同じ表記になってしまっています。

  ライト  (L)  光、照明、明るい、軽い

       (R)  右、右翼手

            権利(コピーライトというとき)

この他にライトには「 書く」という意味がありますが、日本語では使われていません。




2007

January

11

日記:: 顔色
コメント 0 / 0

私は顔色の良いのが自慢で、よく「顔色がいいですね」と褒められます。その実は酒焼けなのですが。




2007

January

10

日記:: 差別語
コメント 0 / 0

 大勢の人に見せるための文章を書くときには、いろいろ意見はあるようですが私は差別語を使わないように気をつけています。弊社のシソーラスでも、差別語を出力することがないように考慮してあります。差別語がキーとして指定されたときでも差別語でない通常の言葉だけを出力するようになっています。

意外な言葉が差別語として扱われていて「アル中」という言葉も差別語なのだそうです。ですから私を指していうときにも「アルコール依存症」と呼んでください。




2007

January

09

日記:: スープ
コメント 0 / 0

 夕食に手の込んだスープが出てしかもおいしかったので、「このスープはおいしいね。」と褒めました。ところがそれはインスタントのスープでした。




2007

January

05

日記:: 反義語
コメント 1 / 0

   意味が対立する語の関係です。否定文を扱うときなどに必要になります。日本語では婉曲的な言い方をするときに否定表現がよく使われます。例えば「憎からず思う」。

意味的に対立するので意味的な距離が遠く思われますが、関連語よりも近く、同義語とほぼ同じになります。近い対立の仕方にいくつかあります。

 

   片方を否定すると対立する相手になる語の関係です。例えば「良くないこと」とは「悪いこと」になるような関係です。

       善  ←→  悪

 

   ある中間的な点を中心にして逆の方向になる語の関係です。

       上  ←(中)→  下

 

   一つの行為を対立する立場で捕らえた語の関係です。

        売る  ←→  買う

 

   さらに対立軸についても考える必要があります。「兄」に年齢で対立する語として「弟」があります。また性別で対立する語として「姉」があります。どちらも反義語になります。  

     

 

     兄  ←年齢的対立→   弟

     ↑

   性別的対立

     ↓

     姉 




2007

January

01

日記:: 謹賀新年
コメント 3 / 0

明けましておめでとうございます。

 今年が皆様方にとって、すばらしい年でありますようにお祈りいたします。

今年もたいしたことは書けませんが、日本語処理のシステムに取り組んでいて思いついたことを書いていこうと思っています。

 弊社は今年の正月は5日の日を休むと8日まで休めるので、9日よりスタートいたします。

 昨年の正月にはお酒が2升なくなってしまいましたので、今年は休みも長いので3升用意しました。

 今年もよろしくお願い申し上げます。




2006

December

29

日記:: いいとしをお迎えください。
コメント 1 / 0

「いいとしを」と言われるたびにその後に「してますね」と聞こえてしまう今日この頃です。

ブログを始めて一月ですが、来年もできるかぎり続けるつもりですので

よろしくお願いいたします。

それでは皆様よいお年をお迎えください。




2006

December

27

日記:: ズボンのすそ
コメント 0 / 0

ズボンを買うと、すそを20センチ以上切って端を捨てます。毎回、地球に優しくないと思います。




2006

December

26

日記:: 表記の揺れ
コメント 1 / 0

 同義語のうち発音も同じものを表記の揺れ(異表記語ともいう)と言います。日本が地震国のためとは思いませんが、日本語では標準とされている表記の他に複数の「表記の揺れ」が許されている語があります。個人により、機関によりいろいろな表記が氾濫しています。極端な場合には同じ著者が書いた記事でも表記法が違うことがあります。複数の機関の記事をもれなく検索しようとする場合には考えられる揺れをすべてキーにして検索しなければなりません。

 漢字と仮名による表記の揺れ

  犬、イヌ、いぬ

漢字表記の揺れ

 沈殿、沈澱     「澱」の字が常用漢字でないので「殿」の字を代用した。 

  超電導       JIS

  超伝導       学術用語

  外来語を仮名書きするときの揺れ

  インターフェース  新聞 1996年まではインタフェースでした。

  インタフェース   JIS

  インターフェイス  学術用語

  インタフェイス  

古い記事を扱うときは異体字も問題になります。

 國語、国語

送り仮名の違いによる表記の揺れ

    行う、行なう

 打ち合わせ、打ち合せ、打合わせ、打合せ、打合

(内閣告示の「送り仮名の付け方」の中にも複数の表記が許容されています。)

 

追伸:言語工学研究所では、同義語や表記の揺れを標準的な表記に置き換えるソフト    「お勧め語SEO」を販売しています。ご興味のあるかたはお問い合わせください。




2006

December

25

日記:: うだつの町並み
コメント 1 / 0

四国を旅行して脇町で「うだつの町並み」を見たあと池田までJRで移動したときのことです。時刻表を見ると次にくる特急よりも、先に出る各駅停車のほうが早くつくのが分かったので各駅停車で行くことにしました。その途中で悲劇が起こりました。

各駅停車は一両編成でトイレがありませんでした。どうしても我慢できなくて、やむをえず池田の一つ手前の「佃」という駅で降りて用をすませました。用を済ませてタクシーを探しましたがこんどは歩いている人さえ見当たりません。やっと床屋さんを見つけてタクシーを呼んでもらいましたが来るまでに40分ぐらいかかりました。待って乗れば良かった特急も停車駅ではないので通過してしまいました。年のせいとはいえさんざんなめに、あいました。




2006

December

22

日記:: 同義語
コメント 0 / 0

シソーラスの中で重要な位置を占める同義語について述べてみます。

 英語で1人称単数は″I ″だけですが、日本語には「私」「僕」「我」「小生」「我が輩」「手前」「愚生」と数十あり、話者と相手との関係で使い分けられています。日本語にはなぜ同じ意味の語、同義語がこんなに多いのか考えてみましょう。

外来語
日本語のなかに奈良時代には中国から、最近は主に米国から輸入されて日本語の中に入ってきている語があります。


  大和言葉         漢    語        片仮名語    英  字
 打ち合わせ       会議         ミーティング 
  しお         食塩         ソルト    NaCl
          読み出し専用メモリー   ロム      ROM

多少のニュアンスの違いはありますがすべて同義語といえます。このような組み合わせが日本語のなかにたくさんあり、これが同義語を増やしている大きな原因です。大和言葉は親しみやすさを、漢語は権威を、片仮名語は近代的な感じをあたえます。また最近は「計算機」が「コンピューター」から「パソコン」に、「写真機」が「カメラ」になるといったふうに、漢語が片仮名語に置き換わる傾向があります。わが国は工業製品では輸出超過だそうですが、用語の世界では大幅な輸入超過です。

 

省略形
「特別急行」→「特急」のようなものをいいますが、「マスコミ」は「マス・コミューニケーション」であったというように省略形の方が4拍の新しい語として定着してしまっているものがたくさんあります。省略の程度も地域によって異なります。関東よりも関西の方が積極的に省略するようです。

「弱冷房車」(JR東日本) = 「弱冷車」(JR西日本)

 英語の単語の先頭の文字だけを集めた語(頭字語)もこの省略形に入れるべきでしょう。
  「Read Only Memory」 ROM

 

通称
 通称と正式名が両方使われています。
 「首相」 = 「内閣総理大臣」

 

年号
わが国だけの問題ですが年号が2種類あります。さらに漢数字とアラビア数字が両方使われます。
 「2006年」 = 「平成18年」 = 「平成十八年」
 

立場による語の違い
 立場によって同じことを違った語で現す場合があります。例えば政府は「公的資金」といいますが、「税金」を払う人は「血税」といいます。検索する人は「税金」という語で引きます。

 

語の陳腐化
語は使い込んで身近なものになると同時に陳腐化して、新しい語ができてきます。古い語は使用方法が制限されるようになり、だんだんと消え去ります。特に人や人の職業を表す語は変化が激しいようです。例えば「お前」という語は元来相手を直接指しては失礼に当たるので、相手の前を指して間接的に相手を指す非常に丁寧な語だったのだそうです。同じように間接的に指す例として「閣下」、「殿下」などがあります。しかし長い間にすっかり陳腐化してしまって、「お前呼ばわりをする」という語があるように今日では上司に対して使うと問題になります。「女中」という語は「お手伝い」「ハウスキーパー」などという語に置き換えられて現在では差別語にまでなってしまいました。

また毎回同じ言い回しばかりだと物足りなくなって、新しい言い回しをしたくなります。
 「ヒットを打つ」 = 「バットが火を吹く」
 「日本全国」 = 「北海道から沖縄まで」

 

慣用句
日本語の意味空間では、慣用句が大きな位置を占めています。慣用句についても考慮する必要があります。
 「額に汗する」 = 「働く」 
 「水をあける」 = 「引き離す」
         (「水をあける」には「水」の意味はまったくありません)




2006

December

21

日記:: 時間比率
コメント 0 / 0
同世代の人は「物覚えが悪くなった」とか、「根気がなくなった」とか愚痴をよく言います。私の場合は幸いに、もともと物覚えが悪く、根気もなかったのであまり悲壮感を感じません。何が幸いするか分かりません。ただトイレの回数が増えてかつ1回の時間もかなりかかるようになりました。一日の中でトイレに入っている時間は1桁ぐらい増えたのではないかと思います。



2006

December

20

日記:: 目的によるシソーラスの種類
コメント 0 / 0

シソーラスは用途によって分類できます。
 用語統制用シソーラス
  記事を書くときに用語を標準化する。
  例:新聞社、JST、医学中央雑誌
  
 ロジェ型シソーラス
  文章を推敲するときにより適切な言葉を探す。
  例:分類語彙表
  
 自然言語処理用シソーラス
  すでに書かれている記事をコンピューターで扱うとき。
  検索、意味の分野まで立ち入った言語処理。表記の揺れなどもすべて扱う。
  例:言語工学研究所シソーラス




2006

December

19

日記:: 女性にあったら
コメント 3 / 0

女性にあったら容姿を褒めるべきです。そのほうが、ものごとが和やかに進みます。「無理だ」などといってはいけません。大事なのは練習です。私などは目をつぶっていても言えます。




2006

December

18

日記:: シソーラスとは
コメント 0 / 0

「シソーラスって御社の商品名ですか」という質問をときどき受けますので少し書いてみます。細かいことは弊社のホームページに書いてありますので、そちらを参照してください。

シソーラスとは辞書の一種です。普通の辞書はアイウエオ順、アルファベット順、画数順などで整理してありますがシソーラスは意味で整理した辞書です。聞くところによりますとインドでは数千年前からあったそうです。「同義語」、「広義語(上位語)」、「狭義語(下位語)」、「類義語」などの意味的な関係をたどりながら引きます。ものを書いているときや、検索をするときにより適切な言葉を探すときに使います。また意味の世界まで立ち入った自然言語解析をするためには必須のツールです。

古い版ですがこのブログから試用できるようになっています。使ってみてください。




2006

December

15

日記:: シャンプー
コメント 0 / 0

大分前の話になりますが、家族で海水浴にいったことがあります。夕方、宿に帰ったら、頭皮が痛いのです。何か付いているのかと思い2回もシャンプーをしましたが、痛みが取れません。女房に見てもらったら、「あなた日焼けよ」といわれました。




2006

December

14

日記:: 5段動詞と1段動詞
コメント 1 / 0

5段動詞のエ段の活用形が普通可能の意味を持ちます。例えば「動く」→「動ける」。

可能形が(下)1段動詞の自動詞になる動詞があります。

  5段動詞    1段動詞

砕く      砕ける

裂く      裂ける

解く      解ける

切る      切れる

割る      割れる

 

このような動詞はどういうわけか、ほとんど分散するような意味を持っています。ここに上げた以外にもいくつかあります。探して見てください。またもしかすると文語文法で何か理由があるのかも知れません。ご存知の方は教えてください。




2006

December

13

日記:: ドアをノックされたら
コメント 2 / 0
私はドアをノックされたら必ず「どうぞ」と答えます。トイレに入っているときでも。



2006

December

12

日記:: 構文解析
コメント 0 / 0

構文解析の試用サイトをオープンしました。

http://www.gengokk.co.jp/koubun/

使ってみてください。

手前みそになりますが、作った側からの特徴を述べさせていただきます。

 

1.無意味な係り受けをださないように、構文構造がまとめた形になっています。

「解析について問題はなかったということです。」という文を解析してみると次のようになります。

 

解析について─┐              | 解析に─┐

     問題─┐           |    ついて─┐

かったということです。     |     問題は─┐

                                    |     なかったと─┐

                                    |          いう─┐

                                    |                  ことです。

 

右側はこれまでの構文解析のもので、

 

  係り     受け

  解析に   ついて

  ついて   問題は

 

のように無意味な係り受けを出していました。

これを実現するために次のような項目数の辞書を用意しています。

自立語辞書(で書いた部分)         220,000語

     付属語(