2012
May
16
2012
May
07
同義語、広義語、狭義語、関連語などをたどりながら探します。
研究の取りかかりの段階では広義語、関連語などを調べて幅広く手がかりを探します。一方、研究の最終段階では、問題になる点を同義語、狭義語を調べてピンポイントで探します。
言語工学研究所のホームページで使って見られます。試してみてください。
2012
May
06
「舟を編む」を読みました。
我々もコンピューター用の辞書を作っているので興味深い話でした。
我々は用例をグーグルで探しています。
用例採集カードは、係り受けだけなのですがパソコンのファイルにしています。
バックアップが簡単にとれるので、火災などの事故にはこの本のように気にしてはいません。
我々の辞書は語釈がないのでこれだけですんでいます。
我が家のテレビの前にも、メモ用紙と筆記具がおいてあります。
「恋愛」の意味を異性だけに限るかという話がありましたが、我々の辞書では異性だけに限っています。
工学的な辞書では何パーセントの人がその意味を連想するかを予想して採択するかどうかを決めます。
細かな使用例は無視します。その方がより多くの人の役に立つだろうと考えます。
とは言ってもやはり検討に時間は掛かります。
2012
April
11
弊社のシソーラスが下記のサイトの社会人向けアプリ特集で紹介されました。
AppBankというiPhoneアプリの紹介サイトです。
http://www.appbank.net/2012/03/27/iphone-application/388871.php
お陰さまで売れ行きが大幅に増えました。
皆様もぜひご検討下さい。
2012
April
06
何十年ぶりで、旧友と飲みました。老い先短いので、生きているあいだにしゃべってしまおうというわけかみんな良くしゃべる。こちらもすっかり良い気分になってこの年をして午前様をやってしまいました。
2012
March
30
会社に来る途中の家に白木蓮が咲いていました。待ちに待った春が来ました。
後楽園に行って来ました。前回咲いていた梅は散ってしまっていたのですが、別の梅が咲いていました。香りが良かった。梅の報が華やかさは少ないのですが花が長くて香りが良いのですきです。私には、あと何回梅の季節が来るのでしょうか。
2012
March
15
2012
March
14
シソーラスを組み込んで用語同士の組み合わせを考慮しながらポジネガ判定をするプログラムを作っています。人が判断した結果に比べて現在86.2パーセントの精度です。先週からいろいろな手を考えて組み込んでいるのですが、0.2ポイントしか精度があがりません。複文をもっと分類して整理する必要があるのでしょう。
2012
March
05
2012
February
27
2012
February
24
私のお世話になっている先生の一人に東京外国語大学の佐藤大和先生がおられます。
昨日その先生の最終講義があり私も聞かせていただきました。
先生は日本語の規則音声合成を日本で最初に手がけられたかたです。
私が音声合成に関わったときは、先生のお書きになったペーパーを読むことが最初の仕事でした。
当時は一部はまだ手書きのペーパーでした。お名前も大分あとまで「やまと」と読んでいました。
また名もない零細企業の私に学会の場で発表する機会を作っていただきました。
そのお陰で、私がいろいろな場に出る機会ができて、商売にも大分役にたちました。
まだしばらくは東京外国語大学にご在籍だそうで、これからもいろいろとお教えを請いに伺う積もりです。
ありがとうございました。
2012
February
20
いつも早く来てくれている社員が今日は休みです。
そんな日に限って鍵をわすれて、事務所にはいれませんでした。
社員に電話をしてすぐに来てもらい、なんとか部屋に入れました。
考えてみると忘れ物は小学校のころから多かった。
2012
January
29
昨日転んで目の上を打って今顔がおいわさん状態です。
転んだときに手をついたのでが、反応が遅くて顔で地球を受け止めてしまいました。
「どうしたの」と聞かれたので「転んだ」と答えたら、
みんなに「酔っ払って」と先に言われました。
でも顔で良かった。手を怪我したらご飯が食べられなくなってしまう。
2012
January
18
記事の内容が推奨か非推奨かを示す言葉としてこれまで「良しあし」という言葉を使ってきました。
なじみやすい言葉なのですが、この言葉は文章の間違いがあるかないかという意味に取られてしまいそうです。
「ポジネガ」という言葉も考えたのですが推奨か非推奨とは直接関係がないように見えます。
「推奨」「誹謗」という言葉を使ったこともあるのですが「誹謗」という言葉が強すぎるようです。
何かよい言葉の組み合わせはないでしょうか。
どなたかご教示ください。
2012
January
05
2012
January
03
2011
December
30
いつも6時になると飲み始めるのですが、休みになると6時まで我慢するのが大変です。
もうすぐ会社に行かなくてもよいようになったら、毎日どうやって過ごせばいいのでしょうか。
心配です。
2011
December
29
2011
December
27
毎朝ツイッターとフェースブックで「株式市場」をキーワードにしてツイッタライザーで評判分析の結果を投稿していました。
明日からしばらく、ツイッタライザーによる「株式市場」の評判分析を休止します。
ポックリ逝ったのではないかと思わないでください。
正月は酒びたりになりそうなので。それに東証も休みですから。
来年からは「株式市場 東京」でチェックします。
「株式市場」だけだとニューヨークの影響を受けてツイッタライザーの分析と違ってしまうような気がするので。
2011
December
26
2011
December
19
2011
December
14
2011
December
10
2011
December
07
2011
December
06
ツイッタライザーで良しあしを色を付けて表示しています。これまで良いが青で、悪いが赤で表示していました。これは交通信号に合わせたものです。それを先日私の意見で逆にして良いを赤、悪いを青にしました。青というと、気分がブルーだとか、マリッジ・ブルーなどという言葉があって青は沈んだ気分の色だと考えたためです。NHKの株価情報なども、値上がりした時は上矢印が赤系統の色で、逆に値下がりしたときは青系統の色で表示しています。
皆さんはどう思われますか。
2011
November
27
2011
November
22
頂上は紅葉していましたが、麓はまだで紅葉するまでにあと半月ぐらいかかりそうでした。麓から歩いて登りました。天気も良くて久しぶりで心地よい汗をかきました。17,000歩、歩きました。
2011
November
19
2011
November
18
始めて以来の大修正です。
でも、こんな。ものです。ぜひご覧になってください。
何かご意見はありませんでしょうか。
ホームページ http://www.gengokk.co.jp/
2011
November
04
2011
October
21
2011
October
18
料理のレシピを見ると調味料にお酒が書いてあります。我がシソーラスではお酒は調味料に分類していません。お酒はそれだけで飲むもので、調味料として料理にいれたらもったいない。だいいち調味料にお酒が入っていても、いなくても私の舌では分かりません。
2011
October
06
2011
October
04
2011
September
23
2011
September
21
震災の時はたまたまつまみがあったのですが今回はありません。アナログのテレビも映りません。
前回はツイッターに感激しました。
また飲み明かすことになりますが、さきほど夕飯を済ませたので。何も心配はありません。気候も良いので下着だけで過ごしています。
2011
August
31
民主党の代表選挙でほとんどの候補者が「全員野球」という言葉を使っていました。あまり意味の分からない言葉で要するに「挙党態勢」といいたかったのでしょう。
ツイッタライザーによる評価では。
「全員野球」良い26、悪い46。
「挙党態勢」良い59、悪い24。
「オフサイド」良い35、悪い28。
2011
August
11
「株式市場」をキーに評判の変化を調べました。
ここ数日は米ドルの格付けが下がったという問題で変動が大きかったので面白い変化をしていました。
8月 8日 良い16% 悪い69%
8月 9日 良い39% 悪い57%
8月10日 良い69% 悪い30%
8月11日 良い22% 悪い65%
どなたかその前日の株式相場と比較してみてくださいませんか。
他にも何か面白そうなキーを見つけてやってみてください。
ツイッタライザー http://www.twitterlyzer.jp/
2011
August
05
ツイッターライザーの検索結果に良しあしのパーセント表示を付けました。皆さんの身近なもの同士の良しあしを比較してみてください。画面の色も大幅にかわり、交通信号と同じに赤が悪い、青が良いにしました。チェックも早くなりましたので遊んでみてください。
検索は複数の用語を空白で挟んで指定できます。「アンド」に意味になります。
例えば「マヨネーズ キューピー」と「マヨネーズ 味の素」で比較してみてください。
2011
August
01
2011
July
21
2011
July
14
暑いので冷房に効いた博物館によく行く。65歳以上は入場無料なので。一応入り口で年齢を照明するものを見せるが、私はどう見ても65歳以下には見えないだろう。もうすぐそのまま博物館に飾られてしまうかな。
2011
July
13
2011
July
12
2011
July
10
2011
July
07
「ピョンちゃん」なんていうゆるキャラがすぐに思いつく。
エスエス製薬の株価が上がるかな。
ツイッタライザーで「ピョンチャン」の評価を調べたら30件中、良い12件、悪い4件でした。
2011
June
06
2011
May
18
2011
April
18
2011
April
15
株式会社 言語工学研究所(本社:東京都新宿区、代表取締役:国分芳宏)は日本語の文章を独自の理論によって意味解析し、推奨の文章かクレームの文章に分類するクラウド対応ソフト『ツイッタライザー』を開発しました。
『ツイッタライザー』はツイッターやクチコミ、SNS、アンケートの自由回答などを分析します。たとえば商品を「良い」と判断しているのか「悪い」と判断しているのかがわかります。
Googleに代表されるこれまでのテキスト処理では単語(キーワード)を対象として、統計的に処理しています。これに対し、言語工学研究所のソフトは単語と単語との関係を対象として、日本語文法にのっとって総合的に評価します。
本ソフトは100万項目の付属語辞書、1億項目の係り受け辞書などから構成され、約5年を費やして開発しました。口コミサイトの記事(15,000件)を用いて、投稿者の良しあしの判定と本ソフトでの良しあしの判定とを比較した結果、82.5%の精度がありました。
言語工学研究所では4月14日(木)から同社ホームページでベータ版を公開し、企業での試用に応えます。
詳しくは下記をご覧ください。
http://www.gengokk.co.jp/twitalyzer.htm
下記で140文字までの文章を評価する版をご試用いただけます。
http://www.gengokk.co.jp/ywtest/
WebAPIの試用サイト
http://ile.instorm.co.jp/ywtest/ywv1/h/
2011
April
06
推奨の文章か、クレームの文章かを自動的に判定するプログラムがホームページから使って見られます。
下記のサイトで使って見られます。
http://www.gengokk.co.jp/ywtest/
WebAPI
http://ile.instorm.co.jp/ywtest/ywv1/h/
何か良い使い方がありましたらを教えてください。
2011
March
15
日本語では意味も発音も同じなのにいくつもの書き方があります。
打ち合わせ。
打ち合せ。
打合わせ。
打合せ
打合。
これを表記の揺れといいます。日本語に揺れが多いのは日本が地震国のためです。
今回の地震は激しかったので、まだ呼び方が揺れています。
東北関東大震災:NHK。
東日本大震災:フジテレビ:TBS。
東日本大地震:NTV。
東日本巨大地震:テレビ朝日。
東北地方太平洋沖地震:テレビ東京
2011
March
09
2011
February
24
2011
February
20
2011
January
27
2011
January
25
2011
January
23
2011
January
20
7万行登録してあります。さらに係りの名詞と受けの動詞をシソーラスを用いて拡張していますが、用語の多義性の問題が残り、どの意味で拡張するべきかを考える必要もあります。
係りの名詞が1語でおさまらないものがあります。例えば「帰国の途につく」と言ったようなもので、係りの部分が「帰国の」と「途」の2つの文節からなっています。「帰途につく」と置き換えることもできます。今「帰国の途」のように係りの部分が複数の文節からなる係り受けを集めています。
2011
January
19
2011
January
15
規則音声のためにテキストを発音に直す仕事をしています。固有名詞の意味違えが多くて困っています。同じ漢字でもいくつもの読み方があります。「国分」という姓はちょっと前までは私と同じ読み方の「こくぶ」と呼ばれていましたが、最近はTOKIOの「国分太一」の方が有名になって「こくぶん」と呼ばれることが多くなりました。他に同じ字で「くにわけ」と読むひともいるそうです。
国分という姓は元々国分寺に関係があったのっだそうで、いろいろな地方にいます。しかし面白いのは東北の人は「こくぶん」、南の方のひとは「こくぶ」と読むようです。我が家の場合も祖先は関西です。
もうひとつ、同じ字で書いた姓を「くにわけ」のように異なる読み方をするのは私の考えでは、分家をしたときに同じ名前が近所に多すぎることになるので、少しでも変えようとしたためでしょう。
このようにいろいろな読み方があるのは、ルビを振ったり、テキストからの音声合成するシステムの泣き所です。
2011
January
14
昨晩も飲んだのですが、私がホストだったので、早目に会館に行っていました。気にするゲストでもなかったので、先に一人で飲み始めていました。ゲストが少し遅くなったので、ゲストが来たときは私はすっかり出来上がってしまっていました。
多義語 建物が出来上がる(完成)、人が出来上がる(酔う)
2011
January
12
2011
January
11
2011
January
10
2011
January
09
2011
January
06
2011
January
01
昨年9月からフィットネスクラブに通っています。
フィットネスクラブと言っても体重は1キロ増えましたが、体調がよくなりました。
「ブヨンブヨン」だったお腹が「ブヨブヨ」程度になりました。
少し寒さにも強くなったような気もします。
今年もよろしくお願いいたします。
2010
December
31
休みに入って大掃除をしていたら、「日本語の多義語動詞」国広哲弥という本を見つけました。
すっかり忘れていましたが、見るとどこの本屋で買ったかは覚えています。
どこかの本屋で同じ本を見つけたら、また買ってしまったでしょう。同じ本を2冊買って後悔することがよくあります。
おかげで暮れはその本を調べることですっかりつぶれてしまいました。
今年一年ありがとうございました。
よいお年をお迎えください。
2010
December
30
携帯電話を一部の人だけが使っていたころ携帯電話を使う人を「親指族」と呼んでいた。
今はほとんどの人が携帯電話を持つようになったので、親指族という言葉は聞かなくなった。
しかし私は不器用で、人差指で携帯を操作しているのでこんどは「人差指族」というごくまれな人種になりそうです。
2010
November
26
まだ先だろうと思っていたのですが新常用漢字が内閣で告示されるようである。
ご存じのように、この中でシフトJISで表せない文字が4つあります。
𠮟、塡、剝、頰
これらの文字に対応する文字がすでにシフトJISのなかに定義してあります。
叱、填、剥、頬
なぜこんなことになってしまったのか、私には理解できません。
この問題の4文字はシフトJISのなかにある文字を使って、
みんなでシフトJISで表せない文字を無視しようではありませんか。
シフトJISの中の文字の字体を少し変更すればよいだけの話ではないですか。
次回常用漢字を決める人にはもう少し賢い人を選んで欲しいと思っております。
2010
November
12
尖閣諸島の問題でビデオを投稿したIPアドレスが問題になってテレビにもよく「アドレス」という言葉が出てきます。
「アドレス」と平板型のアクセントで話しています。
インターネトがはやり始めたころは、テレビなどでは「アドレス」と頭高でした。
当時、コンピューターの業界では、「アドレス」と平板で話していました。
この言葉が一般的になったということでしょう。
2010
November
09
アンクレットというと足を飾る足輪を思いつく人が多いと思いますが、踵から下だけの靴下の意味もあります。
夏に半ズボンにソックスをはいていたときに家族にみっともないからと言われてアンクレットを履き始めました。
寒くなっても、倅のお古のアンクレットを履いているのですが、これが意外と暖かく快適です。
考えてみれば、昔の足袋もこんな長さでした。一番末端を暖めると良いというのが昔の知恵かも知れません。
アンクレットは若者よりも年寄り向きです。
2010
November
01
2010
October
22
ブラウザで見る場合のURLです http://itunes.apple.com/jp/app/id398300516 ご購入には、iPhone/iPod touch/iPad、またはPCのiTunesが必要となります。 iPhone/iPod touch/iPad、またはPCのiTunesのAppStoreで、 「言語工学研究所」か「類語.jp」で検索できます。 ファイルサイズが約22MBのため、iPhone/iPadの3G回線では ダウンロードできませんので、その場合は、Wi-FiやPCで ダウンロードしてください。
よろしくお願いいたします。
2010
October
19
最初はだめだろうと思ったのですが続いています。
週に2回程度通っています。
でも体重は減るどころか1キロ増えてしまいました。
運動が終わった後のビールがうまいから。
2010
October
16
用語の意味を調べていると世代によって意味の異なるものがときどきあります。
若い世代 中高年
クール かっこいい 冷淡
やばい 魅力的 危ない
話している人の顔を見てから意味を考える必要があります。
2010
October
07
ノーベル物理学賞は「グラフェン」についての研究だそうです。またノーベル化学賞は「クロスカップリング反応」についての研究だそうです。
手前味噌になりますが、弊社のシソーラスにはすでに登録してありました。ノーベル賞をもらうのは研究が終わって知識が一般になってからのようです。
2010
October
04
「ノート」というカタカナ語を手元の国語辞典で引くと5種類の意味が載っています。
覚え書き
注解
筆記
調子
ノートブック
我々のシソーラスには次の4種類の意味を登録してあります。
帳面 この意味が一番普通だと思っています。
パソコン 最近はこの意味でも多く使われています。
注釈
書く この意味は最初はいらないと思ったのですがネットで
調べてみると動詞としての用法も見受けられるので採用しました。
このほかに音符という意味もあるのだそうですが、無視しています。
ちなみに英和辞典のnoteを見ると名詞として10種類、動詞として6種類の意味が載っています。
2010
September
30
宮崎県の東国原知事が次の知事選に「出馬させていただかない」と言っていました。(すぐに言い直しましたが)
難しい言い回しなので、この文を弊社の意味解析プログラムにかけてみました。
その結果、モダリティー(意図)は
否定
依頼
丁寧
意志
と4つがでてきました。
彼は出馬に関して、こんなことが言いたかったようです。
2010
September
22
通ったといってもまだ2回なのですが。何十年ぶりに体操をしました。
周りの人はどうせ三日ぼうずだろうといっていますが、体操着を買ったりして当人はやる気です。
1時間半いといろいろな道具を使って体操をしたあと、30分お風呂に入ってきます。
血圧も下がって調子が良いようです。(暗示に掛かりやすい方なので)
終わった後のビールがうまい。
2010
September
08
純国産という言葉を良く目にします。食品に書いてあることが多いのですが。
はなはだしいのには「純国産だからおいしい」と書いてありました。
どうして国産だとおいしいのか分かりません。
そういえば弊社のシソーラスも当然のことですが純国産です。
これからキャッチコピーに「このシソーラスは純国産だからすばらしい」とでも書いてみましょうかね。
やっぱりダメそうですね。
2010
July
22
「シソーラスを組み込んだ意味解析システム」という論文が自然言語処理 Vol.17 No.4に採択されました。
査読者の方が苦労されたようで、採択されるまでに大分時間がかかってしまいました。
査読者の先生に感謝します。
ご興味のある方は弊社のホームページからも見られますのでごらんください。
ホームページから使って見られるようにしてあります。
http://www.gengokk.co.jp/koubun/
是非ご意見をください。
2010
July
15
いま使っている辞書はぼろぼろなのですが、近々常用漢字が変わるので我慢して使っています。
いつもは辞書はよく使うので使い捨てにしているのですが。
そういえばこの国では総理大臣も使い捨てのようです。
2010
July
14
2010
July
07
おかげさまで我が社も設立以来25年がたちました。皆様のおかげと感謝しております。
25年前というと皆様の覚えていらっしゃる事件では、日航のジャンボ機が御巣鷹山に墜落した年です。
長い時間がたちましたが、まったく大きくなりませんでした。
2010
July
01
大和言葉の「さめる」に対4つの意味で漢字を使い分けています。(後ろの2つは普通平仮名で書きます。)
熱が冷める。
目が覚める。
酔いが醒める。
色が褪める。
しかし、「あまい」に対しては「甘い」という漢字しかなかったので、表記で意味の違いが区別できません。
菓子が甘い。 (甘味である)
検査が甘い。 (手ぬるい)
2010
June
18
世界中が今南アでサッカーでもちきりです。始まる直前まではブブゼラが問題で禁止されるのではないかと騒がれていました。私もブブゼラという単語を辞書に載せるました。しかし、最近テレビを見るとバックで音は聞こえるのですが、あまり話題にならなくなりました。消さないとならないかもしれません。
2010
June
08
2010
June
04
芸名や相撲取りの名前は登録しておいても消えてしまう固有名詞が時々あります。筆者らの辞書には消えそうな固有名詞には、後でチェックして削除出来るように特別なフラグをふってあります。
最近この意味のフラグを付けた政党名をいくつか登録しました。
2010
April
16
地下鉄の東西線と南北線とJRの中央線の交差する所に飯田橋駅があります。
まさに東京の中心です。近くにはいつでもお酒が飲める神楽坂があり、後楽園もすぐ近くです。
ここにみんなに愛されている「言語工学研究所」があります。
その会社では純国産「日本語シソーラス」を作っています。
2010
April
05
人が並んだ状態を言うのにテレビと新聞とで異なります。
大行列ができた。 新聞(短く簡潔に)
長蛇の列ができた。 テレビ(他の人とはなるべく違った言い方をしたいのでしょう)
私はテレビでも、もっと簡潔な言い方ができないかといつも思っています。
2010
March
18
ある権威のある雑誌を読んでいたら「ソフトウェア」という表記を目にしました。
私は書くときも、読むときも「ソフトウエア」といっています。
ソ | フ | ト | ウ | エ | ア 6拍
ソ | フ | ト | ウェ | ア 5拍
私の周りでもみな「ソフトウエア」と発音しています。 コンピューターの畑以外でも「フォーマルウエア」のように「ウェ」ではなく「ウエ」と書いているようです。「ソフトウェア」と書いた方がスマートにみえるのでしょうか。
このような例は「フイルム」「フィルム」などでも見られます。私には「フィルム」と発音するのを聞くとキザに聞こえます。
2010
February
15
コーパスとは文例データのことをいいます。
国立情報学研究所が「Yahoo知恵袋」のデータを研究開発用に提供しています。
弊社も借用して使わせてもらっています。これまで弊社ではコーパスがないので、よいシステムが作れないという言い訳をしてきましたが、これからは、そんな言い訳はできなくなりました。
これらのコーパスを解析してみて、解析プログラムの不備を見つける。
システムを修正した前後でコーパスを解析してみて、うまくいったのか改悪してしまったのかを調べる。
などに使っています。 非常に役にたっており、感謝しております。
2010
February
11
みんなに酔っ払って転んだのだろうといわれました。
最近は飲み歩いてはいないのですが。
一生懸命歩いて体重を維持しているのですが、歩かなくなるとすぐにまたメタボが心配になります。
2010
February
04
論文といっても技術資料なのですが自然言語処理という雑誌の今月号に載っています。
「複数の観点で分類した自然言語処理用シソーラス」Vol.17 No.1 P247
ホームページから読めますので、ぜひ読んでみてください。
これまで「かく」ものといえば「恥」で、「買う」ものといえば「顰蹙」ぐらいだったのですが
おだてられて書いてしまいました。
2010
January
26
前にも書いたかも知れませんが「ている」という付属語の並びは前に来る動詞の性質によって意味が変わります。
「切れている」 過去の結果の状態
「見ている」 現在進行
先日、友人に「奥さんは、いつも何しているんですか」ときかれました。
すぐに私は「太っています」と答えました。
そう「ている」にはもうひとつ意味があります。
現在の状態を表します。
久しぶりで音楽会に行ってきました。バイオリンとビオラのための協奏交響曲を聞いてきました。ハーヴィー・デ・スーザというインド生まれのビオラ弾きですばらしい演奏でした。こういう演奏を聞くとまたビオラを弾いてみようと思うのですが、実際に弾いてみると現実の厳しさを知らされます。