BlogもどきのWeblog

備忘録と日々の呟きとメモとCGIの実験場とされる何か。
プロフィール

GLANSHE
絵描き担当らしい

Total: 31142
Today: 16
Yesterday: 99
最新の記事

コンテンツ

最新のコメント

最新のトラックバック

カテゴリー

リンク

ニコ動MyListLink

4/10ゼミ
今日は某大学の入学式だったらしい
M1の人々がスーツ着てたりしてた

今日はとりあえず自己紹介だった。
今年もohさんが(とりあえず半年は)居るらしいので何とかなりそうな気がしないでもない。
…と言うその考え方がマズイという事に最近気付かされた。もっと努力しないと…

今年のゼミは火曜日の午後になるようだ

どうにも今年の4年生の担当が決まらなかったので、勝手に決めた。
文句は受け付けません(ぇー


time stamp:2008/04/10 22:55:28
トラックバック(0)|コメント(0)
コメントを書く
この記事のトラックバックURL:

12/3ゼミ(2)
昨日の続き。

次の発表はw君。
Webファーミングにおけるユーザ個別化に関する研究。らしい。

Webサーバより取得したWebログをユーザ認証、Cookie、セッション識別等によりユーザを個別化する。

ユーザ認証はユーザIDとパスワードによるWebページのログイン、Cookieにはユーザ識別用のIDを書き込み、セッション識別ではサイト内での行動をURLに情報を埋め込む事でそのサイトから出るまでのユーザの行動を把握する。
トランザクション識別では、それらの方法から個別化したユーザの行動を追跡し、ページの閲覧時間等から意味のある行動を割り出し、それらの情報を元にしてマイニングを行う。
マイニングアルゴリズムはAprioriを用いる。

マイニング結果をルールとして、よりよいデータソースを取得する為にWebサイトを再構築する。

まず、やろうとしている事が過去に研究室でやった事とほぼ同じ。
s.s先輩とs.t先輩の論文は参考文献に入っていたので読んだのだと思うけど、その前段階のh.o先輩の論文が、今回のpptでやろうとしている事に相当する研究なので、その論文も読むこと。
トランザクション識別に関しては、その論文に書いてあるはず。

卒業研究ではWebログからユーザの個別化をするという事なので、確か研究室に国際会議のWebログが存在するはずなので、そのWebログ等を見ること。

w君のやろうとしている研究は、h.o先輩がWebログマイニングについて研究し、s.t先輩がそれを受け継ぎ、そのマイニングの為に必要なデータを効率よく取得する方法についての研究を行い、更にs.s先輩がそれまで不完全であったユーザ個別化についての研究を行った、という一連の研究の継続研究なのです。
S先生としては、ここまでの一連の研究の中で「個別化されたデータ」と言うものをマイニングする。と言う事をやって欲しいらしい。

その辺を研究室の先輩と相談すると研究の方向性が見えてくるかもしれない。


次の発表はk君。
検索エンジンを用いたWebコンテンツマイニングに関する研究。らしい。

Google等の検索エンジンから、とあるキーワードに関する情報を機械が収集し、その収集した情報の中から人間が必要としている情報を機械が判断し、提示する?らしい。

キーワードを入力すると、検索エンジンから検索結果を拾ってきて、それらをいくつか選び出す。選び出す方法はpptからでは不明。背景知識を利用?
次にその選び出したページのタグを除去し、テキストのみのデータにする。それを和布蕪を用いて形態素解析をする。
解析結果を頻度分析してマイニングにかける?何がしたいのかよくわからない。

マイニング方法にもいくつか方法があるけれど何を使うのか、どのような知識を発見したいのかを言う必要性がありそう。
先輩の受け売りだけど、
「全体像がこうありまして、自分はこうやりますよ。
全体的にこういう完成を目指すんだけど、
自分としてはこの部分をやりますよ。」
と言うところをもう一回考え直してみるとまとまるかもしれない。

発表でS先生が少々キレてたけど、あまり深く悩まなくても大丈夫。これからよくすればいいんだ。
あと発表の時にちょっとくらいどもったり詰まったりしても誰も気にしてないから気にしないで自分の言いたい事をちゃんと言うのがいいと思う。なんなら事前に発表用のテキストでも作ってみると楽かも。

ゼミでも言われていた事だけど、どうも「やりたい事」とpptの間にズレがあるのが現時点で最大の問題らしい。pptを見ても研究の全体像がちょっと見えて来ないので、きちんと「やりたい事」を表せるようにすること。


発表人数が多くて大変だった…。


time stamp:2007/12/04 22:32:16
トラックバック(0)|コメント(0)
コメントを書く
この記事のトラックバックURL:

12/3ゼミ(1)
12月に入りました。そろそろ追い込みの時期が始まろうとしているようだ。
今日はS先生が少々キレた。比較的驚愕した。

最初の発表はo君。
人間の問題解決過程理解のためのACT-Rモデリングに関する研究。らしい。

ACT-Rを用いて計算やパターン導出認知過程の仮定的なモデリングをして、実際の人間から取得したEEG,fMRI等のデータとの認知時間による比較、検討を行う。

今回は視覚情報や心的表象(私たちが心の中(頭の中)に思い浮かべる情報)に焦点を当て、ACT-Rが数字パターン(63 66 65 68 67 ○)に対して6番目に来るであろう数字を予測する、といた実験をしていた。

ACT-Rには数字列を心的表象として認知し、それらの数字列のパターンを探索し、そのパターンを新たな心的表象として持ち、そこから6番目の数字を予測する、といった一連の認知活動を設定(この辺りは自信薄)。
その過程の中で、ACT-Rのモジュールがそれぞれの時間帯でどのような活動をしていたかを表していた。

自分としてはあまり言う事がない。ohさんが何か言っていた気がするのでそれを参考にして欲しい。何を言っていたかは覚えていない(ぇー


次の発表はn君。
知識ベースを用いたマイニングのための知識発見支援に関する研究。らしい。

既存のデータ群から新しいデータセットを作り出すらしい。
それが意味のないデータではいけないので知識ベースを利用して計算可能なデータを組み合わせて意味のあるデータセットにするのが目的。

宣言的知識と手続的知識を用いてデータ群からそのデータの意味を見出し、それらを推論する事によりデータを組み合わせてデータセットにする?よくわからない。

正直、pptに示された例だけでは自動的に新しいデータセットが作られるかどうかわからない。自動的に生成されたデータセットがまったく新しいデータセットだったとして、それが本当に有用なデータセットかどうかは不明。その辺の判断がよくわからない。敢えてよくわからないデータセットにもマイニングを噛ませて新しい知識を得るのが目的なのだろうか。
プログラムに期待。

次の発表はk君。
分散Web推論エンジンの協調に関する研究。らしい。

Web上に分散している推論エンジンを協調させて推論を行うシステムが目標。
現段階でやっているのはいくつかのサーバから目的のデータを検索するシステムを実験で作っているらしい。
現時点では実はWeb上ではなく、Linuxのワークスペース内を検索している?

ohさんが言うところによると、早く実サーバ上で動くプログラムの仕様にしないと、最終的に身動きが取れなくなるとのこと。割と時期も時期であることと、kis3サーバが復活した事も含めると、そろそろ移行した方が…。

[*07/12/04 23:09:10 修正&追記]
最終的な目標が次世代Webのセマンティックウェブの分野だと思うので、その辺を勉強した上で推論エンジン間を行き交うデータの仕様を考えると言う事なのだろうか?オントロジーとかメタデータとかを使うのだろうか。
どっちにしろ推論エンジンという概念的な物に渡すデータ、出てくるデータをどのように統合させるかが課題っぽい感じ。

何か自分が勘違いしてたらしいので修正。

通信のプロトコルがhttp1.1だとサーバ間の通信データの種類が少なすぎるので別のプロトコルを使う方が後々よい結果が出そう。
最終的にProlog(推論エンジン)に検索ワードを渡していくつかのエンジンを渡り歩かせる?のでhttpだと通信の為の情報の種類が足りない模様。
どのようなデータを持たせるのか、どうやって結果を持って帰ってくるのか、等の仕様をまとめないと後で困るようなので早急に決定しなくてはいけないらしい。
KQMLがお勧めのようだ。
ohさんからの又聞きなので自分はいまいちわかっていないが、卒業研究としてやる事をもう少しohさんと詰めた方がよさそう。


もう眠いので後の二人は後日と言う事で。


time stamp:2007/12/04 00:26:45
トラックバック(0)|コメント(0)
コメントを書く
この記事のトラックバックURL:

10/22ゼミ
今日はhさんの発表だった。
来週iさんが来ないと自分の発表になるらしい。
ぇー当初の予定では11/12だったじゃん…

とりあえず思った事箇条書き。

行政サービスのIT化について話?
市民が行政に対しての質問、意見、要求等をインターネットを通じて受け取り、それを知能化コンピュータが処理し、自動的に市民に対して返答をするような、自動化された行政の確立を目指してる?ようだ。

その辺で興味を消失し、文面も英語なので気力が失せました。
そしてSAI弄り始めたのは秘密。


time stamp:2007/10/22 19:38:13
トラックバック(0)|コメント(0)
コメントを書く
この記事のトラックバックURL:

10/15ゼミ
学校来る前にコンビニ行っていたのでゼミに遅れると思ってたら実際研究室に来たらちょうど発表が始まるところだった。
そして何かゼミの時間が変更になる?ような事を話していた。10時なんて起きたくありません。何とかして下さい。かといって夜から始めるのも嫌だよー(・ω・`)

最初の発表はsさん。
使用者の求める情報を提供するシステムに関する研究。らしい。
使用者と言うのはWebの利用者を情報を提供する「提供者」と提供された情報を利用する「使用者」の二つに分けた方の使用者の事。
使用者が欲しい情報をポータルサイト等で求めた時に、分散推論エンジンによって「提供者」によって提供されている的確な情報を推薦するシステムの構築がメイン。
従来の「検索エンジン」ではキーワードのマッチングでWeb上の情報を検索している為、あまり使い勝手がよくない。
よって「推論エンジン」を用いて、この問題を解決する。
また、専門的な情報に特化している「推論エンジン」をいくつも協調させる事によって、「使用者」が求めている情報を正確に推薦する事が目的。

「推論エンジン」は「使用者」から受け取った自然言語による文章(「使用者」が必要とする情報)を分解し、意味を理解し、自身が理解出来る箇所については自身で推論をする。理解出来ない部分については他の「推論エンジン」に渡し、「使用者が求める情報」を推論し、その結果を統合して「使用者」に返す。
これが全体の構想?リストにする際の重み付けはどうするんだろう。


pptで「a:分散Web推論エンジン」、「b:Web推論エンジン」、「c:推論エンジン」の順で説明されていたけど多分
a⊇b⊇cだよね?
a:分散Web推論エンジンの全体図を示してその内部に存在するb,cをそれぞれ示して説明するとわかりやすいかも。

後はRDFとかオントロジとか格文法とか説明されてるけどその辺りが全体的にまとまってないような?つらつらと単語の意味だけ説明されても何の為の説明なのかちょっとわからなかった。
まぁ、自分がセマンティックウェブについて理解してないのもあるのかもしれないけど。

Jenaに関しては説明聞いてなかったので何をしたのか知らないのでノーコメント。Reasonerを使うと推論出来るらしいけど、だからOWL,RDF,オントロジについて自分は理解していないんだってば。

次の発表はhさん。
だったけど聞いてなかった。
pptは後から見たけど…
正直理解したくない内容だった。今までもまともに聞いてなかったけどこれは聞いてたら寝る。確実に。脳波関係はムリ。
o君は来年もこの研究を引き継いで頑張って下さい(ぇー

先輩達の外部発表がいつになるかの話で、この時期になるともうKBSEくらいしか残ってないらしい。もう少し前だと北海道旅行に行けたのにーとか言ってた。
来年は参考にしてみようかな(笑
ところで自分の発表が1ヵ月後に迫ったらしい。
時計の針戻らないかなぁ。


time stamp:2007/10/15 19:43:20
トラックバック(0)|コメント(2)
コメントを書く
この記事のトラックバックURL:

10/8ゼミ
10/10まで日がありません。4年生は頑張ってください。
自分は…何しようかorz

最初はw君。
WebFarmingにおけるユーザ個別化に関する研究。らしい。
けどpptの内容と実際に言っている事は結構違う内容。
多分一番の問題はsさんのpptをほとんど流用している事。
自分の言おうとしている事に関して同じ内容があれば流用しても構わないだろうけど、流用しすぎて自分の言おうとしている事が潰れるのは問題。

聞いた限りでは、sさんの研究をベースに、マイニングを主とした研究をやりたいそうだけど、卒業研究としてやるのはユーザ個別化までのようだ。
ぶっちゃけsさんはユーザ個別化についてかなりよいところまで実装していたと思うので、これを卒業研究にするなら少なくとも別の方法、もしくは別段階においての違う手法を用いる必要があると思う。
そうでないと、何の実りも無い研究になってしまう。

それとWeb Farmingについて理解が足りないのは多分間違いが無いと思う。
Web Farmingとは簡単に言うとまず欲しいデータが存在し、そのデータを収集する為のWebページを作成し、その収集したデータをマイニングする。
そのマイニング結果を再利用して、より質の高いデータの収集をする為にWebページの改善をする。
と言うような、マイニングの為のデータを育てる事が重点に置かれている。

後は、ユーザの背景知識を利用して個別化をするらしいけど、その背景知識は何処から入手するのか。また、特異性指向マイニングを使うと書いていたけど、本当にそのマイニング手法が向いているのか、別の方法は使わないのか等、"自分の研究"にする為に必要な点が多々欠けている。

10日まで日がありませんが、少なくとも自分がやりたい事くらいはちゃんと言えるように修正して欲しい。


次はk君。
検索エンジンを用いたコンテンツマイニングに関する研究。らしい。
キーワードを検索エンジンにかけて出てきた検索結果をタグ除去してテキスト形式に変換。
その後目的のキーワード近辺の文章を茶筅(形態素解析するプログラム)にかけ、そこから名詞を抽出。
その名詞を出現頻度や背景知識(近接後やオントロジー等)を用いて重み付けをして、リストにし、それを更に検索エンジンにかけて同じ事をする。
その結果をデータベースに格納(このDBは何に使うか未定らしい)する。
しかも実際にやりたい事は文章の復元?らしい。

最終的にどのようにするのかは未定であり、やった事の経過発表のような内容になっている。
そろそろ方針を定めないと最後で動けなくなる可能性があるので少しは意識して欲しい。
最後の格納したDBを何に使うのかを仮定でも良いので決めないと中間発表で質問された時答えられないので注意。


明日は発表練習をするそうだけど、5分と言うのは案外短く、一枚に割ける時間を気にしながら作ってみるとよいかも。
それと一度言う事をテキストに落としてみて、実際に時間を計りながら喋ってみてもよいと思う。
でも発表時は余計な動作とかも入るのでテキストが5分ぴったりになっても伸びるので注意。


まぁ、なるようになるし、失敗しても大事にはならない。あまり気負いすぎなくても大丈夫じゃないかな。


time stamp:2007/10/08 17:45:42
トラックバック(0)|コメント(0)
コメントを書く
この記事のトラックバックURL:

10/1ゼミ
10/10に卒業研究の中間発表があるので、それに向けて4年生の発表だった。

最初はo君。
ACT-Rを用いて脳の計算過程シュミレーションを行ったらしい。
最初あんまり聞く気がなくてトラックバックの修正をしてた。
途中を少し聞いたけど全く理解出来なかったので放置(ぇー
ゼミ後にpptを少し読んだら何となく理解出来たような?間違ってたら誰か訂正お願いします(ぉ

ACT-Rってのは脳の認知活動のシュミレータのようなもので、初期設定と関数を設定する事によって、目的の脳活動をシュミレーションするらしい。
それで、その実験結果を脳波チームがやってる人間の計算過程の脳波と比較してみるようだ。
ppt見た限りでは実験結果の表が何を表しているのかよくわからなかった。
S教授と脳波チームがこの発表について長々と議論していたのでその議論で何か言ってたのかもしれないが、自分はそれを全部聞いていなかったのでわからず。
まぁやろうとしている事はppt読み直しで理解出来たつもりなのでいい事にする。
でも声小さすぎ。もう癖とかなのは理解出来るけど、正直耳の悪い人間には何言ってるかさっぱりわからないので発表の時くらいもう少し大きな声で話すべき。


次にn君。
既存のデータセットを組み合わせて新しいデータセットを作るらしい?
しかし適当過ぎる組み合わせでは意味の無いデータセットが出来てしまうので、推論エンジンを用いて組み合わせたデータセットが意味のあるデータセットになっているかを検証するのかしら?
推論エンジンは知識ベースを元にして推論を行う。
知識ベースの構築は宣言的知識と手続的知識から構成されていて、
宣言的知識は意味ネットワークを用いて表現されるらしいけど、この辺から理解不能だった。多分自分が知識ベースについて理解していないからだと思うけど(ぇぇぇぇ
実行例を見る限り、何か出来そうではあるが、ゴミデータも大量に出そうな気も。
しきい値を設定する事で色々調整も出来そうだけど、大量のデータを扱うからメモリとかの容量の関係からめんどくさい事にもなりそう。まぁ今は考えなくてもいいのかもしれないけど。
とりあえず意味ネットワークとかの宣言的知識が何言ってるかさっぱりわからない。
意味ネットワークの要素を使って実行例を出してもらえれば何となくやりたい事の意味はわかるのかも。


最後にk君。
Web上に散らばるWeb推論エンジンを協調させる事によってよりよい検索結果を得る事を目標にしている?らしい。
推論エンジンと、その協調について同時に色々やろうとしているので何だか大変そう。漠然とした完成イメージは何となくつかめるけど色々と手を出し過ぎて支離滅裂になってる感じ。
タイトルが"分散Web推論エンジン構築の為の協調に関する研究"となっているので今はソケットプログラミングによる通信、入出力関係の構築をした方がよいのではないだろうか。
とりあえず完成図の理想を語って、今出来ている事を言えばよいのでは?とか思った。それで良くなるかどうかは知らない。
後、色々書いてはいるけど諸所で飛ばしてたのは気になった。一枚のページで視聴者が全部読む前にそのページすっとばすのはせっかく書いたのが無駄になってるような気がする。
中間発表では確かに5分しか時間が無いとは言え、せっかく書いたページをすっとばすなら最初から要点だけ書いた方がマシなのではないかなぁ。
まぁ、使い回しで凌ぐってだけなら別にいいけど。


次の発表まで覚えてられたらいいなぁ(ぇー


time stamp:2007/10/01 19:46:02
トラックバック(0)|コメント(0)
コメントを書く
この記事のトラックバックURL:

<< old
何かしら