最後のセッション

うちの研究室の発表があった。
まずは、XPathを用いてXML化されていない構造化されているテキストを検索するというもの。このための共通インターフェースとラッパー(フォーマット依存部)の機能分担のしかたが研究テーマだった。すこしいまいちだと感じたのが、結局のところ構造化されていないテキストのフォーマットそれぞれについて結局ラッパーを作らないと駄目だと言うところ。あんまり使えない。フォーマットを自動認識してラッパーを自動的に組み立ててほしい。
かなりのことはxpathによる問い合わせをわざわざ使用せずとも、grepなどの従来のツールである程度のことはできてしまうと思う。もしかしたらすごく使い道のあるものになるのかもしれないけど、それが思いつかなかった。
次は、メモリ消費量を削減するという観点に立ったxpathの検索アルゴリズムについて。通常はストリームデータとして処理されるが、メモリの制約が大きい場合にどのようなアルゴリズムを使うべきかについて考えたもの。とくに途中に条件式(predicate)があると効果があるようだ。
これは、とても研究にしやすいテーマだと思う。ただ、実験結果がまだ出ていなくて前日まで頑張っていた。