`
banditjava
  • 浏览: 157943 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

《Lucene+Nutch搜索引擎》看过以后。。。

阅读更多
研究搜索引擎技术快一个月了,最大的老师就是google和自己的编程经验了,另外还有一本我从海淀图书城抓来的《Lucene+Nutch搜索引擎》,从一个门外汉到初级入门者,其中经历了很多痛苦和短暂兴奋。

就在我认为可以大展拳脚时,发现困难超乎自己的想像。首先,关于搜索引擎技术的进阶资料少之又少,现有的资料大多数只是介绍如何使用,如何配置。再者,由于版本更新或者网络文章撰写者水平问题,很多文章都过于浅显,而且还存在很多错误,并不能解决实际问题。我现在的困惑就是,能google过来的资料缺乏深度,如何能进一步深入?

真正拥有搜索引擎技术的商业公司,由于商业秘密的原因,是不能对外公布其核心技术的,这样就造成搜索引擎技术只能掌握在少数人手里,造成学习这项技术的门槛是如此的高。

开源社区对我这样的搜索引擎技术菜鸟来说,可以说是最大的福音,有大量的开源代码可以研读,但是开源系统的通病是,相关资料很缺乏。

我跑遍了中关村所有大大小小的书店,铺天盖地C#,JAVA,FLEX,PHP,C++书,但关于搜索引擎的书,都只有一个小角落。所摆放的书普遍存在学院气息太重、陈旧、肤浅等特点、更有不着边际讲概念的。唉!

本着先入门再入行的原则,拿起了放在门口的《Lucene+Nutch搜索引擎》这本书,看起来很畅销。虽然心里想买回去可能也只看一遍,但是还是拍下了50大元。不但给自己安慰,好歹此书的内容离我研究的开源搜索引擎技术最为接近了。

对于此书的内容,其实我也不想有过多恶评,毕竟这只能算是一个扫盲级工具。或许这是我对现有能找到的搜索引擎资料不满的一个侧面写照。

我真正苛求的是,搜索引擎的真正核心技术的资料,大量的,深入的。描述排序算法的学术报告,如何能够通过高效压缩技术保证文件快速归档与读写,分级缓存并发更新机制,机器学习分词及语义理解,智能自我管理分布式集群,压榨硬件性能的若干办法。。。

不写了,太多了。这还是我能想到的,还有Jeff Dean这种大牛已经现实了的,我们并不知道的东东。

已经深夜,我却“奋”着呢,思考一下平时上班时没时间考虑的问题。在没有更好的办法出现之前,我还会坚持google,坚持open my eyes看代码,坚持买只想看一次的书,坚持在javaeye上“愤”文章。

为了回馈开源社区,我现在能做到的是,尽量把我掌握的技术点blog出来,甚至成了一个dev,直接贡献代码。
分享到:
评论
12 楼 w156445045 2012-11-24  
我最近想写这方面的论文,学位论文啊,哎。希望博主能给点思路,谢谢。
11 楼 sd1992585 2010-09-16  
哎 小弟也在研究搜索引擎, 这方面资料真是少的可怜啊。。。。

要不就是过气的 要不就是很肤浅。。。。还望老兄能多贡献点资料~
10 楼 john2007 2009-01-13  
深入研究就得看最新的文献了。EBSCO, Elsevier,ieee
9 楼 syan 2008-11-24  
那本书真是垃圾
我上个星期买的
8 楼 banditjava 2008-11-05  
pango 写道

在大学图书馆购买的电子论文库里应该能找到你需要的进阶级的论文

多谢提醒!
7 楼 pango 2008-11-05  
在大学图书馆购买的电子论文库里应该能找到你需要的进阶级的论文
6 楼 banditjava 2008-10-24  
chenlb 写道

此书什么烂。唉!

此书属于泛泛介绍,真要研究还是看源码的比较好
5 楼 chenlb 2008-10-23  
此书什么烂。唉!
4 楼 monner 2008-10-07  
国庆几天假期也在捣腾了nutch
在老兄的博客的帮助提示下,俺也顺利的运转上了nutch,
顺着老兄的思路依葫芦画瓢,我也把中文分词插件换成了PaodingAnalyzer
发现一个问题如下:

直接在命令行下运行paodinganalyzer发现分词效果十分不错
但是在插件中运行的分词效果好像不怎么样,差别很大。
具体我摘录了些log如下:
一、命令行下:(我采取的分词模式是max-word-length)

paoding> 中华人民共和国
paoding> ;
1:      中华人民共和国/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 7字符, 分 1个词
        分词耗时 31ms
--------------------------------------------------
paoding> 上海自来水来是海上;
1:      上海/自来水/海上/

        分词器net.paoding.analysis.analyzer.PaodingAnalyzer
        内容长度 9字符, 分 3个词
        分词耗时 0ms
--------------------------------------------------
效果非常满意!!!

二、插件下,log摘自tomcat/logs/stdout*.log
注:“###”开头行是我自己修改Paoding代码后打印的log

2008-10-07 00:11:04,718 INFO  NutchBean - query request from 127.0.0.1
2008-10-07 00:11:05,062 INFO  NutchBean - ##Query.parse() Param: 中华人民共和国|queryLang=zh
2008-10-07 00:11:05,468 INFO  ChineseAnalyzer - ##Init ChineseAnalyzer().
2008-10-07 00:11:06,140 INFO  NutchBean - query: 中华人民共和国
2008-10-07 00:11:06,140 INFO  NutchBean - lang: zh
2008-10-07 00:11:07,703 INFO  NutchBean - searching for 20 raw hits
2008-10-07 00:11:09,703 INFO  NutchBean - re-searching for 40 raw hits, query: 中 华 民 共 国 -site:"www.gd.abc"
^^^^^^^^^^^^^^^^^基本没有效果,完全是分为单个汉字!!!!
2008-10-07 00:11:10,328 INFO  NutchBean - found 16 raw hits
2008-10-07 00:11:14,984 INFO  NutchBean - total hits: 173


不知道是什么地方有问题,我自认为我的基本配置都应该无问题,请老兄帮忙分析下。


BTW:我也仔细试用了你的so.21315.com,发现应该也有同样的问题,不知道老兄有没有好多测试下。

3 楼 monner 2008-10-06  
哈哈~~~~bandi兄真言矣~快餐式的赚钱工具而已,目前技术书籍以这种偏多!
好多书都是名字起得够鼓动人,封面设计的够玄,能够吸引眼球而已。
我也是国庆期间在书店驻足翻看了半小时,最后决定不买。

---
但愿老兄的Blog积累到一定时候,整理出版一本,俺定捧场。

每次来看到老兄的博没有更新,俺就好失落。
2 楼 banditjava 2008-10-06  
嘿嘿,扫盲级工具,我都说得很客气了,它还是赚钱工具呢
1 楼 crazyox 2008-10-06  
“一个扫盲级工具”,严重同意,哈哈,我也看了,只看了一点就不想再看了。。。

相关推荐

Global site tag (gtag.js) - Google Analytics