More servicesWindows Live
HomeHotmailSpacesOneCare
 
MSN
Sign in
 
 
Spaces home  章劢闻的博客PhotosProfileFriendsMore Tools Explore the Spaces community

章劢闻的博客

Maiwen Zhang: Now @ China Daily / Was Managing Editor, InformationWeek China / MSc in Computer Science, University of Oxford
View space
View space
clay0325
View space
thomas
View space
少楠
View space
crystal
View space
ivy leaves
View space
Guru
View space
Maiwen Zhang

September 13

pre中秋

一年过去了,今天决定接受友人劝告。不再要求太高,开始简单生活。
 
再次看了离开拉斯维加斯,还真tnnd的感动。
September 06

Life can be not so easy

 
有人责怪Google把“A bad student”翻译成了“好学生”。今天我们又看到了一个更让人叹为观止的版本:

做人可真难啊 = Life can be ...  ╰_╯||
 
googlewhoops

 
事实上,Google机器翻译是基于统计(Statistical MT)。从技术看,这对于拥有亿万网页的Google来说,是最合乎逻辑的选择。从《哈佛商业评论》编辑的角度看,这也许最好地利用了企业的核心竞争力。一堆,事实上是太大的“一堆”文档正在试图跨越人类语言的障碍。
 
现在,Google已经知道"A bad student"该怎么翻译。让我们来观察一下,也许不用太久,Google就会知道“Life can be not so easy。”
 
 
August 05

应某人要求发出海南行全部照片和caption


搜索,商业应用,金融,海口,博鳌,Q7
===========================================
就像L所说去海口会是有趣的旅行。利用财富500强的数据做demo,在演示中体现了搜索在应用中的价值... 接下来的旅途充满乐趣。

摄影设备:Nokia N73

座驾:大名鼎鼎的Q7

 

1

海口郊外酒店的大堂,到达时天色以晚。此时尚不知就在这个视角的150米之外,就是大海。


2

下午presentation之前在海口假日海滩。


5

酒店的大堂,早上起来后,在同一个窗口看见了海。


4

假日海滩


10

酒店清晨


11

Q7途中取景


12

Q7途中取景


13

博鳌玉带湾,热带太阳正当头,为了让人脸可辨,照片变得像曝光过度。


14

玉带湾


15

玉带湾


16

沙地摩托冲向天边


17

湾外礁石


20

Q7内景,好车的窗前是一片风景


21

酒店外景


22

酒店外景


23

酒店内的吧台,外国游客寥寥,吧台生意清淡。


24

早餐前散步海滩,边上是椰子树。


25

咖啡馆外座椅


26

即将冲入雨云,10分钟后重回烈日骄阳的热带高速公路


5

宾馆内景


6

清晨大堂


7

清晨大堂


8

海边吧台


9

黄昏的海边游泳池, 中心是温泉。


3

With乔总


  
Haikou 2008  
02082008211
 
                              @ Crown SPA Resort Hainan
July 06

工具式应用的背后...

看几张美化过的图,想象一下照片中机柜垒满服务器,柜门大开的场景,便是现在ZN的真实所在。
 
zd4
 
不过比起之前在小区的机房,这简直已是仙境落人间。外在posh的存在,背后往往这样现实的生境。
 
互联网虚拟世界的魅力也正是在与钢电之躯,能够创造出很多美妙的体验。ZN还处于幼年,再次对
所有觉得ZN的有用的语言爱好者表示感谢。你们见证的,对用户有用的Web-based应用中始终会有
ZN的影子。
 
zd2
May 25

百花深处

在飞虫的包裹中攀登了2000多米,其中1000多米是在看到毒蛇伤人的警示牌后连滚带爬手脚并用地完成的。期间赶上了6头上山前遇到过的骡子。赶超骡队之时已近山顶。骡子们说啥也不走了,站在原地,拉了一地的屎,赶骡人也没了办法。和赶骡的老乡有一搭没一搭地聊了几句,听说山顶有水,于是疲劳感不再是阻碍,一口气登了顶。然后就看到了以下的景色,听说7,8,9月是草甸百花盛开的季节,“百花山”由此得名,此刻只能喘息中想象一番:
 
12345678 感谢诺基亚N73提供技术支持
December 13

We've created a monster!

刚才在摆弄三个小时前创造出来的图片检索引擎, http://search.21stcentury.com.cn
下意识地输入了几个词,“Winner”,出来了他们:
 
然后输入了“loser”,出来了他们:
 
2
 
还在其中发现了“她” 
 
 
Well, could not agree more. I realized that We've created a monster!
 

“爬向”New York Times 检索

To drive the users, and drive them crazy!
 
经过不到两周的准备,把7年文字,图片和语音内容规划完毕。搜索技术将展示如何让一个传统平媒在迅速成为Web的主宰
 
先露半个脸: 21世纪搜索
 
New York Times式的Web检索将成为媒体先行者的楷模。
 
而我们要比NYT再先行一步的是让一个搜索成为2个月后推动Web内容的强力引擎,driving the users, and driving them crazy。
 
劢闻
December 09

最有价值的内容有时就在最容易被忽视的角落

续上篇《新闻检索:“一个不能少” vs 时间排序的两难境地》,当按照时间排序时,能否先找到搜索结果中相关度的cluster,然后对cluster进行排序?这样的结果也许对于新闻搜索会比较有帮助。google image里面随手找了张星系图涂鸦了几笔:
 
galaxy
 
当然,抱着够用就可的心态,我们暂时添加了一些搜索建议,比如"" for phrases,来减少结果中的"杂质"。如:搜索“17th National Congress”
 
周末看了硬盘角落里搁置已久的两部电影,“爱情手册2”和“Cashback”。不由感慨有时候最有价值的内容就在最容易被忽视的地方 :P
 
强烈推荐:
 

       

 

 

December 05

新闻检索:“一个不能少” vs 时间排序的两难境地

第一时间总结一下今天在China Daily 21世纪报 newsroom 的Workshop,活动过后大家表示对cross-media的未来充满信心。一些以弱胜强的magical cases对大家的鼓舞作用也非同一般。

 

同样有价值的是我们可以对搜索引擎(http://search.21stcentury.com.cn)用户产生的一些问题做一些归纳。这次请三十几位编辑记者参与搜索引擎评估,时间非常有限,但是大家关注的焦点问题已经反映出苛刻的信息用户对Ad hoc检索的要求。

 

文字工作者是信息用户中比较特殊的一个群体。他们往往经过多年的职业训练,对文字的准确性,完整性,合理性,都有很高的要求,这个群体在搜索过程中像普通用户那样被分散注意力的可能性也相对很小(参见《三版乔丹 vs 飞人乔丹》)。所以和他们一起做workshop或是focus group往往能够产生准确的,well-defined反馈

 

这次有趣的问题主要在于:

 

编辑们要求“一个不能少”,查全率(recall,检索出的相关文档 / 所有相关文档)的要求很高。他们有时甚至对希望获取的文档有所预期,比如他们有时会试图寻找一篇5年前的相关报道;当然对于其他高端信息用户,比如律师,按美国的判例法要求来看,对此的要求可能会更高。如果能找到一个印象中的判例,可能直接决定最后的判决结果。

 

这次设定的lucene搜索环境比较简单,不对多个关键的逻辑关系多加处理:用“or”来连接多个关键词,至少不会由于填入了一个错误的关键词,而损失一些本该获取的关键文档。

 

同时,采用了普通的相关性排序。对于寻找判例的律师来说,相关性也许更重要,他们可能不会太在意文档时间。但是对于新闻编辑来说,他们希望看到的是按照时间倒序排列的结果。比如某个娱乐版编辑想做个布拉德·皮特的介绍,结果搜出了大量安妮斯顿的故事,虽然安妮斯顿和安吉丽娜·朱莉都是倾国倾城,但是毕竟一个是历史,一个是目前全球最美丽夫妇的official成员,做新闻背景的时候不可能混淆

 

这也就是为什么全球不少著名媒体的官方网站都提供相关性和时间检索的双重标准,比如BBCInformationWeek等。这个时候要将搜索结果以时间排序,lucene可以非常容易得做到。 

 

但是,设想一下,如果简单粗暴地把“or”和时间排序结合在一起,会发生什么问题。如果最近的一些文章里面出现了query terms中任何一个单词,那么他们就会挤入结果页前列。由于这次没有设定stop words,就出现了这样的问题,比如有编辑搜索“the no 9 avenue”结果最近所有包含“the”,“no”和数字“9”的文章都出来了,而且充斥了最终结果的前列。

 

目前很多媒体网站的adhoc检索,如果做得简单,包括InformationWeek似乎都一定程度上存在这个问题,可看试验http://www.informationweek.com/TechSearch/Search.jhtml?site_id=InformationWeek&personality=category&queryText=the+no+9+avenue&search=Go 。百度和Google的新闻检索也许已经有了比较好的处理办法,但是Web IR和Ad hoc毕竟还是有些区别。有空接着聊聊相关的解决方式。

 

 

劢闻

View more entries
 
Updated 8/4/2008
Updated 4/11/2008
Updated 3/1/2008
Updated 4/16/2006
Updated 2/18/2006
Updated 1/7/2006
Updated 1/3/2006
Updated 12/19/2005
Updated 12/10/2005
Updated 11/24/2005
Updated 11/13/2005