R

  • R官方网站: 包括各个镜像站点、CRAN(R的包库)、帮助文档,有问题第一个应该想到看R文档或各个包的文档。
  • Quick-R: 一个学习R入门使用的绝佳站点,覆盖了R的很多初步但很丰富的功能,说明步骤很简单易学。初步者的推荐去处。
  • 统计之都: 一个统计学的论坛,里面的R版块应该是人气最旺的R中文论坛,我也常去那里。
  • R的自定义搜索引擎: 覆盖了大部分的R文档与讨论区、邮件列表的内容,避免了盲目地在www空间里漫游。
  • R包的分类任务列表: 按不同任务类别对大量的R包进行功能划分,使得R包更有专业组织性,比如包含有NLP、数据挖掘、高性能计算等等类别,每种类别都对应很多可用的包。
  • RPy: R与python的接口库,可以使用python调用R,最新的版本是rpy2,文档也已经齐备,建议使用(介绍)。

Database

  • CouchDB: 用Erlang写的文档型数据库,特点是高并发性(介绍)。
  • Infobright: 一个基于mysql的数据仓库底层实现,优点是易用性,及处理大数据量时的可扩展性(介绍)。
  • SchemaLess DB: FriendFeed对mysql的无模式化使用,把关系型数据库改装为一个主表加多个索引表的方式,解决在线修改表结构或索引问题。
  • KDB: 按列存储的高效数据库,是我用过对大数据量查询效率最高的数据库,不过试用版只能使用2G内存。该页面的用户名密码都是anonymous。

个性化推荐

  • Resys组:国内做个性化推荐的人聚集的一个小组,里面有大量有意义的讨论及入门级或总结级别的文章推介。
  • Netflix竞赛:Netflix出次100万美元举办的竞赛,历时三年结束。了解官方提供的数据及竞赛产生的算法可作为进入推荐领域的进阶一步。
  • 电影推荐系统:JinniNanocrowdIMDB

NLP

  • NLP包:CRAN中关于NLP的任务,大量的包列表。
  • Wordnet:通过同义关系组织的知识词典,已经在NLP的很多方面都有应用。
  • WSD:词义去模糊,简单来说是根据上下文给词语选择正确的意义,困难来说是一个AI完全问题。