R
- R官方网站: 包括各个镜像站点、CRAN(R的包库)、帮助文档,有问题第一个应该想到看R文档或各个包的文档。
- Quick-R: 一个学习R入门使用的绝佳站点,覆盖了R的很多初步但很丰富的功能,说明步骤很简单易学。初步者的推荐去处。
- 统计之都: 一个统计学的论坛,里面的R版块应该是人气最旺的R中文论坛,我也常去那里。
- R的自定义搜索引擎: 覆盖了大部分的R文档与讨论区、邮件列表的内容,避免了盲目地在www空间里漫游。
- R包的分类任务列表: 按不同任务类别对大量的R包进行功能划分,使得R包更有专业组织性,比如包含有NLP、数据挖掘、高性能计算等等类别,每种类别都对应很多可用的包。
- RPy: R与python的接口库,可以使用python调用R,最新的版本是rpy2,文档也已经齐备,建议使用(介绍)。
Database
- CouchDB: 用Erlang写的文档型数据库,特点是高并发性(介绍)。
- Infobright: 一个基于mysql的数据仓库底层实现,优点是易用性,及处理大数据量时的可扩展性(介绍)。
- SchemaLess DB: FriendFeed对mysql的无模式化使用,把关系型数据库改装为一个主表加多个索引表的方式,解决在线修改表结构或索引问题。
- KDB: 按列存储的高效数据库,是我用过对大数据量查询效率最高的数据库,不过试用版只能使用2G内存。该页面的用户名密码都是anonymous。
个性化推荐
NLP
- NLP包:CRAN中关于NLP的任务,大量的包列表。
- Wordnet:通过同义关系组织的知识词典,已经在NLP的很多方面都有应用。
- WSD:词义去模糊,简单来说是根据上下文给词语选择正确的意义,困难来说是一个AI完全问题。