UCI机器学习数据库使用说明 收藏
UCI机器学习数据库的网址: archive.ics.uci.edu/ml/
数据库不断更新至2010年,是所有学习人工智能都需要用到的数据库,是看文章、写论文、测试算法的必备工具。数据库种类涉及生活、工程、科学各个领域,记录数也是从少到多,最多达几十万条。
UCI数据可以使用matlab的dlmread或textread读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。
UCI数据库使用说明
转自:/bbs/thread-37-1-1.html
此目录包含数据集和相关领域知识(后面以简短的列表形式进行的注释),这些数据已经或能用于评价学习 算法 。
小学生必背古诗
每个数据文件 (*.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的*.info文
件包含的大量的文档资料 。(有些文件_generate_ databas;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。
地址 www.ics.uci.edu/~mlearn/MLRepository.html ,这里的UCI数据集可以看作是通过web的远程拷贝。作为选择
,这些数据同样可以通过ftp获得,ftp://ftp.ics.uci.edu . 可是使用匿名登陆ftp。可以在pub/machine-learning-databas目录中找到。
注意:
UCI一直都在寻找可加入的新数据,这些数据将被写入incoming子目录中。希望您能贡献您的数据,并提供相应的文档。谢谢——贡献过程可以参考DOC-REQUIREMENTS文件。目前,多数数据使用下面的格式 :一个实例一行,没有空格,属性值之间使用逗号“,”隔开,并且缺少的值使用问号“?”表示。并请在做出您的贡献后提醒一下站点管理员:ml-repository@ics.uci.edu
下面以UCI中IRIS为例介绍一下数据集:
ucidata\iris中有三个文件:
Index
iris.data
iris.names
index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:
Index of iris
18 Mar 1996 105 Index
08 Mar 1993 4551 iris.data
30 May 1989 2604 iris.names
iris.data为iris数据文件,内容如下:
5.1,3.5,1.4,0.2,Iris-tosa
4.9,3.0,1.4,0.2,Iris-tosa
4.7,3.2,1.3,0.2,Iris-tosa
……
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
……
6.3,3.3,6.0,2.5,Iris-virginica
5.8,2.7,5.1,1.9,Iris-virginica
7.1,3.0,5.9,2.1,Iris-virginica
……
如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-tosa
。
iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分:
……
7. Attribute Information:
1. pal length in cm
2. pal width in cm
3. petal length in cm
4. petal width in cm
5. class:
-- Iris Setosa
-- Iris Versicolour
-- Iris Virginica
……
9. Class Distribution: 33.3% for each of 3 class.
本数据的使用实例请参考其他论文,或本站后面的内容。
对应的英文有:
小鲤鱼历险记乌龟This is the UCI Repository Of Machine Learning Databas and Domain Theories
============================================================================
This is the UCI Repository Of Machine Learning Databas and Domain Theories
4 December 1995
ftp.ics.uci.edu: pub/machine-learning-databas
www.ics.uci.edu/~mlearn/MLRepository.html
Librarian: Patrick M. Murphy (ml-repository@ics.uci.edu )
111 databas and domain theories (36MB)
习惯性扭伤 ============================================================================
This directory contains data ts and domain theories (the latter have been
annotated as such in the following brief listing) that have been or can be
有趣英文
ud to evaluate learning algorithms. Each data file (*.data) contains
individual records described in terms of attribute-value pairs. The
corresponding *.info file contains voluminous documentation. (Some files
_generate_ databas; they do not have *.data files.)
In addition to data ts and domain theories, the "utilities/" directory
contains utilities that you may find uful when using datats in this
repository.
The contents of this repository can be viewed and remotely copied over
the web. The address is www.ics.uci.edu/~mlearn/MLRepository.html.
Alternatively, the contents of this repository can be remotely copied via
ftp to ftp.ics.uci.edu. Enter "anonymous" for ur id, and e-mail address
([email=ur@host]ur@host[/email]) for password. The databas can be found by executing
喜福会电影"cd pub/machine-learning-databas".
Notes:
1. We're always looking for addition al databas, which can be陌路花开
焖猪脚
written to the sub-directory named "/incoming". Plea nd yours, with
documentation. Thanks -- See DOC-REQUIREMENTS for suggested documentation
procedures. Prently, most databas have the following format: 1
instance per line, no spaces, commas parate attribute values, and
missing values are denoted by "?". Also, plea notify the site librarian
(ml-repository@ics.uci.edu ) after making a donation.
2. Ivan Bratko requested that the databas he donated from the Ljubljana
Oncology Institute (e.g., breast-cancer, lymphography, and primary-tumor)
小玛丽 have restricted access. We are allowed to share them with academic
institutions upon request. The databas (like veral others) require