enron - Cometa

enron

mldr.datasets::get.mldr("enron")

Download Download

Select your download

Full dataset

MULAN/MEKA (.arff) MULAN (.xml) LibSVM KEEL mldr

Partitions: select your desired partitioning strategy, validation and format

	Random	Stratified	Iterative stratified
Hold out	MULAN MEKA LibSVM KEEL mldr	MULAN MEKA LibSVM KEEL mldr	MULAN MEKA LibSVM KEEL mldr
2x5-fold cross validation	MULAN MEKA LibSVM KEEL mldr	MULAN MEKA LibSVM KEEL mldr	MULAN MEKA LibSVM KEEL mldr
10-fold cross validation	MULAN MEKA LibSVM KEEL mldr	MULAN MEKA LibSVM KEEL mldr	MULAN MEKA LibSVM KEEL mldr

Summary

Instances	1702
Attributes	1054
Inputs	1001
Labels	53
Labelsets	753
Single labelsets	573
Max frequency	163
Cardinality	3.3784
Density	0.0637
Mean IR	73.9528
SCUMBLE	0.3028
TCS	17.5031

Citation

Klimt, B.; Yang, Y. (2004). The Enron Corpus: A New Dataset for Email Classification Research. In Proc. ECML04, Pisa, Italy, 217--226.

@incollection{,
  author = "Klimt, B. and Yang, Y.",
  title = "The Enron Corpus: A New Dataset for Email Classification Research",
  booktitle = "Proc. ECML04, Pisa, Italy",
  pages = "217--226",
  year = "2004"
}

Concurrence plot

In this concurrence plot, sectors represent labels and links between them depict label co-occurrences. SCUMBLE is a measure designed to assess the concurrence among imbalanced labels.

Attributes

all attributes labels

binary 0 binary 00 binary 000 binary 01 binary 02 binary 03 binary 04 binary 05 binary 06 binary 07 binary 08 binary 09 binary 1 binary 10 binary 100 binary 11 binary 12 binary 13 binary 14 binary 15 binary 16 binary 17 binary 18 binary 19 binary 1999 binary 2 binary 20 binary 200 binary 2000 binary 2001 binary 2002 binary 20a binary 20and binary 20as binary 20at binary 20but binary 20by binary 20california binary 20davis binary 20edison binary 20electricity binary 20energy binary 20for binary 20from binary 20in binary 20it binary 20of binary 20on binary 20pg binary 20power binary 20prices binary 20said binary 20state binary 20that binary 20the binary 20they binary 20this binary 20to binary 20utilities binary 21 binary 22 binary 23 binary 24 binary 25 binary 26 binary 27 binary 28 binary 29 binary 3 binary 30 binary 31 binary 3d binary 4 binary 40 binary 45 binary 5 binary 50 binary 500 binary 6 binary 60 binary 600 binary 7 binary 713 binary 8 binary 9 binary 90 binary ability binary abraham binary access binary account binary act binary action binary actions binary add binary added binary addition binary additional binary address binary administration binary aes binary affairs binary agencies binary agency binary ago binary agree binary agreed binary agreement binary agreements binary ahead binary air binary al binary alan binary alert binary allowed binary alternative binary america binary american binary amount binary amto binary analysis binary analyst binary analysts binary angeles binary announced binary announcement binary annual binary aol binary ap binary approach binary approval binary approve binary approved binary april binary area binary areas binary article binary asked binary assembly binary assets binary association binary attached binary attorney binary august binary authority binary average binary avoid binary back binary bad binary bank binary bankruptcy binary based binary basis binary bay binary beach binary bee binary began binary begin binary beginning binary behalf binary believes binary bid binary big binary biggest binary bill binary billion binary billions binary bills binary bin binary biomass binary blackout binary blackouts binary block binary board binary bob binary bond binary bonds binary border binary bought binary bring binary budget binary build binary building binary built binary bush binary business binary businesses binary buy binary buying binary ca binary cal binary calenergy binary calif binary california binary californians binary call binary called binary calls binary calpine binary campaign binary cap

(854 more attributes)

A.A8 SCUMBLE 0.4705 C.C9 SCUMBLE 0.4782 B.B12 SCUMBLE 0.6884 C.C11 SCUMBLE 0.6131 C.C5 SCUMBLE 0.3983 C.C7 SCUMBLE 0.4204 B.B2 SCUMBLE 0.3429 B.B3 SCUMBLE 0.4688 D.D16 SCUMBLE 0.7273 A.A7 SCUMBLE 0.5145 D.D1 SCUMBLE 0.6153 A.A4 SCUMBLE 0.1319 C.C2 SCUMBLE 0.3705 A.A3 SCUMBLE 0.3386 A.A1 SCUMBLE 0.4056 D.D9 SCUMBLE 0.6172 D.D19 SCUMBLE 0.6962 B.B8 SCUMBLE 0.5366 D.D12 SCUMBLE 0.4729 D.D6 SCUMBLE 0.5208 C.C8 SCUMBLE 0.4104 A.A6 SCUMBLE 0.2385 B.B9 SCUMBLE 0.3934 A.A5 SCUMBLE 0.3573 C.C10 SCUMBLE 0.4311 B.B1 SCUMBLE 0.3318 D.D5 SCUMBLE 0.5734 B.B11 SCUMBLE 0.728 D.D2 SCUMBLE 0.5555 B.B4 SCUMBLE 0.3293 D.D15 SCUMBLE 0.5866 C.C4 SCUMBLE 0.4622 D.D8 SCUMBLE 0.6755 B.B6 SCUMBLE 0.5551 D.D3 SCUMBLE 0.5735 D.D13 SCUMBLE 0.7399 D.D7 SCUMBLE 0.4367 C.C12 SCUMBLE 0.553 B.B7 SCUMBLE 0.6507 C.C6 SCUMBLE 0.3506 B.B5 SCUMBLE 0.6647 D.D11 SCUMBLE 0.5175 A.A2 SCUMBLE 0.4644 C.C3 SCUMBLE 0.4222 D.D10 SCUMBLE 0.3525 D.D18 SCUMBLE 0.9289 B.B13 SCUMBLE 0.3341 D.D17 SCUMBLE 0.6602 B.B10 SCUMBLE 0.6449 C.C1 SCUMBLE 0.3603 D.D4 SCUMBLE 0.5759 C.C13 SCUMBLE 0.7881 D.D14 SCUMBLE 0.8254

Download this metadata in a machine-friendly format (JSON)