Thursday, May 26, 2022

Visualize 1D data in R on Ubuntu 20.04

 Установка R

  $ sudo apt install dirmngr gnupg apt-transport-https ca-certificates software-properties-common

  $ sudo apt install build-essential

  $ sudo apt install r-base

***********************

Установка ggplot2

***********************

Пакет ggplot2 можно легко установить с помощью функции R install.packages(). Вам нужно ввести следующий код в R  консоли:

install.packages("ggplot2")

что повлечет за собой g++ make , make install необходимые бинарники будут установлены в предописанные пути для ggplot2. Консоль можно закрыть - ggplot2 установлен.

Смотри также серию примеров из 

Рассмотрим следующии пример R-code

set.seed(100)
require(ggplot2)

N=166898
vec=1:N

#Assuming min_val, max_val
min_val = 0
max_val = 378864471

min_break=0
max_break=4e8


#Create random values dataset
random_values = sample(min_val:max_val,N,replace = T)
DF=data.frame(vec,random_values)

#Define your data breakpoints

cutoff1=10000
cutoff2=60000

#Compute Cumulative Frequency
#You can control the buckets by appropriate inputs to breaks
breaks = c(min_break,cutoff1,seq(cutoff2, max_break, length.out=30))

#Creates buckets [x,y), [y,z) etc.
DF.cut = cut( DF$random_values, breaks, right=FALSE) 

#Computes count of observations in various buckets and cumulative frequency
DF.freq=table(DF.cut)
DF.cumfreq = c(0, cumsum(DF.freq))

#Plot Data
#plot(breaks, DF.cumfreq,main="Cumulative Frequency of XYZ",xlab="Range of Values",ylab="# of Observations < X")
#lines(breaks, DF.cumfreq)

gg.df=data.frame(breaks,DF.cumfreq)

ggplot(gg.df, aes(x = breaks,y=DF.cumfreq)) +  geom_line() + scale_x_log10() + 
xlab("Range of Values: Log Axis") +
ylab("# of Observations < X") +
ggtitle("Cumulative Frequency of Variable")

Затем выполним cut && paste into R-console пример взят из









































No comments:

Post a Comment