2006.04a
-
We consider the issue of Bayesian prediction of the unobservable random effects, And we characterize priors that ensure approximate frequentist validity of posterior quantiles of unobservable random effects. Finally we show that the probability matching criteria for prediction of unobservable random effects in one-way random ANOVA model.
-
이번 연구의 목적은 평균 대신에 중앙값을 이용한 관리도를 제시하며 관리한계선을 결정하기 위하여 표본 중앙값에 대한 근사분포에서 bootstrap 방법을 이용한 분산을 추정하는 연구를 한다.
-
오늘날 과학 및 공학연구를 위하여 복잡한 컴퓨터 시뮬레이션을 자주 사용하고 있다. 전통적 물리적 실험이 입력수의 한계와 출력의 측정오차를 가지는 반면 시뮬레이션 실험 또는 전산실험은 입력수에 제한이 거의 없고 대부분 출력 또한 측정오차가 없거나 매우 작다. 이러한 전산 실험의 분석을 위해 비교적 새롭게 등장한 통계적 방법이 DACE(Design and Analysis of Computer Experiments)이나. 본 발표에서는 이 DACE의 기본 개념과 원리를 간단히 소개하고, 실제로 기계설계에 효과적으로 적용된 사례를 보이고, 향후 연구방향 등을 논의하겠다. 특히 시뮬레이션 코드에 존재하는 절대상수의 추정문제(calibration)와 공간선형 모형의 최적선택을 위한 알고리즘을 소개한다.
-
본 논문에서는 민감한 사항 특히 청렴도 조사에서 금품 향응제공여부 등과 같이 응답자들이 정직하게 응답하지 않을 수 있는 질문들에 대하여 응답자의 비밀을 노출시키지 않고서 양질의 보다 정확한 정보를 얻을 수 있는 확률화응답기법을 적용하여 실제 청렴도 점수를 추정하고자 한다. 본 연구는 청렴도 조사와 같은 민감한 질문에 대하여 응답자에게 심리적 안정감을 주어 거짓응답을 줄이면서 보다 진실에 가까운 청렴도 점수를 구할 수 있는 사례를 제시한다.
-
-
We propose a Bayesian model-based approach using a mixture of Dirichlet processes model with discrete wavelet transform, for curve clustering in the microarray data with time-course gene expressions.
-
Consider a multitype queue where queued customers arc served in their order of arrival at a rate which depends on the customer type. Here we calculate the sharp asymptotics of the probability the total number of customers in the queue reaches a high level before emptying. The natural state space to describe this queue is a tree whose branches increase in length as the number of customers in the queue grows. Consequently it is difficult to prove a large deviation principle. Moreover, since service rates depend on the customer type the stationary distribution is not of product form so there is no simple expression for the stationary distribution. Instead, we use a change of measure technique which increases the arrival rate of customers and decreases the departure rate thus making large deviations common.
-
When using response surface designs, the experimental trials should be carried out in blocks in case of heterogeneity of conditions. When we use nearly orthogonal blocking, we need evaluate the degree of orthogonal blocking. Graphical methods for evaluating the degree of orthogonal blocking are suggested.
-
Huang proposed a grey-based nearest neighbor approach to predict accurately missing attribute value in 2004. Our study proposes which way to decide the number of nearest neighbors using not only the dong's grey relational grade but also the wen's grey relational grade. Besides, our study uses not an arithmetic(unweighted) mean but a weighted one. Also, GRG is used by a weighted value when we impute a missing values. There are four different methods - DU, DW, WU, WW. The performance of WW(wen's GRG & weighted mean) method is the best of my other methods. It had been proven by Huang that his method was much better than mean imputation method and multiple imputation method. The performance of our study is far superior to that of Huang.
-
유전자 발현 자료(gene expression data)를 분석하기 위한 여러 가지 군집 알고리즘(clustering algorithm)과 군집 결과들을 검증하는 척도, 즉 군집 타당성분석 기법(cluster validation technique)이 제안되고 있지만, 이틀 군집 타당성을 분석하는 기법들에 대한 성능의 비교 평가는 매우 드물다. 본 논문에서는 모의 생성 자료로 몇 가지 특정 상황을 연출하여 군집 타당성 분석 기법들을 비교해 보고, 실제 유전자 발현 자료 두 가지에 대해서도 이들 기법의 성능을 비교 평가해 보았다.
-
본 논문에서는 간이생명표 확장기법인 HP8(Heligman and Pollard 8-parametric) 모형과 spline 내 삽법을 이용한 사망확률 계산 결과를 비교하고 HP8 모형을 우리나라 간이생명표 자료에 적용하여 각 연령별, 연도별호 사망확률을 계산하였다. 그리고 HP8 모형의 8개 모수와 사망확률을 계산하는데 있어 SAS/OR의 NLP procedure를 이용한 결과와 UNO(United Nation)에서 인구통계분석을 목적으로 만든 소프트웨어인 MORTPAK을 이용한 결과를 비교하였다. 분석에 사용한 자료는 통계청에서 제공되는 1971년부터 2003년까지 우리나라 간이생명표 자료이다.
-
정보기술의 혁신은 오늘날 정부의 개혁 노력에 있어서 매우 결정적인 역할을 하고 있으며, 전자정부는 그 대표적인 예라고 할 수 있다. 그러나 전자정부 서비스 제공의 문제점은 무엇보다도 도민들의 활용도가 저조하다는 것이다 전자 정부가 실제 수요자인 도민에게 대응적 서비스를 제공되지 못하였기 때문이다. 이에 경상남도는 향후 유비쿼터스 서비스를 제공하는데 있어서 무엇보다도 도민의 수요에 대응적인 서비스 방안이 모색하여야 할 필요성이 있다. 본 논문은 경상남도 도민을 대상으로 유비쿼터스 서비스에 대한 인식 조사를 실시하여 현황 파악 및 연관성 규칙을 분석한다. 본 논문의 결과는 경상남도의 유비쿼터스 서비스 구축에 대한 정책적 기초 자료를 제공할 수 있다.
-
대형 할인점 매출 데이터는 G-CRM, 에어기어 마케팅(Area Marketing)에 활용하기 위해 고객의 구매정보와 위치정보를 포함한다. TM중부좌표로 이루어진 고객 위치정보를 이용하여 지점간의 거리를 구할 수 있다. 서로 다른 위치에서 통시에 측정된 자료들이 공간적인 변인에 의하여 영향을 받는다면, 공간적인 변인의 함수식에 의한 예측모형을 설정하는 것이 타당하다. 본 연구에서는 공간적인 변인으로 거리가 주어졌을 때, 대형 할인점 매출 자료에 대한 세미베리오그램(Semi-Variogram)의 모형을 추정하고, 관측되지 않은 지역에 대한 할인점 이용권을 공간예측기법으로 예측하였다. 그리고 공간예측 기법을 통해 예측된 할인점 이용권을 토대로 할인점 이용권 지도를 작성하였다. 또한 매출 데이터의 공간이상치 탐지를 위한 방법을 제시하고 실례로 알아보았다.
-
본 연구에서는 RFM 분석을 통하여 전체 고객들을 점수화(scoring)하고 이를 다시 5개의 그룹 (최우수그룹, 우수그룹, 일반그룹, 하위그룹, 최하위그룹)으로 세분화하고, 세분그룹별 유의성을 검정한다. 이렇게 분류된 5개의 세분화그룹들은 연관분석과 의사결정나무 등을 통하여 고객들의 인구학적 변수와 자 그룹별 유의한 변수들의 패턴을 찾아냄으로써 우수 고객들을 유지하기 위해 서는 어떻게 해야 하며, 경쟁업체로 떠날 가능성이 높은 고객은 누구이며, 이러한 이유가 무엇인지에 대하여 효과적인 분석을 할 수 있는 기반이 조성된다. 본 연구의 목적은 통하여 연관규칙(association rules)과 의사결정나무(decision tree)를 비친 분석을 함으로써, 이론적으로 설명할 수 없는 복잡한 세분그룹의 특성들에 대해 효과적으로 파악하는 방법을 제시하는 것이다.
-
Two color or cDNA microarrays are extensively used to study relative expression levels of thousands of genes simultaneously. 0かy two tissue samples can be hybridized on a single microarray slide. Thus, a microarray slide necessarily forms an incomplete block design with block size two when more than two tissue samples are under study. We also need to control for variability in gene expression values due to the two dyes. Thus, red and green dyes form the second blocking factor in addition to slides. General design problem for these microarray experiments is discussed in this paper. Designs for factorial cDNA microarrays are also discussed.
-
There are many statistical information sites as the use of internet is increased quickly in recent years. In this paper, we explore and analyze internet sites for statistical information such as statistical survey system, education, database, and terminology. And then we classify these sites to apply statistical information to some particular spheres easily. In so doing, this study result aims at enhancing our understanding of internet sites for statistical information.
-
오늘날 고등학교 졸업생의 감소는 대학의 입학정원에 심각한 영향을 미치고 있다. 주민등록상에 제시된 나이별 인구수에 기초하여 2022년까지의 고등학교 졸업생의 수를 예측하였다. 현재수준의 입학 지원율을 유지하기 위하여 전국지역들의 대학들은 앞으로 17년 후인 2022년까지 약 37.5%의 입학정원을 감소시켜야 할 것이다.
-
To enhance the interest and comprehension of learners studying Statistics. The program which learners can use is needed. With the help of this program, the interest and concentration of the learners can be enhanced, and the effects of the study of Statistics can be maximized, through the convenience of calculation to the theoretical contents of Statistics, various graphs, the, simulation.
-
This paper deals with the comparison of parameter estimation methods in a 3-parameter Kappa distribution which is sometimes used in flood frequency analysis. The method of moment estimation(MME), L-moment estimation(L-ME), and maximum likelihood estimation(MLE) are applied to estimate three parameters. The performance of these methods are compared by Monte-carlo simulations. Especially for computing MME and L-ME, ike dimensional nonlinear equations are simplied to one dimensional equation which is calculated by the Newton-Raphson iteration under constraint. Based on the criterion of the mean squared error, the L-ME is recommended to use for small sample size
$(n\leq100)$ while MLE is good for large sample size. -
For the problem of variable selection in linear models, we consider the errors are correlated with V covariance matrix. Hocking's theorems on the effects of the overfitting and the underfitting in linear model are extended to the less than full rank and correlated error model, and to the ANCOVA model.
-
대규모 표본조사와 관련해서 관심변수와 보조변수간의 약한 상관관계를 고려한 Amahia et al.(1989)의 대체추정방법을 Rao-Hartley-Cocharn 추출방법에 적용해서 Rao추정량과 효율성을 비교 하였다.
-
대학에서 학생 개인의 학업성취도를 나타내는 평점평균(GPA)은 많은 요인의 영향을 받는 것으로 알려져 있다. 본 연구에서는 현행입시제도하에서 획득 가능한 자료를 이용하여 학생부 성적과 수학능력시험성적이 대학의 학업성취도를 나타내는 평점평균과 어떠한 관계를 갖고 있는지 일반화선형모형(GLM)을 이용하여 통계적으로 분석 평가하고자 한다. 여기서 얻어진 결과는 2008학년도부터 적용되는 제7차 교육과정의 수학능력시험성적과 학생부 성적 반영 비율 산정에 필요한 기초적 정보를 제공하는데 도움이 될 수 있으리라 믿어진다. 분석에 사용한 자료는 2003, 2004학년도 인제대학교에 입학한 학생들의 입학성적과 2003, 04, 05학년도의 평점평균을 대상으로 삼았다.
-
-
A chi-squared test of multivariate normality is suggested which is mainly focused on detecting deviations from elliptical symmetry. This test uses Mahalanobis distances of observations to have some power for deviations from multivariate normality. We derive the limiting distribution of the test statistic by a conditional limit theorem. A simulation study is conducted to study the accuracy of the limiting distribution in finite samples. Finally, we compare the power of our method with those of other popular tests of multivariate normality under two non-normal distributions.
-
Considering all the factors involved in beef production individual identification using DNA marker testing is the most appropriate solution to give all the breeders' information to the consumers. After taking into account the genealogical information from the Hanwoo, only animals that did not share some parent or grandparent were analysed 33 from the 305 initially sampled. Ten major microsatellite markers were selected from allele amplified and their frequencies, H(Heterozygosity) and PIC(Polymorphism information content) with Hardy-Weinberg equilibrium. Next, in order to evaluate the power of the markers selected on the individual animal identification, the match probability(MP) and the relatedness coefficient(R) were computed.
-
본 연구는 경북에 소재한 식품회사인 S사의 햄 생산공정의 개선을 위하여 통계적 공정관리기법을 적용한 것이다. 햄의 중량은 햄의 품질에 대한 소비자의 신뢰와 기업의 수익성에 영향을 미치는 풍요한 요소이다. 연구의 목적은 햄 생산공정의 경제적 규격한계 확보를 통하여 기업의 이익을 극대화하는데 있나. 기본적인 통계적 공정관리 기법인 평균-범위 관리도, 공정능력분석, 측정시스템 평가분석 등을 이용하여 햄 공정을 분석하고, 최적 규격한계를 설정하였다.
-
In teaching statistics in the secondary school, most math teachers do it and students enjoy it well before 11th grade. But, both of teachers and students feel statistics hard at 11th grade, which has been contained permutations, combinations, random variables, probability distributions, hypotheses and tests for normal distribution. In this study, we explore the efficient teaching methods of statistics for math teachers and also find many students enjoying it.
-
자궁근종은 부인과 질환 중 자궁 및 여성 골반내에서 발생하는 양성종양 중 발생빈도가 가장 높은 것으로 특히 30세이후에 발생빈도가 높아지는 질환으로 알려져 있다. 최근, D대학 한방부인과에서는 실제 자궁근종환자가 가지고 있는 증상에 대한 분석을 수행한 바 있으며, 이를 좀더 발전시켜 자궁근종 증상지표를 개발하는 연구를 시행하였다. 본 연구에서는 자궁근종 발생여부와 환자들이 가지고 있는 병기 점수간의 연관성을 파악하여 자궁근종과 관련되는 주 병기 변수를 확인함으로써 이를 통한 자궁질환 연구에 기초를 제시하고자 한다.
-
Data mining is the method to find useful information for large amounts of data in database It is used to find hidden knowledge by massive data, unexpectedly pattern, relation to new rule. The methods of data mining are decision tree, association rules, clustering, neural network and so on. We analyze industrial waste database using data mining technique. We use k-means algorithm for clustering and C5.0 algorithm for decision tree and Apriori algorithm for association rule. We can use these analysis outputs for environmental preservation and environmental improvement.
-
국내 의류산업은 패선 의류상품 기획력과 마케팅의 강화, 전문 고급인격의 양성, 전산화와 정보화 시스템을 확충시킨다면 고부가가치를 창출하는 패션산업으로 성장할 수 있는 잠재력을 효과적으로 활용하기 위해 우리나라 패션기업의 근무여건에 대한 연구를 실시하였다. 본 연구에서는 패션기업의 현황을 먼저 살펴보고 여러 가지 근무여건에 관한 문제점을 분석, 진단하고 그 결과를 토대로 하여 패션기업의 합리적인 경영과 발전을 도모할 수 있는 종업원의 근무만족도 및 역할성과에 미치는 영향에 관한 개선 방안을 모색하고자 한다. 직무특성과 직무자체만족도의 관계에서는 직무다양성, 직무중요성, 직무자율성의 요인이 직무자체 만족도에 유의적 영향을 미치는 것으로 나타났으며, 직무가 다양하고 중요성과 자율성이 높아질수록 직무만족도가 높아지는 것을 알 수 있다. 그리고 회사생활에 있어 회사에 대한 자긍심과 충성심이 높아질수록 동료만족도가 높아진다는 것을 알 수 있다. 또 회사생활에 있어서 직원들이 복지제도에 대한 만족도가 놀아질수록, 복지혜택에 대한 만족도가 낮아질수록 동료만족도가 놀아진다는 것을 알 수 있다.
-
소득 수준과 삶의 질 향상을 위한 사회의식의 강화는 보다 쾌적한 라이프스타일의 추구와 여가문화에 대한 인식의 변화 및 웰빙 문화확산에 따른 레저 인구의 증가로 나타나고 있다. 특히 등산에만 국한되던 아웃도어 이미지가 점차 다양한 레저활동으로 확대되고 등산복과 캐주얼웨어의 경계가 모호해지면서 아웃도어 브랜드 업체들도 캐주얼 의류보다 화사하고 편안한 등산복을 출시하고 있다. 이에 따라 본 연구에서는 등산복 소비자의 일반적인 구매행동 특성 및 인구통계적 특성과 브랜드 선호도에 환하여 살펴보고자 한다. 본 연구의 결과를 요약하면 등산복의 구매 목적은 '등산만을 위해서'와 '등산복과 일상복으로' 구매하는 경우도 비슷하게 나타나 등산복을 일상적인 캐주얼웨어로도 겸하여 입는 소비자가 많다. 그리고 여자는 '등산만을 위해서'가, 남자는 '등산과 일상복으로'가 가장 높게 나타났고, 여성 소비자들에 비해 남성 소비자들이 등산복 한 벌 당 가격대가 더 높은 것을 알 수 있었다. 또 모든 연령대에서 구매 정보원으로서 '친구 소 소속집단'이 가장 높게 나타났으며, 등산복 브랜드의 선호도와 보유현황은 전체 선호도는 코오롱 스포츠가 1위, 노스페이스가 2위, 케이투가 3위로 나타났나.
-
In this paper, we derive the approximate maximum likelihood estimators of the scale parameter and location parameter of the exponential distribution based on multiply Type-II censored samples. Then three type tests, including the modified Clamor-von Mises test, the modified Watson test and the modified Kolmogorov-Smirnov test are developed for the exponential distribution based on multiply Type-II censored samples by using the proposed estimators. For each test, Monte Carlo techniques are used to generate critical values. The powers of these tests are investigated under several alternative distributions.
-
When X and Y have independent Poisson distributions, we develop a Bayesian one-sided testing procedures for the ratio of two Poisson means. We propose the objective Bayesian one-sided testing procedures for the ratio of two Poisson means based on the fractional Bayes factor and the intrinsic Bayes factor. Some real examples are provided.
-
현대 사회에 있어서 신속하고 정확한 정보는 곧 수익증대의 중요한 요소로 자리 잡고 있으며 사회발전이 가속화 될수록 더욱 다양한 정보가 산출되고 있다. 그로인하여 광범위하게 분산되어 있는 정보의 추출은 매우 중요한 부분으로 부각되고 있다. 하지만 기존의 자료 집계 방법은 분산되어 있는 자료를 수집하기 위한 시간이 많이 소요되고 수집된 자료의 확인과정 및 통합 과정 또한 많은 시간이 소요되어 현대의 수많은 정보를 효율적으로 수용하지 못하고 있다. 이에 본 논문에서는 광범위하게 분산되어 있는 자료들에 대하여 효율적인 정보 추출을 제공할 수 있는 자료 집계 및 분석 시스템의 설계 및 구현 방안에 대하여 연구하고자 한다.
-
본 논문에서는 최소수리를 갖는 수리가 가능한 시스템의 최적의 교체정책에 대한 베이즈 접급방법을 제안하였다. 특히, 시스템을 운용하는데 필연적으로 발생하는 비용과 비가동시간을 함께 고려하여 기존의 비용에 근거한 연구결과를 확장하고자 하였다. 이를 위해서 단위시간당 기대비용과 단위시간당 기대비가동시간을 구하고, 이 두 기준을 동시에 고려한 최적의 교체주기를 결정하는 방법을 제시하였다. 또한, 순응적 교체정책에 대해서도 살펴보았다.
-
In this paper, we consider the Bayesian hypotheses testing for independence in bivariate exponential model. In Bayesian testing problem, we use the noninformative priors for parameters which are improper and are defined only up to arbitrary constants. And we use the recently proposed hypotheses testing criterion called the fractional Bayes factor. Also we give some numerical results to illustrate our results.
-
-
현 기상의 시점에서 강수 확률 예측을 위해 가장 적절한 모형은 공간적 종속성과 시간적 종속성을 고려한 모형이 선택되어져야 한다. 보통 마크프 연쇄 모형과 예보인자를 이용하는 회귀 모형이 모두 고려된 모형을 사용한다. 본 논문에서는 강수 형태를 세 개의 상태로 나눈 경우, 즉 맑은 경우, 흐린 경우, 비온 경우로 나누어 마코프 로지스틱 회귀모형을 세우고 강수확률을 예측 할 수 있도록 하였다. 또한 서울 지역의 강수 자료를 이용하여 기존의 마코프 회귀모형과 마코프 로지스틱 회귀모형을 서로 비교하여 실제적 적용 문제를 다루었다.
-