A melhor ferramenta para a sua pesquisa, trabalho e TCC!
Página 1 dos resultados de 12983 itens digitais encontrados em 0.010 segundos
‣ Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.; An environment to evaluate machine learning algorithms.
Fonte: Biblioteca Digitais de Teses e Dissertações da USP
Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado
Formato: application/pdf
Publicado em 15/10/1997
Português
Relevância na Pesquisa
684.662%
#aprendizado de máquina#artificial intelligence#avaliação experimental#data mining#experimental evaluation#inteligência artificial#machine learning#mineração de dados
Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas...
Link permanente para citações:
‣ "Pré-processamento de dados em aprendizado de máquina supervisionado" ; "Data pre-processing for supervised machine learning"
Fonte: Biblioteca Digitais de Teses e Dissertações da USP
Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado
Formato: application/pdf
Publicado em 16/05/2003
Português
Relevância na Pesquisa
687.531%
#aprendizado de máquina#data mining#data pre-processing#machine learning#mineração de dados#pré-processamento de dados
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado...
Link permanente para citações:
‣ Adaptatividade em aprendizagem de máquina: conceitos e estudo de caso.; Adaptivity in machine learning: Concepts and case study.
Fonte: Biblioteca Digitais de Teses e Dissertações da USP
Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado
Formato: application/pdf
Publicado em 21/10/2011
Português
Relevância na Pesquisa
690.3992%
#Adaptatividade#Adaptive tecnhology#Adaptivity#Aprendizado de máquina#Aprendizagem incremental#Classificadores#Classifiers#Decision-making#Incremental learning#Machine learning#Pattern recognition
A aprendizagem incremental requer que o mecanismo de aprendizagem seja baseado no acúmulo dinâmico da informação extraída das experiências realizadas. A aprendizagem de máquina usando adaptatividade considera a integração de técnicas de aprendizagem de máquina simbólicas com técnicas adaptativas para a solução de problemas de aprendizagem. A palavra adaptatividade sugere a capacidade de modificação do conjunto de regras aprendidas em resposta a eventos que podem ocorrer durante o processo de aprendizagem, ou então autoajustes no conjunto de parâmetros. Os dispositivos adaptativos que possuem a capacidade de reter em suas regras informações extraídas de suas entradas podem acumular informações, para que sejam utilizadas quando forem necessárias. As estratégias de interesse para a incorporação da adaptatividade incluem a utilização de métodos e técnicas de aprendizagem de máquina, em particular as que implementam aprendizado supervisionado e tomada de decisão. O objetivo deste trabalho é explorar a utilização de técnicas adaptativas no processo de aprendizado por máquina, tanto de forma exclusiva como em conjunto com outras técnicas de aprendizagem. Para atingir este objetivo...
Link permanente para citações:
‣ Machine learning via dynamical processes on complex networks; Aprendizado de máquina via processos dinâmicos em redes complexas
Fonte: Biblioteca Digitais de Teses e Dissertações da USP
Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado
Formato: application/pdf
Publicado em 20/12/2013
Português
Relevância na Pesquisa
690.0075%
#Aprendizado baseado em redes#Aprendizado de máquina#Aprendizado não supervisionado#Aprendizado semissupervisionado#Aprendizado supervisionado#Caminhada aleatória#Complex networks#Consensus time#Controle pontual#Dimensionality reduction#Dynamical processes
Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to "learn" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization...
Link permanente para citações:
‣ Extração automática de termos simples baseada em aprendizado de máquina; Automatic simple term extraction based on machine learning
Fonte: Biblioteca Digitais de Teses e Dissertações da USP
Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado
Formato: application/pdf
Publicado em 06/05/2014
Português
Relevância na Pesquisa
686.0361%
#Aprendizado de máquina#Automatic term extraction#Conhecimento linguístico#estatístico e híbrido#Extração automática de termos#Linguistic#Machine learning#statistical#statistical and hybrid
A Mineração de Textos (MT) visa descobrir conhecimento inovador nos textos não estruturados. A extração dos termos que representam os textos de um domínio é um dos passos mais importantes da MT, uma vez que os resultados de todo o processo da MT dependerão, em grande parte, da qualidade dos termos obtidos. Nesta tese, considera-se como termos as unidades lexicais realizadas para designar conceitos em um cenário tematicamente restrito. Para a extração dos termos, pode-se fazer uso de abordagens como: estatística, linguística ou híbrida. Normalmente, para a Mineração de Textos, são utilizados métodos estatísticos. A aplicação desses métodos é computacionalmente menos custosa que a dos métodos linguísticos, entretanto seus resultados são geralmente menos interpretáveis. Ambos métodos, muitas vezes, não são capazes de identificar diferenças entre termos e não-termos, por exemplo, os estatísticos podem não identificar termos raros ou que têm a mesma frequência de não-termos e os linguísticos podem não distinguir entre termos que seguem os mesmo padrões linguísticos dos não-termos. Uma solução para esse problema é utilizar métodos híbridos, de forma a combinar as estratégias dos métodos linguísticos e estatísticos...
Link permanente para citações:
‣ A unified framework for design, deployment, execution, and recommendation of machine learning experiments= : Uma ferramenta unificada para projeto, desenvolvimento, execução e recomendação de experimentos de aprendizado de máquina; Uma ferramenta unificada para projeto, desenvolvimento, execução e recomendação de experimentos de aprendizado de máquina
Fonte: Biblioteca Digital da Unicamp
Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado
Formato: application/pdf
Publicado em 22/08/2014
Português
Relevância na Pesquisa
689.10664%
#Aprendizado de máquina#Ciência - Experiências#Fluxo de trabalho#Sistemas de recomendação#Machine learning#Science#Workflow#Recommendation systems
Devido ao grande crescimento do uso de tecnologias para a aquisição de dados, temos que lidar com grandes e complexos conjuntos de dados a fim de extrair conhecimento que possa auxiliar o processo de tomada de decisão em diversos domínios de aplicação. Uma solução típica para abordar esta questão se baseia na utilização de métodos de aprendizado de máquina, que são métodos computacionais que extraem conhecimento útil a partir de experiências para melhorar o desempenho de aplicações-alvo. Existem diversas bibliotecas e arcabouços na literatura que oferecem apoio à execução de experimentos de aprendizado de máquina, no entanto, alguns não são flexíveis o suficiente para poderem ser estendidos com novos métodos, além de não oferecerem mecanismos que permitam o reuso de soluções de sucesso concebidos em experimentos anteriores na ferramenta. Neste trabalho, propomos um arcabouço para automatizar experimentos de aprendizado de máquina, oferecendo um ambiente padronizado baseado em workflow, tornando mais fácil a tarefa de avaliar diferentes descritores de características, classificadores e abordagens de fusão em uma ampla gama de tarefas. Também propomos o uso de medidas de similaridade e métodos de learning-to-rank em um cenário de recomendação...
Link permanente para citações:
‣ Controle integrado de tensão e potência reativa através de aprendizado de máquina; Integrated voltage and reactive power control using machine learning
Fonte: Biblioteca Digital da Unicamp
Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado
Formato: application/pdf
Publicado em 30/04/2015
Português
Relevância na Pesquisa
685.7865%
#Sistemas de energia elétrica - Distribuição#Sistemas de energia elétrica - Controle#Aprendizado de máquina#Maquina de vetores de suporte#Electric power distribution systems#Electric power systems control#Machine learning#Support vector machine
A crescente demanda por energia elétrica, por vezes em ritmo mais acelerado que os investimentos em expansão das redes de distribuição, tem levado as distribuidoras a operarem próximo aos limites aceitáveis, o que torna toda a operação da rede mais complexa. Um dos desafios atuais é estabelecer um efetivo controle de tensão e potência reativa (Volt/var) na rede buscando melhorar o nível de operação e de eficiência energética da rede. Muitas propostas para encontrar a solução do problema partiram de uma abordagem de forma desacoplada: o controle de tensão e o controle de potência reativa foram resolvidos separadamente. Neste trabalho, porém, foram estudados métodos de solução do problema visando à segurança da operação e à otimização global dos recursos da rede de modo integrado, ou seja, considerando a dependência entre tensão e potência reativa. Na literatura, grande parte dos trabalhos reportam soluções baseadas em modelos elétricos da rede de distribuição. Os métodos estudados nessa dissertação são baseados em técnicas de aprendizado de máquina com o objetivo de construir um modelo capaz de utilizar apenas as medições de tensão e corrente provenientes dos medidores instalados ao longo da rede e obter o melhor despacho dos ajustes dos dispositivos de controle...
Link permanente para citações:
‣ Machine learning Gaussian short rate
Fonte: Faculdade de Ciências e Tecnologia
Publicador: Faculdade de Ciências e Tecnologia
Tipo: Tese de Doutorado
Publicado em //2013
Português
Relevância na Pesquisa
687.65664%
#Short rate#Arbitrage free risk neutral measure#Gaussian processes for machine learning#Calibration#Zero coupon bond
Dissertação para obtenção do Grau de Doutor em
Estatística e Gestão do Risco; The main theme of this thesis is the calibration of a short rate model under the
risk neutral measure.
The problem of calibrating short rate models arises as most of the popular models have the drawback of not fitting prices observed in the market, in particular, those of the zero coupon bonds that define the current term structure of interest rates.
This thesis proposes a risk neutral Gaussian short rate model based on Gaussian
processes for machine learning regression using the Vasicek short rate model as prior. The proposed model fits not only the prices that define the current term structure observed in the market but also all past prices. The calibration is done using market observed zero coupon bond prices, exclusively. No other sources of information are needed.
This thesis has two parts. The first part contains a set of self-contained finished
papers, one already published, another accepted for publication and the others submitted for publication. The second part contains a set of self-contained unsubmitted papers. Although the fundamental work on papers in part two is finished as well, there are some extra work we want to include before submitting them for publication.
Part I:
- Machine learning Vasicek model calibration with Gaussian processes
In this paper we calibrate the Vasicek interest rate model under the risk neutral
measure by learning the model parameters using Gaussian processes for machine learning regression. The calibration is done by maximizing the likelihood of zero coupon bond log prices...
Link permanente para citações:
‣ Métodos Machine Learning aplicados para estimar la concentración de los contaminantes de la DQO y de los SST en hidrosistemas de saneamiento urbano a partir de espectrometría UV-Visible
Fonte: Pontifícia Universidade Javeriana
Publicador: Pontifícia Universidade Javeriana
Formato: PDF
Português
Relevância na Pesquisa
685.7043%
#Espectrometría UV-Visible#Máquinas de aprendizaje#Incertidumbre#Datos atípicos#Calidad del agua#Calidad del agua#Redes neurales (Computadores)#Maestría en hidrosistemas|vTesis y disertaciones académicas#UV-Visible spectrometry#Machine learning#Uncertainty
El presente trabajo tuvo como objetivo desarrollar nuevas metodologías basadas en métodos machine learning, para lo cual se implementaron tres técnicas de inteligencia artificial denominadas: Support Vector Machine (SVM), Redes Neuronales Artificiales (RNA) y algoritmos evolutivos. Éste último fue empleado para realizar una optimización multiobjetivo de los parámetros SVM y RNA con el fin de estimar concentraciones equivalentes de determinates en continuo asociadas a las aguas de drenaje urbano mediante datos de espectrometría UV-visible in situ. Adicionalmente, para comprender mejor la relación entre el espectro de absorbancias y presencia-magnitud de los determinantes objeto de estudio (SST y DQO (total o filtrada)), se desarrollaron varias metodologías que abarcan los siguientes puntos importantes para consolidar y evaluar un modelo quimiométrico, orientas a: evaluar la incertidumbre de los datos medidos in situ y de ensayos de laboratorio (Ley de la propagación de la incertidumbre y métodos Monte Carlo), establecer la recurrencia y la relevancia de las longitudes de onda del espectro UV-Visible en su relación con la presencia de un determinante, y por último evaluar la calidad y representatividad de un par de datos espectro-concentración (outliers).; The knowledge of the pollutant concentration values represents a significant input to the
improvement in the management of the urban sanitation systems (USS). Therefore...
Link permanente para citações:
‣ Interpretable Machine Learning Approaches in Computational Biology; Interpretierbare Maschinelle Lernansätze in der Bioinformatik
Fonte: Universität Tübingen
Publicador: Universität Tübingen
Tipo: Dissertation; info:eu-repo/semantics/doctoralThesis
Português
Relevância na Pesquisa
686.9376%
#Maschinelles Lernen , Bereichsschätzung , Bioinformatik#004#Interpretierbarkeit , Konfidenzschätzung#Interpretable , Machine learning , Confidence estimation , Computational biology
Machine learning has become an essential tool for analyzing, predicting, and understanding biological properties and processes. Machine learning models can substantially support the work of biologists by reducing the number of expensive and time-consuming experiments. They are able to uncover novel properties of biological systems and can be used to guide experiments. Machine learning models have been successfully applied to various tasks ranging from gene prediction to three-dimensional structure prediction of proteins. However, due to their lack of interpretability, many biologists put only little trust in the predictions made by computational models.
In this thesis, we show how to overcome the typical "black box" character of machine learning algorithms by presenting two novel interpretable approaches for classification and regression.
In the first part, we introduce YLoc, an interpretable classification approach for predicting the subcellular localization of proteins. YLoc is able to explain why a prediction was made by identifying the biological properties with the strongest influence on the prediction. We show that interpretable predictions made by YLoc help to understand a protein's localization and, moreover, can assist biologists in engineering the location of proteins. Furthermore...
Link permanente para citações:
‣ "Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos" ; "New approaches in machine learning for rule generation, class imbalance and rankings"
Fonte: Biblioteca Digitais de Teses e Dissertações da USP
Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado
Formato: application/pdf
Publicado em 07/07/2006
Português
Relevância na Pesquisa
690.3444%
#aprendizado de máquina#class imbalance#classes desbalanceadas#combinação de rankings#ensemble of rankings#geração de regras#machine learning#rule learning
Algoritmos de aprendizado de máquina são frequentemente os mais indicados em uma grande variedade de aplicações de mineração dados. Entretanto, a maioria das pesquisas em aprendizado de máquina refere-se ao problema bem definido de encontrar um modelo (geralmente de classificação) de um conjunto de dados pequeno, relativamente bem preparado para o aprendizado, no formato atributo-valor, no qual os atributos foram previamente selecionados para facilitar o aprendizado. Além disso, o objetivo a ser alcançado é simples e bem definido (modelos de classificação precisos, no caso de problemas de classificação). Mineração de dados propicia novas direções para pesquisas em aprendizado de máquina e impõe novas necessidades para outras. Com a mineração de dados, algoritmos de aprendizado estão quebrando as restrições descritas anteriormente. Dessa maneira, a grande contribuição da área de aprendizado de máquina para a mineração de dados é retribuída pelo efeito inovador que a mineração de dados provoca em aprendizado de máquina. Nesta tese, exploramos alguns desses problemas que surgiram (ou reaparecem) com o uso de algoritmos de aprendizado de máquina para mineração de dados. Mais especificamente, nos concentramos seguintes problemas: Novas abordagens para a geração de regras. Dentro dessa categoria...
Link permanente para citações:
‣ AutoCompete: A Framework for Machine Learning Competition
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 08/07/2015
Português
Relevância na Pesquisa
686.9376%
In this paper, we propose AutoCompete, a highly automated machine learning
framework for tackling machine learning competitions. This framework has been
learned by us, validated and improved over a period of more than two years by
participating in online machine learning competitions. It aims at minimizing
human interference required to build a first useful predictive model and to
assess the practical difficulty of a given machine learning challenge. The
proposed system helps in identifying data types, choosing a machine learn- ing
model, tuning hyper-parameters, avoiding over-fitting and optimization for a
provided evaluation metric. We also observe that the proposed system produces
better (or comparable) results with less runtime as compared to other
approaches.; Comment: Paper at AutoML workshop in ICML, 2015
Link permanente para citações:
‣ Global Gene Expression Analysis Using Machine Learning Methods
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 05/06/2015
Português
Relevância na Pesquisa
685.7865%
#Quantitative Biology - Quantitative Methods#Computer Science - Computational Engineering, Finance, and Science#Computer Science - Learning#Statistics - Machine Learning
Microarray is a technology to quantitatively monitor the expression of large
number of genes in parallel. It has become one of the main tools for global
gene expression analysis in molecular biology research in recent years. The
large amount of expression data generated by this technology makes the study of
certain complex biological problems possible and machine learning methods are
playing a crucial role in the analysis process. At present, many machine
learning methods have been or have the potential to be applied to major areas
of gene expression analysis. These areas include clustering, classification,
dynamic modeling and reverse engineering.
In this thesis, we focus our work on using machine learning methods to solve
the classification problems arising from microarray data. We first identify the
major types of the classification problems; then apply several machine learning
methods to solve the problems and perform systematic tests on real and
artificial datasets. We propose improvement to existing methods. Specifically,
we develop a multivariate and a hybrid feature selection method to obtain high
classification performance for high dimension classification problems. Using
the hybrid feature selection method, we are able to identify small sets of
features that give predictive accuracy that is as good as that from other
methods which require many more features.; Comment: Author's master thesis (National University of Singapore...
Link permanente para citações:
‣ Large-scale Machine Learning for Metagenomics Sequence Classification
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 26/05/2015
Português
Relevância na Pesquisa
685.7865%
#Quantitative Biology - Quantitative Methods#Computer Science - Computational Engineering, Finance, and Science#Computer Science - Learning#Quantitative Biology - Genomics#Statistics - Machine Learning
Metagenomics characterizes the taxonomic diversity of microbial communities
by sequencing DNA directly from an environmental sample. One of the main
challenges in metagenomics data analysis is the binning step, where each
sequenced read is assigned to a taxonomic clade. Due to the large volume of
metagenomics datasets, binning methods need fast and accurate algorithms that
can operate with reasonable computing requirements. While standard
alignment-based methods provide state-of-the-art performance, compositional
approaches that assign a taxonomic class to a DNA read based on the k-mers it
contains have the potential to provide faster solutions. In this work, we
investigate the potential of modern, large-scale machine learning
implementations for taxonomic affectation of next-generation sequencing reads
based on their k-mers profile. We show that machine learning-based
compositional approaches benefit from increasing the number of fragments
sampled from reference genome to tune their parameters, up to a coverage of
about 10, and from increasing the k-mer size to about 12. Tuning these models
involves training a machine learning model on about 10 8 samples in 10 7
dimensions, which is out of reach of standard soft-wares but can be done
efficiently with modern implementations for large-scale machine learning. The
resulting models are competitive in terms of accuracy with well-established
alignment tools for problems involving a small to moderate number of candidate
species...
Link permanente para citações:
‣ Self-configuration from a Machine-Learning Perspective
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
687.0837%
#Nonlinear Sciences - Adaptation and Self-Organizing Systems#Computer Science - Learning#Statistics - Machine Learning
The goal of machine learning is to provide solutions which are trained by
data or by experience coming from the environment. Many training algorithms
exist and some brilliant successes were achieved. But even in structured
environments for machine learning (e.g. data mining or board games), most
applications beyond the level of toy problems need careful hand-tuning or human
ingenuity (i.e. detection of interesting patterns) or both. We discuss several
aspects how self-configuration can help to alleviate these problems. One aspect
is the self-configuration by tuning of algorithms, where recent advances have
been made in the area of SPO (Sequen- tial Parameter Optimization). Another
aspect is the self-configuration by pattern detection or feature construction.
Forming multiple features (e.g. random boolean functions) and using algorithms
(e.g. random forests) which easily digest many fea- tures can largely increase
learning speed. However, a full-fledged theory of feature construction is not
yet available and forms a current barrier in machine learning. We discuss
several ideas for systematic inclusion of feature construction. This may lead
to partly self-configuring machine learning solutions which show robustness,
flexibility, and fast learning in potentially changing environments.; Comment: 12 pages...
Link permanente para citações:
‣ New Optimisation Methods for Machine Learning
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 08/10/2015
Português
Relevância na Pesquisa
684.9514%
A thesis submitted for the degree of Doctor of Philosophy of The Australian
National University.
In this work we introduce several new optimisation methods for problems in
machine learning. Our algorithms broadly fall into two categories: optimisation
of finite sums and of graph structured objectives. The finite sum problem is
simply the minimisation of objective functions that are naturally expressed as
a summation over a large number of terms, where each term has a similar or
identical weight. Such objectives most often appear in machine learning in the
empirical risk minimisation framework in the non-online learning setting. The
second category, that of graph structured objectives, consists of objectives
that result from applying maximum likelihood to Markov random field models.
Unlike the finite sum case, all the non-linearity is contained within a
partition function term, which does not readily decompose into a summation.
For the finite sum problem, we introduce the Finito and SAGA algorithms, as
well as variants of each.
For graph-structured problems, we take three complementary approaches. We
look at learning the parameters for a fixed structure, learning the structure
independently, and learning both simultaneously. Specifically...
Link permanente para citações:
‣ Twitter Sentiment Analysis: Lexicon Method, Machine Learning Method and Their Combination
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
685.7865%
#Computer Science - Computation and Language#Computer Science - Information Retrieval#Computer Science - Learning#Statistics - Methodology#Statistics - Machine Learning
This paper covers the two approaches for sentiment analysis: i) lexicon based
method; ii) machine learning method. We describe several techniques to
implement these approaches and discuss how they can be adopted for sentiment
classification of Twitter messages. We present a comparative study of different
lexicon combinations and show that enhancing sentiment lexicons with emoticons,
abbreviations and social-media slang expressions increases the accuracy of
lexicon-based classification for Twitter. We discuss the importance of feature
generation and feature selection processes for machine learning sentiment
classification. To quantify the performance of the main sentiment analysis
methods over Twitter we run these algorithms on a benchmark Twitter dataset
from the SemEval-2013 competition, task 2-B. The results show that machine
learning method based on SVM and Naive Bayes classifiers outperforms the
lexicon method. We present a new ensemble method that uses a lexicon based
sentiment score as input feature for the machine learning approach. The
combined method proved to produce more precise classifications. We also show
that employing a cost-sensitive classifier for highly unbalanced datasets
yields an improvement of sentiment classification performance up to 7%.; Comment: 32 pages...
Link permanente para citações:
‣ An Easy to Use Repository for Comparing and Improving Machine Learning Algorithm Usage
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Português
Relevância na Pesquisa
687.7257%
The results from most machine learning experiments are used for a specific
purpose and then discarded. This results in a significant loss of information
and requires rerunning experiments to compare learning algorithms. This also
requires implementation of another algorithm for comparison, that may not
always be correctly implemented. By storing the results from previous
experiments, machine learning algorithms can be compared easily and the
knowledge gained from them can be used to improve their performance. The
purpose of this work is to provide easy access to previous experimental results
for learning and comparison. These stored results are comprehensive -- storing
the prediction for each test instance as well as the learning algorithm,
hyperparameters, and training set that were used. Previous results are
particularly important for meta-learning, which, in a broad sense, is the
process of learning from previous machine learning results such that the
learning process is improved. While other experiment databases do exist, one of
our focuses is on easy access to the data. We provide meta-learning data sets
that are ready to be downloaded for meta-learning experiments. In addition,
queries to the underlying database can be made if specific information is
desired. We also differ from previous experiment databases in that our
databases is designed at the instance level...
Link permanente para citações:
‣ MILJS : Brand New JavaScript Libraries for Matrix Calculation and Machine Learning
Fonte: Universidade Cornell
Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 20/02/2015
Português
Relevância na Pesquisa
685.7865%
MILJS is a collection of state-of-the-art, platform-independent, scalable,
fast JavaScript libraries for matrix calculation and machine learning. Our core
library offering a matrix calculation is called Sushi, which exhibits far
better performance than any other leading machine learning libraries written in
JavaScript. Especially, our matrix multiplication is 177 times faster than the
fastest JavaScript benchmark. Based on Sushi, a machine learning library called
Tempura is provided, which supports various algorithms widely used in machine
learning research. We also provide Soba as a visualization library. The
implementations of our libraries are clearly written, properly documented and
thus can are easy to get started with, as long as there is a web browser. These
libraries are available from http://mil-tokyo.github.io/ under the MIT license.
Link permanente para citações:
‣ Sparse signal processing for machine learning and computer vision
Fonte: University of Delaware
Publicador: University of Delaware
Tipo: Tese de Doutorado
Português
Relevância na Pesquisa
684.662%
#Signal processing.#Machine learning.#Computer algorithms.#Computer vision.#Computer vision in medicine.
Barner, Kenneth E.; Signal sparse representation solves inverse problems to find succinct expressions of data samples as a linear combination of a few atoms in the dictionary or codebook. This model has proven effective in image restoration, denoising, inpainting, compression, pattern classification and automatic unsupervised feature learning. Many classical sparse coding algorithms have exorbitant computational complexity in solving the sparse solution, which hinders their applicability in real-world large-scale machine learning and computer vision problems. In this dissertation, we will first present a family of locality-constrained dictionary learning algorithms, which can be seen as a special case of sparse coding. Compared to classical sparse coding, locality-constrained coding has closed-form solution and is much more computationally efficient. In addition, the locality-preserving property enables the newly proposed algorithms to better exploit the geometric structures of data manifold. Experimental results demonstrate that our algorithms are capable of achieving superior classification performance with substantially higher efficiency, compared to sparse-coding based dictionary algorithms. Sparse coding is an effective building block of learning visual features. A good feature representation is critical for machine learning algorithms to achieve satisfactory results. In recent years...
Link permanente para citações: