Laura Tolosi
Verified Expert in Engineering
Machine Learning Developer
Laura has a Ph.D. 来自马克斯普朗克信息学研究所, Germany, in the field of computational biology, 专注于使用统计学和机器学习的癌症生物标志物检测. 她从事自然语言处理领域的项目,如命名实体识别, sentiment analysis, fake news detection. Recently, 她一直致力于将强化学习方法应用于金融工具交易.
Portfolio
Experience
Availability
Preferred Environment
R, Python
The most amazing...
...我做的项目是分析一个新的神经母细胞瘤肿瘤数据集,并寻找可能导致儿童癌症的病毒DNA.
Work Experience
数据科学家和机器学习工程师
Self-employed
- 为加密货币的算法交易实现了强化学习框架.
- 基于变形金刚(BERT),使用NLP最先进的方法从头开始实现聊天机器人.
- 使用Google Dialogflow和Google Cloud执行聊天机器人.
- 实现了从技术文档中自动提取关系的框架.
- 实现了一个用于估计电子商务客户的产品回购率的模块. 在相同的上下文中,编写了识别异常购买率的算法.
- 基于机器学习的交易数据模式检测解决方案(金融领域). 将启发式编写为生成标记数据的半自动化过程.
Lead Scientist | Text Analysis
Ontotext Ad
- Developed ML models for NLP, 包括领域适应的方法, 自动特征选择的方法, f -测度优化方法. 应用逻辑回归、SVM、CRF等模型进行分类和序列标注.
- 在R中开发了一个机器学习模型,用于将tweet分类为谣言/非谣言.
- 获得了关系数据库、本体和关联数据方面的深入知识. 实现了一个用Java编写的分类模型, 自动将维基百科页面分类为“食品和饮料”主题.
- 为了帮助大型出版公司的推荐系统,用LDA试验了主题模型.
- 构建了训练词向量嵌入和图嵌入的原型.
- 用R和Java开发了英语和保加利亚语的情感分析模型. 这些方法对英语有监督,对保加利亚语无监督.
- 在自动化和半自动集成各种RDF资源(如DBpedia和Geonames)方面获得了丰富的经验.
PhD
Max-Planck Institute für Informatik
- Gained expertise in cancer genetics, 专注于拷贝数畸变,并在表观遗传学等领域获得了额外的深入知识, transcriptomics, and viral genomes.
- 使用有监督和无监督机器学习方法建模癌症遗传数据. 使用的监督方法是:逻辑回归, elastic net, SVM, decision trees, and random forest.
- 用统计语言R编写机器学习模型,并获得了R可视化技术的深入专业知识.
- 获得向非专家(医生)展示复杂AI模型的丰富经验, 通过给出数学模型背后的直觉.
- 使用各种方法进行特征选择:带有统计测试的过滤器, penalty methods for linear models, and pruning.
- 具有扎实的计算统计和统计学习知识. This includes statistical tests, statistical distributions, estimators, and bias-variance decomposition.
- 撰写科学论文,学习如何在会议和客户面前发表高质量的演讲.
- 与医院的医生密切合作. 与医生进行跨学科的交流, 为了最大限度地为患者提供机器学习解决方案.
Experience
加拿大遗产信息网(CHIN) -数据分析
http://lauratolosi.shinyapps.io/museums/我和两个同事一起做这个项目. 我的职责是统计估计畸形数据的比例, 专注于它最重要的功能(例如. 博物馆,物品类别,类型,名称,语言). 我还必须估计有多少比例的错误是系统性的,可以通过自动方法(NLP)解决。.
最终,该项目取得了成功,超出了加拿大机构的预期.
Brexit Twitter Analysis
加密货币的算法交易
社交媒体(Twitter)上的谣言检测
我参与了PHEME项目的许多方面. 作为一名数据科学家,我开发了一个ML模型来预测Twitter上的谣言. As a member of Ontotext's team, 协调整合来自各合作伙伴的各种管道组件. 我写可交付成果、报告和科学论文来描述我们的工作.
挖掘高度结构化的信息(MobiBiz,伦敦)
与书本人物对话的聊天机器人(南加州大学图书馆)
我在项目中的角色是帮助我的团队选择一个语音识别系统,该系统可用于将用户的问题翻译成文本,并实现一个问答模型,该模型能够从可能的答案列表中选择合适的答案. I used BERT for question answering. 该系统作为web服务部署,并通过一个Flask应用程序实时接收请求.
Skills
Languages
R, Python 2, Python 3, Python, RDF, Java, SPARQL, SQL
Other
Machine Learning, Data Visualization, Random Forests, Clustering Algorithms, Natural Language Processing (NLP), Sentiment Analysis, Scientific Data Analysis, Research, Statistics, Computational Biology, GPT, 生成预训练变压器(GPT), BERT, Neural Networks, Convolutional Neural Networks, Deep Neural Networks, Generalized Linear Model (GLM), Information Retrieval, Applied Mathematics, Algorithms, Reinforcement Learning, Deep Reinforcement Learning, Chatbots, Custom BERT, ASR, Mixed-effects Models, Marketing Mix, Meta Robyn, Time Series, Hierarchical Times series, Ontologies, Deep Learning, Agile Data Science, Natural Language Understanding (NLU), Time Series Analysis
Libraries/APIs
Scikit-learn, TensorFlow, SQLAlchemy
Tools
PyCharm, Dialogflow, Git, GitLab
Platforms
Linux, Jupyter Notebook, RStudio
Frameworks
RStudio Shiny, Flask
Storage
JSON, PostgreSQL, Amazon S3 (AWS S3)
Education
PhD in Computational Biology
马克斯-普朗克信息学研究所-萨尔布尔
计算生物学硕士学位
马克斯-普朗克信息学研究所-萨尔布尔
计算机科学学士学位
布加勒斯特大学-布加勒斯特,罗马尼亚
Certifications
参加由Google Deep Mind组织的EEML深度学习暑期学校
EEML
How to Work with Toptal
在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.
Share your needs
Choose your talent
Start your risk-free talent trial
Top talent is in high demand.
Start hiring