Основы психоакустики

Эта статья была впервые опубликована на:Уокер ИИ

Хотя звук существует объективно, существует разница между субъективным слухом человека и объективной реальностью. Психоакустика изучает связь между субъективным восприятием звука и физическими величинами, поскольку субъективная реакция человеческого слуха на звук является единственным критерием оценки качества звука. Для сложных звуков его можно субъективно описать громкостью, высотой тона и тембром. Объективно громкость и высота связаны с амплитудой (амплитудой) звуковой волны, тембр — со спектром и огибающей, а высота — с частотой спектра.

1. Интенсивность звука

Амплитуда звуковой волны может быть выражена звуковым давлением или интенсивностью звука, и на практике она часто выражается уровнем, а децибелы являются широко используемой единицей измерения уровня. Основными причинами усыновления являются:

а) Энергетический диапазон звуковых колебаний относительно велик, и разница между максимальным и минимальным значениями может составлять более 10 порядков, что хлопотно и подвержено ошибкам при выражении. Использование логарифмического представления гораздо удобнее.

б) Закон роста человеческого слуха нелинейный, и субъективное восприятие громкости не пропорционально интенсивности, а близко к логарифму интенсивности.

Децибел — это единица измерения отношения количества двух одинаковых единиц, в основном используется для измерения интенсивности звука и часто выражается в дБ. «Мин» (деци-) относится к одной десятой, а одна цифра - «бел» (бел), но обычно используются только децибелы.

2. Уровень звуковой мощности, уровень интенсивности звука и уровень звукового давления

уровень звуковой мощности

Уровень звуковой мощности представляет собой логарифм по основанию 10 отношения звуковой мощности к эталонной звуковой мощности, умноженный на 10, в децибелах. Должна быть указана эталонная звуковая мощность. Его цифровое выражениеSWL=10lg(W/Wo), обычно используемая эталонная звуковая мощность Wo составляет 10-12 Вт.

уровень звука

Уровень интенсивности звука относится к уровню интенсивности звука в определенном месте.Он относится к отношению интенсивности звука в этом месте к эталонной интенсивности звука.Значение логарифма часто умножается на 10.Единицей измерения является децибел. , а символ — дБ. Математическое выражениеSIL=10log(I/I(ref)), эталонная интенсивность звука I(ref) составляет 10-12 Вт/м2.

уровень звукового давления

Уровень звукового давления относится к опорному звуковому давлению p(ref) в воздухе, которое обычно принимается равным 2*10E-5 Па. Это значение является значением звукового давления, при котором нормальное человеческое ухо может просто воспринимать существование Звук 1 кГц, то есть 1 кГц.Слышимый порог звукового давления звука. Математическое выражение:SPL=20lg(p/p(ref)).

Обычный разговор в жизни составляет около 60 дБ, шум выше 80 дБ, а предел безопасности 140 дБ, здесь используется уровень звукового давления.

librosa.power_to_db

Чтобы рассчитать децибелы в librosa, используйте отношение двух идентичных физических величин (таких как A1 и A0), возьмите логарифм по основанию 10 и умножьте на 10 (или 20).

@cache(level=30)
def power_to_db(S, ref=1.0, amin=1e-10, top_db=80.0):
    S = np.asarray(S)
    if amin <= 0:
        raise ParameterError('amin must be strictly positive')

    if np.issubdtype(S.dtype, np.complexfloating):
        warnings.warn('power_to_db was called on complex input so phase '
                      'information will be discarded. To suppress this warning, '
                      'call power_to_db(magphase(D, power=2)[0]) instead.')
        magnitude = np.abs(S)
    else:
        magnitude = S

    if six.callable(ref):
        # User supplied a function to calculate reference power
        ref_value = ref(magnitude)
    else:
        ref_value = np.abs(ref)

    log_spec = 10.0 * np.log10(np.maximum(amin, magnitude))
    log_spec -= 10.0 * np.log10(np.maximum(amin, ref_value))

    if top_db is not None:
        if top_db < 0:
            raise ParameterError('top_db must be non-negative')
        log_spec = np.maximum(log_spec, log_spec.max() - top_db)

    return log_spec

3. Частотная характеристика и громкость слуха

Уровень указывает на то, что человеческое ухо имеет нелинейное увеличение мощности сигнала.Однако два звука одинакового уровня звука могут не обязательно звучать одинаково для человеческого уха, потому что слуховая частотная характеристика человеческого уха не является плоской.

Кривая равной громкости

Из графика кривой равной громкости мы обнаружили, что человеческое ухо более чувствительно к высокочастотным звукам, а уровень громкости высокочастотных звуков выше, чем низкочастотных при одинаковом уровне звукового давления. Как правило, в женских голосах больше высокочастотных компонентов, а в мужских - относительно больше низкочастотных, поэтому женские голоса звучат громче, когда они говорят с одинаковой силой (одинаковым уровнем звукового давления).

слуховая частотная характеристика

Чем выше уровень звукового давления, тем более плоской является частотная характеристика человеческого слуха, а по мере снижения уровня звукового давления частотная характеристика человеческого слуха становится неравномерной, особенно на средних и низких частотах. Независимо от уровня звукового давления звуки ниже 20 Гц и выше 20 кГц, как правило, неслышны и наиболее чувствительны к частотному диапазону 3–5 кГц.

громкость

Уровень громкости и кривая равной громкости описывают слуховую частотную характеристику человеческого уха, но для описания субъективного суждения человеческого уха о силе звука требуется введение громкости. Громкость - безразмерная единица.

4. Шкала высоты тона

Восприятие человеческим ухом уровня звука в основном связано с частотой Восприятие высоты тона человеческим ухом примерно линейно с логарифмом основной частоты звука.

раз

Октава – единица частотного диапазона, символ – октава, равная логарифму отношения частот 2 тонов, который в музыке называется октавой.n=log2(f2/f1)

12 Закон средних чисел

Двенадцать равных темпераций, также известных как «двенадцать равных интервалов темперации», представляет собой распространенную в мире систему темперации, в которой группа нот (октава) делится на двенадцать полутоновых интервалов, а соотношение количества вибраций между соседними двумя темперациями точно равен . Двенадцать равных темпераций означают, что октавный интервал (одна октава) делится на двенадцать равных частей в соответствии с соотношением частот, и каждая равная часть называется малой секундой полутона.

Большой двух степень - это два других. Есть удивительная вещь, которая более захватывающая в 12-й части 12. Его чистое отношение частот звучания звучания (т. Е. 2 7/12) очень близко к 1,5, а человеческое ухо может в основном слышать «пять градусов жизни» и «двенадцать среднего закона» пять различий в степени интервала. Двенадцать среднего ритма широко используется в приборах симфонии и клавиатуры, и теперь фортепиано основана на двенадцати среднего закона.

тон

В психоакустике, помимо использования громкости для выражения интенсивности звука, высота звука используется для выражения субъективного слухового восприятия, а единицей высоты звука является MEL.

тембр

Тембр означает, что разные звуки всегда имеют разные характеристики с точки зрения формы волны, а разные объекты имеют разные характеристики вибрации. Тембр — это одно из свойств звука (то есть громкость, высота, тембр), в основном определяемое его обертонами. Разница между голосом каждого человека и звуками, издаваемыми различными музыкальными инструментами, обусловлена разными тембрами.

Разные звуковые генераторы имеют разный тембр из-за разных материалов и конструкций. Например, пианино, скрипки и люди издают разные звуки, и все издают разные звуки. Тембр — это характеристика звука, и он всегда так же уникален, как и внешний вид людей во всем мире. В зависимости от тембра, даже при одинаковой высоте и интенсивности звука, мы можем различать разные инструменты или людей. Как и постоянно меняющаяся палитра цветов, «тембры» также постоянно меняются и их легко понять.

Тембр также называют ладом. Почему звук другой? Потому что разные вибрации всегда можно объединить в разные звуки. Каждый музыкальный инструмент, голосовые связки разных людей и все другие вибрирующие объекты могут издавать разные звуки со своими характеристиками, и эти звуки также могут иметь инструменты, отображающие форму волны. В дополнение к «фундаментальному тону» к звуку также естественным образом добавляется множество различных «частот» (количество раз, когда вибрирующий объект вибрирует за 1 секунду) и «чередование» обертонов, которые определяют разные тембры, чтобы люди могли их различать. после прослушивания звучит другой голос. Это как различать разные «удостоверения личности».

Вообще говоря, чем богаче гармоники, тем ярче может быть тон, тем резче может быть тон, и, наоборот, чем гармоничнее бедный звук, тем тусклее или мягче тон. В дополнение к частотному спектру тембр также связан с временной структурой (огибающей) волны, включая характеристики начала, установления и затухания.

5. Психологические эффекты

бинауральный эффект

Различное расстояние звуковых волн от источника звука до двух ушей вызывает разницу в интенсивности, разнице во времени и разнице в фазе между двумя ушами. Эффект затенения, возникающий в одном ухе, также может вызывать плохую интенсивность и тон.

эффект Хааса

Эффект Хааса, также известный как эффект задержки или эффект приоритета, представляет собой способность человеческого уха различать задержанные звуки.Два одинаковых звука поступают один за другим.Если один из них на 5-35 мс быстрее, человеческое ухо едва ли уловит другой звук. играет роль полноты и дополнения, если разница составляет 30-50 мс, то человеческое ухо в какой-то мере ее уловит, но все же зависит от направления звука, который идет первым, если разница более 50 мс, человеческое ухо может различить направление источника двух звуков.

Эффект Дебо

Как одна из основ ориентации стереосистемы, эффекты, вызванные разницей в уровне интенсивности звука и разницей во времени, аналогичны, они могут компенсировать друг друга, и когда разница в уровне громкости звука ниже 15 дБ, а разница во времени находится в пределах 3 мс, между ними существует линейная зависимость Сдвиг звукового образа, вызванный разницей в интенсивности звука на 5 дБ, эквивалентен эффекту разницы во времени в 1 мс, вызванному двумя звуками, что является эффектом Дебое.

маскирующий эффект

Явление, когда на слуховое восприятие более слабого звука влияет другой более сильный звук, называется «маскирующим эффектом» человеческого уха. "Эффект маскирования" существует во временной и частотной областях, и "эффект маскирования" играет важную роль в практических акустических приложениях. Например, технология сжатия MP3 использует эффект маскирования.

эффект коктейля

Описано, что в шумной среде человеческое ухо может выбирать полезные звуки в маскирующем звуке и фокусироваться на том, что оно хочет услышать, что представляет собой способность человека выбирать и фокусироваться на слухе.

PS: Для получения дополнительной технической галантереи, пожалуйста, обратите внимание на [Публичный аккаунт | xingzhe_ai] и обсудите с ходоками!